Google разделила свои новые ИИ-чипы на два типа: зачем это нужно

от автора

Искусственный интеллект уже давно вышел из лабораторий и стал частью инфраструктуры. Модели растут, задачи усложняются, и прежний подход с одним типом ускорителей начинает давать сбои. Сейчас крайне важно правильно распределить вычисления между обучением и работой моделей в дата-центрах. На этом фоне Google, которая давно развивает собственные тензорные процессоры, представила новое поколение TPU и сделала ставку на специализацию. Вместо универсального решения компания фактически разделила чипы на два типа — обучение и вывод моделей. Давайте посмотрим, что корпорация предложила и как оно работает. 


Что представляют собой новые TPU восьмого поколения

Раньше производители делали универсальные ускорители, которые применялись и для обучения нейросетей, и на этапе их эксплуатации. Со временем стало ясно, что такой подход упирается в ограничения: требования этих сценариев слишком различаются. Для обучения нужна максимальная параллельная мощность и высокая пропускная способность памяти, тогда как в продакшене на первый план выходят минимальные задержки и умение эффективно использовать ограниченный объем быстрой памяти под конкретные запросы. По мере роста объемов данных и усложнения задач этот разрыв только усиливался и использование одного и того же оборудования для всех сценариев становилось экономически невыгодным и приводило к простоям. 

Новые TPU условно разделили на два типа: 8t для обучения и 8i для вывода моделей. 

Чип 8t рассчитан на обучение, и здесь инженеры сосредоточились на том, чтобы заметно сократить время тренировки самых крупных систем, которое раньше могло растягиваться на месяцы. В одном вычислительном кластере теперь размещается до 9600 таких процессоров, а общий объем высокоскоростной памяти достигает двух петабайт. Это позволяет масштабировать систему вплоть до сотен тысяч и потенциально миллионов чипов в едином логическом пространстве. 

Производительность такого кластера — около 121 эксафлопс в формате FP4, что почти втрое выше уровня предыдущего поколения Ironwood. При этом система остается эффективной даже при высокой нагрузке: она лучше справляется с нерегулярными обращениями к памяти, умеет автоматически фиксить сбои и отслеживает состояние всего кластера в реальном времени.

Еще одно важное изменение — переход на собственные ARM-процессоры Google Axion. Обновленная схема взаимодействия между CPU и ускорителями снижает внутренние задержки и упрощает управление крупными вычислительными системами.

Второй чип, TPU 8i, предназначен для вывода готовых моделей, когда нейросеть начинает работать с реальными запросами и генерировать токены. Здесь акцент сделан на скорости обработки последовательных задач и эффективном взаимодействии с длинными контекстами. Кластеры для него собирают до 1152 процессоров, что заметно больше, чем в предыдущем поколении Ironwood, а объем встроенной SRAM вырос примерно втрое и достигает 384 мегабайт. Это позволяет удерживать в кеше больше данных о ключах и значениях, что особенно важно при работе с моделями, обрабатывающими огромные объемы информации за один проход. 

Оба варианта чипов изначально проектировались с поддержкой популярных фреймворков, включая JAX, MaxText, PyTorch, SGLang и vLLM, поэтому разработчики третьих компаний могут переносить свои решения на новую платформу без серьезных переделок кода. Вся система получилась комплексной: от железа до сетевой инфраструктуры и охлаждения, что сразу сказывается на реальной эксплуатации в дата-центрах.

Такое разделение открывает возможность по-настоящему оптимизировать каждый этап. Для обучения теперь можно строить гигантские кластеры с максимальной плотностью вычислений и минимальными потерями на телеметрию и исправление ошибок, а для вывода — настраивать конфигурации под одновременную работу множества экземпляров модели без постоянного переключения режимов. В итоге инфраструктура перестает быть компромиссом и становится инструментом, который точно соответствует реальным нагрузкам современного ИИ.

Как новые процессоры связаны с развитием агентных ИИ-систем

Агентные системы — это следующий шаг в развитии ИИ: модели уже не просто отвечают на вопросы, а выполняют последовательные действия, используют внешние инструменты и рассуждают в несколько шагов. Для таких сценариев важны низкие задержки, работа с длинными контекстами и возможность удерживать в памяти промежуточные результаты. В этом месте TPU 8i и дает преимущество: увеличенный объем быстрой памяти позволяет реже обращаться к медленным хранилищам и оперативнее обрабатывать сложные цепочки действий. 

Чип для вывода сокращает задержки между шагами, что особенно важно в сценариях, где агент должен быстро принимать решения и сразу переходить к следующему действию. Он хорошо работает с фреймворками вроде SGLang и vLLM, поэтому разработчики могут запускать сложные цепочки процессов без просадок по скорости. При этом TPU 8t ускоряет обучение таких систем, сокращая путь от эксперимента до рабочей версии с месяцев до недель и позволяя чаще обновлять модели под меняющиеся условия. 

В итоге вся инфраструктура под агентные системы становится более сбалансированной. Обучение перестает быть единственным узким местом, а вывод получает свой оптимизированный инструмент, который лучше учитывает требования к памяти и задержкам. Это открывает путь к по-настоящему автономным решениям, способным работать в сложных средах — от анализа больших массивов данных до управления бизнес-процессами в реальном времени. 

Систему дополняет четвертое поколение жидкостного охлаждения: оно автоматически подстраивается под текущую нагрузку, отводя больше тепла там, где нужно. Это делает такие кластеры более удобными для массового развертывания. В перспективе подобный подход может стать стандартом для отрасли, потому что агентный ИИ требует разделенной и хорошо оптимизированной инфраструктуры. 

Что в итоге 

Для сторонних разработчиков это тоже плюс: чипы поддерживают популярные инструменты и доступны в облаке Google. За счет этого проще запускать агентные системы и контролировать затраты при росте нагрузки.

По сути, это сдвигает фокус с универсальных ускорителей на подбор конфигурации под конкретную задачу. Инфраструктура начинает собираться как конструктор из специфических компонентов, и именно такой подход, скорее всего, будет определять развитие ИИ-систем в ближайшие годы.

А вы уже пробовали работать со специализированными ускорителями или пока используете универсальные решения? Пишите в комментариях.

ссылка на оригинал статьи https://habr.com/ru/articles/1031688/