
Искусственный интеллект уже давно вышел из лабораторий и стал частью инфраструктуры. Модели растут, задачи усложняются, и прежний подход с одним типом ускорителей начинает давать сбои. Сейчас крайне важно правильно распределить вычисления между обучением и работой моделей в дата-центрах. На этом фоне Google, которая давно развивает собственные тензорные процессоры, представила новое поколение TPU и сделала ставку на специализацию. Вместо универсального решения компания фактически разделила чипы на два типа — обучение и вывод моделей. Давайте посмотрим, что корпорация предложила и как оно работает.
Что представляют собой новые TPU восьмого поколения
Раньше производители делали универсальные ускорители, которые применялись и для обучения нейросетей, и на этапе их эксплуатации. Со временем стало ясно, что такой подход упирается в ограничения: требования этих сценариев слишком различаются. Для обучения нужна максимальная параллельная мощность и высокая пропускная способность памяти, тогда как в продакшене на первый план выходят минимальные задержки и умение эффективно использовать ограниченный объем быстрой памяти под конкретные запросы. По мере роста объемов данных и усложнения задач этот разрыв только усиливался и использование одного и того же оборудования для всех сценариев становилось экономически невыгодным и приводило к простоям.
Новые TPU условно разделили на два типа: 8t для обучения и 8i для вывода моделей.
Чип 8t рассчитан на обучение, и здесь инженеры сосредоточились на том, чтобы заметно сократить время тренировки самых крупных систем, которое раньше могло растягиваться на месяцы. В одном вычислительном кластере теперь размещается до 9600 таких процессоров, а общий объем высокоскоростной памяти достигает двух петабайт. Это позволяет масштабировать систему вплоть до сотен тысяч и потенциально миллионов чипов в едином логическом пространстве.
Производительность такого кластера — около 121 эксафлопс в формате FP4, что почти втрое выше уровня предыдущего поколения Ironwood. При этом система остается эффективной даже при высокой нагрузке: она лучше справляется с нерегулярными обращениями к памяти, умеет автоматически фиксить сбои и отслеживает состояние всего кластера в реальном времени.
Еще одно важное изменение — переход на собственные ARM-процессоры Google Axion. Обновленная схема взаимодействия между CPU и ускорителями снижает внутренние задержки и упрощает управление крупными вычислительными системами.
Второй чип, TPU 8i, предназначен для вывода готовых моделей, когда нейросеть начинает работать с реальными запросами и генерировать токены. Здесь акцент сделан на скорости обработки последовательных задач и эффективном взаимодействии с длинными контекстами. Кластеры для него собирают до 1152 процессоров, что заметно больше, чем в предыдущем поколении Ironwood, а объем встроенной SRAM вырос примерно втрое и достигает 384 мегабайт. Это позволяет удерживать в кеше больше данных о ключах и значениях, что особенно важно при работе с моделями, обрабатывающими огромные объемы информации за один проход.
Оба варианта чипов изначально проектировались с поддержкой популярных фреймворков, включая JAX, MaxText, PyTorch, SGLang и vLLM, поэтому разработчики третьих компаний могут переносить свои решения на новую платформу без серьезных переделок кода. Вся система получилась комплексной: от железа до сетевой инфраструктуры и охлаждения, что сразу сказывается на реальной эксплуатации в дата-центрах.
Такое разделение открывает возможность по-настоящему оптимизировать каждый этап. Для обучения теперь можно строить гигантские кластеры с максимальной плотностью вычислений и минимальными потерями на телеметрию и исправление ошибок, а для вывода — настраивать конфигурации под одновременную работу множества экземпляров модели без постоянного переключения режимов. В итоге инфраструктура перестает быть компромиссом и становится инструментом, который точно соответствует реальным нагрузкам современного ИИ.
Как новые процессоры связаны с развитием агентных ИИ-систем
Агентные системы — это следующий шаг в развитии ИИ: модели уже не просто отвечают на вопросы, а выполняют последовательные действия, используют внешние инструменты и рассуждают в несколько шагов. Для таких сценариев важны низкие задержки, работа с длинными контекстами и возможность удерживать в памяти промежуточные результаты. В этом месте TPU 8i и дает преимущество: увеличенный объем быстрой памяти позволяет реже обращаться к медленным хранилищам и оперативнее обрабатывать сложные цепочки действий.
Чип для вывода сокращает задержки между шагами, что особенно важно в сценариях, где агент должен быстро принимать решения и сразу переходить к следующему действию. Он хорошо работает с фреймворками вроде SGLang и vLLM, поэтому разработчики могут запускать сложные цепочки процессов без просадок по скорости. При этом TPU 8t ускоряет обучение таких систем, сокращая путь от эксперимента до рабочей версии с месяцев до недель и позволяя чаще обновлять модели под меняющиеся условия.
В итоге вся инфраструктура под агентные системы становится более сбалансированной. Обучение перестает быть единственным узким местом, а вывод получает свой оптимизированный инструмент, который лучше учитывает требования к памяти и задержкам. Это открывает путь к по-настоящему автономным решениям, способным работать в сложных средах — от анализа больших массивов данных до управления бизнес-процессами в реальном времени.
Систему дополняет четвертое поколение жидкостного охлаждения: оно автоматически подстраивается под текущую нагрузку, отводя больше тепла там, где нужно. Это делает такие кластеры более удобными для массового развертывания. В перспективе подобный подход может стать стандартом для отрасли, потому что агентный ИИ требует разделенной и хорошо оптимизированной инфраструктуры.
Что в итоге
Для сторонних разработчиков это тоже плюс: чипы поддерживают популярные инструменты и доступны в облаке Google. За счет этого проще запускать агентные системы и контролировать затраты при росте нагрузки.
По сути, это сдвигает фокус с универсальных ускорителей на подбор конфигурации под конкретную задачу. Инфраструктура начинает собираться как конструктор из специфических компонентов, и именно такой подход, скорее всего, будет определять развитие ИИ-систем в ближайшие годы.
А вы уже пробовали работать со специализированными ускорителями или пока используете универсальные решения? Пишите в комментариях.
ссылка на оригинал статьи https://habr.com/ru/articles/1031688/