Новый ИИ-ускоритель Trillium от Google уже доступен в облаке GCP

от автора

Компания Google представила новый ИИ-ускоритель TPU v6 под названием Trillium, который уже доступен для тестирования пользователями через Google Cloud Platform. По словам Google, этот ускоритель считается наиболее передовым решением компании по критерию цены и производительности, что делает его привлекательным для задач глубокого обучения и крупных ИИ-проектов.



Trillium был официально анонсирован в мае текущего года и обладает 32 ГБ памяти HBM с пропускной способностью 1,6 ТБ/с. В устройство интегрированы третьего поколения блоки SparseCore, предназначенные для оптимизации ИИ-обработки, таких как системы рекомендаций и ранжирования контента. Интерфейс ICI (Inter-Chip Interconnect), обеспечивающий передачу данных на скорости до 3,58 Тбит/с, позволяет этим ускорителям эффективно взаимодействовать друг с другом в кластере, что ускоряет обработку больших объемов данных.

Результаты тестов Trillium показали, что производительность при обучении моделей, таких как Gemma 2-27b, MaxText Default-32b и Llama2-70B, увеличивается более чем в четыре раза, а для LLama2-7b и Gemma2-9b — более чем в три раза, по сравнению с TPU v5e.

При инференсе модели Stable Diffusion XL на Trillium была зафиксирована трехкратная прибавка производительности. По показателю цена/производительность TPU v6e демонстрирует рост в 1,8 раза по сравнению с TPU v5e и практически вдвое — по сравнению с TPU v5p.

Среди ключевых преимуществ TPU v6e (версии Trillium) по сравнению с предшествующим TPU v5e выделяют:

  • Более чем четырёхкратное повышение производительности при обучении ИИ-моделей
  • Увеличение производительности инференса до трёх раз
  • Улучшение энергоэффективности на 67 %
  • Повышение пиковой вычислительной производительности в расчёте на чип в 4,7 раза
  • Двукратное увеличение ёмкости HBM
  • Удвоение пропускной способности межчипового интерконнекта ICI

Каждый узел состоит из восьми TPU v6e, расположенных в двух NUMA-доменах, двух процессоров с 180 vCPU, 1,44 ТБ оперативной памяти и четырех 200G-адаптеров (по два на каждый CPU) для связи с другими системами. В кластере могут быть соединены до 256 устройств Trillium, обеспечивая пропускную способность сети до 25,6 Тбит/с. Для объединения больших кластеров в десятки тысяч ускорителей используется оптическая платформа Google Jupiter, которая достигает пропускной способности 13 Пбит/с. Trillium также включен в высокопроизводительную платформу AI Hypercomputer, предназначенную для ресурсоемких ИИ-задач.

Специальное программное обеспечение Multislice позволяет Trillium масштабировать производительность практически линейно, особенно в задачах ИИ-обучения. Кластеры на базе TPU v6e могут достигать 91 Эфлопс в ИИ-вычислениях, что более чем в четыре раза превышает аналогичные системы на TPU v5p. Пиковая производительность TPU v6e составляет 918 Тфлопс для операций с использованием BF16 и 1836 Топс для INT8.



ссылка на оригинал статьи https://habr.com/ru/articles/855898/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *