Trillium был официально анонсирован в мае текущего года и обладает 32 ГБ памяти HBM с пропускной способностью 1,6 ТБ/с. В устройство интегрированы третьего поколения блоки SparseCore, предназначенные для оптимизации ИИ-обработки, таких как системы рекомендаций и ранжирования контента. Интерфейс ICI (Inter-Chip Interconnect), обеспечивающий передачу данных на скорости до 3,58 Тбит/с, позволяет этим ускорителям эффективно взаимодействовать друг с другом в кластере, что ускоряет обработку больших объемов данных.
Результаты тестов Trillium показали, что производительность при обучении моделей, таких как Gemma 2-27b, MaxText Default-32b и Llama2-70B, увеличивается более чем в четыре раза, а для LLama2-7b и Gemma2-9b — более чем в три раза, по сравнению с TPU v5e.
При инференсе модели Stable Diffusion XL на Trillium была зафиксирована трехкратная прибавка производительности. По показателю цена/производительность TPU v6e демонстрирует рост в 1,8 раза по сравнению с TPU v5e и практически вдвое — по сравнению с TPU v5p.
Среди ключевых преимуществ TPU v6e (версии Trillium) по сравнению с предшествующим TPU v5e выделяют:
- Более чем четырёхкратное повышение производительности при обучении ИИ-моделей
- Увеличение производительности инференса до трёх раз
- Улучшение энергоэффективности на 67 %
- Повышение пиковой вычислительной производительности в расчёте на чип в 4,7 раза
- Двукратное увеличение ёмкости HBM
- Удвоение пропускной способности межчипового интерконнекта ICI
Каждый узел состоит из восьми TPU v6e, расположенных в двух NUMA-доменах, двух процессоров с 180 vCPU, 1,44 ТБ оперативной памяти и четырех 200G-адаптеров (по два на каждый CPU) для связи с другими системами. В кластере могут быть соединены до 256 устройств Trillium, обеспечивая пропускную способность сети до 25,6 Тбит/с. Для объединения больших кластеров в десятки тысяч ускорителей используется оптическая платформа Google Jupiter, которая достигает пропускной способности 13 Пбит/с. Trillium также включен в высокопроизводительную платформу AI Hypercomputer, предназначенную для ресурсоемких ИИ-задач.
Специальное программное обеспечение Multislice позволяет Trillium масштабировать производительность практически линейно, особенно в задачах ИИ-обучения. Кластеры на базе TPU v6e могут достигать 91 Эфлопс в ИИ-вычислениях, что более чем в четыре раза превышает аналогичные системы на TPU v5p. Пиковая производительность TPU v6e составляет 918 Тфлопс для операций с использованием BF16 и 1836 Топс для INT8.
ссылка на оригинал статьи https://habr.com/ru/articles/855898/
Добавить комментарий