
Компания Cerebras, известная гигантскими ИИ-чипами размером с кремниевую пластину, запустила модель Gemma 4 на своей платформе инференса со скоростью свыше 1500 токенов в секунду. Пока это приватное превью, общий доступ обещают открыть до конца месяца. Это не первая модель, которую Cerebras запускает на повышенной скорости, но первая с поддержкой мультимодальности: на прием она может получать не только текст, но и картинки.
Cerebras приводит примеры, где сочетание скорости и мультимодальности меняет ощущения от продукта:
-
разбор плотного дашборда или страницы документа с выделением главного и структурированным ответом — сразу, а не после паузы;
-
суммаризация длинного отчета или техзадания так быстро, что можно прочитать, среагировать и переспросить за один присест;
-
«скриншот → патч»: модель получает сломанный интерфейс, исходник и ошибку из консоли и возвращает минимальную правку.
В цифрах Cerebras подает это так: их Gemma 4 выдает свыше 1500 токенов в секунду против примерно 100 у Claude Haiku — то есть быстрее в 15 раз при сопоставимом качестве. По индексу Artificial Analysis Intelligence Index Gemma 4 31B набирает 29 баллов против 30 у Haiku. Стоит держать в уме, что и само сравнение, и подбор референсной модели — это позиционирование вендора: Cerebras прямо предлагает мигрировать на Gemma 4 тем, кто сидит на Llama, GPT-OSS или Haiku.
Любопытная деталь для тех, кто следит за архитектурой. Чипы Cerebras традиционно хороши на разреженных вычислениях и заметно хуже чувствуют себя на плотных матрицах — а флагманская Gemma 4 31B как раз dense-модель, без смеси экспертов. Так что 1500 токенов в секунду на ней — знаковый результат для чипов Cerebras, которые как раз нацелены на быстрый и дешевый инференс.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1049968/