Cerebras запустили Kimi K2.6 на скорости ~1000 токенов в секунду

Май 25, 2026

—

от автора

Для тех, кто слышит про Cerebras впервые, расскажу. Cerebras — это американский чипмейкер, который пошёл против индустрии: вместо кластеров из сотен GPU они делают один огромный процессор размером с ноутбук.

Он содержит 4 триллиона транзисторов, 900 тысяч вычислительных ядер и 44 гигабайта памяти прямо на кристалле. Вся память рядом с вычислениями, данные не гоняются по сети между чипами, отсюда и скорость.

В январе 2026-го статус компании резко изменился: OpenAI подписала многолетний контракт на развёртывание 750 МВт мощностей Cerebras для обслуживания своих пользователей. Сделка оценивается более чем в 20 млрд долларов, OpenAI также выдала Cerebras кредит на 1 млрд. Первый совместный продукт — GPT-5.3-Codex-Spark, работающий на скорости более 1200 токенов/с.

На этом же железе Cerebras теперь запустили Kimi K2.6 для корпоративных клиентов. Это первая триллионная open-weight модель в их инфраструктуре. Измерения Artificial Analysis: 981 токен/с — в 6,7 раза быстрее ближайшего GPU-облака и в 23 раза быстрее медианного провайдера. На практике: запрос с 10 000 токенов входа и 500 токенов ответа занимает 5,6 секунды против 163,7 секунды на официальном эндпоинте Kimi.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

ссылка на оригинал статьи https://habr.com/ru/articles/1038994/