Китайские команды MiMo и TileRT опубликовали режим UltraSpeed для модели MiMo V2.5 Pro (1,02T параметров).
На одном 8-карточном сервере со стандартными GPU, до ~1200 токенов в секунду. Cerebras выдаёт похожие скорости на кастомном железе. Здесь обошлись без него.

В кратце работает так:
-
MoE-слои сжали с 16 до 4 бит: они занимают большую часть весов и хорошо переносят потерю точности, остальное оставили нетронутым
-
Рядом с основной моделью запускается маленькая, которая угадывает сразу 8 токенов вперёд
-
Основная проверяет их разом и принимает правильные
-
В coding-сценариях угадывается ~6,3 токенов из 8
Похожий механизм Google применяет в Gemma 4.
На видео можно заценить скорость: 12 секунд против 6 минут на стандартных скоростях, к которым мы сейчас привыкли.
Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!
ссылка на оригинал статьи https://habr.com/ru/articles/1045594/