Gemma 4 стала быстрее в 3 раза без потери качества

от автора

Google открыла веса вспомогательных моделей для всей линейки Gemma 4 — E2B, E4B, 26B MoE и 31B Dense. Они доступны на Hugging Face и Kaggle под Apache 2.0 и уже работают с transformers, MLX, vLLM, SGLang и Ollama.

Стандартная генерация токенов устроена неэффективно: процессор большую часть времени тратит не на вычисления, а на перекачку весов модели из памяти. Из-за этого даже мощные GPU простаивают, пока генерируется один токен.

Speculative decoding решает это следующим образом: маленькая вспомогательная модель (drafter) набрасывает несколько следующих токенов сразу, а основная проверяет их за один проход. Если согласна — принимает всю последовательность плюс добавляет свой токен. Один проход основной модели даёт несколько токенов вместо одного.

По замерам на LiteRT-LM, MLX, Hugging Face Transformers и vLLM — прирост до 3x. Gemma 4 26B на NVIDIA RTX PRO 6000 с drafter’ом генерирует вдвое быстрее при том же качестве вывода — верификацию по-прежнему делает основная модель.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

ссылка на оригинал статьи https://habr.com/ru/articles/1031968/