NVIDIA ускорила языковую модель в 4 раза: вышла Nemotron-Labs Diffusion

от автора

NVIDIA выпустила открытое семейство языковых моделей Nemotron-Labs Diffusion — на флагманском GPU B200 они генерируют 865 токенов в секунду, в 4 раза быстрее обычной токен-за-токеном генерации на том же железе и без потери качества. Линейка включает модели на 3, 8 и 14 миллиардов параметров, плюс мультимодальный вариант на 8 миллиардов с поддержкой картинок.

Главная идея — режим, который в NVIDIA называют self-speculation (самоспекуляция). Обычно для ускорения языковых моделей используют связку из двух моделей: маленькая быстро накидывает несколько токенов вперед как черновик, большая проверяет их одним проходом. Если угадала — экономия, если нет — переделка. В Nemotron-Labs Diffusion черновик и проверяющий — это одна и та же модель в разных режимах работы. Параллельно генерирует черновик из нескольких токенов в диффузионном режиме, затем сама же его верифицирует в обычном авторегрессионном режиме. Никакой отдельной маленькой модели не нужно.

Экономия берется из того, как работают GPU. При обычной генерации каждый новый токен — это полный проход через всю модель с загрузкой всех весов из памяти, и большую часть времени GPU ждет память, а не считает. В режиме self-speculation за один проход обрабатывается сразу 5-7 токенов в среднем. Главное: при детерминированной генерации (temperature 0) результат побитово совпадает с обычной авторегрессией. То есть это не приближение и не компромисс — это бесплатное ускорение без изменения ответа.

По цифрам Nemotron-Labs Diffusion 8B дает на 1,2% больше средней точности, чем Qwen3 8B. На бенчмарке SPEED-Bench модель работает в 2,4 раза быстрее, чем Qwen3 8B с Eagle3 — это один из самых сильных методов спекулятивного декодинга в индустрии. Среднее число принятых токенов за один проход у Nemotron-Labs Diffusion — 5,46 (без дообучения) и 6,82 (после тонкой настройки через LoRA), у Eagle3 — 2,75. На задачах программирования, математики, рассуждений и мультиязычности разрыв шире: 8,69 против 2,81.

Сам подход NVIDIA в теории применим и к другим современным языковым моделям — все они авторегрессионные, и метод из предыдущей работы компании Efficient-DLM описывает, как добавить к готовой AR-модели диффузионные возможности через дообучение и изменение механизма внимания, не переписывая ее с нуля. Но на практике это требует доступа к весам и инфраструктуре continued pretraining, поэтому быстрее всего эффект может проявиться в открытых семействах вроде Llama, Qwen или DeepSeek. Закрытые модели вроде Claude, GPT или Gemini смогут получить такое же ускорение только если сами Anthropic, OpenAI или Google сочтут подход работающим для своих архитектур и решат применить его.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1038714/