
Компания DeepSeek совместно с Пекинским университетом выпустила DSpark — модуль, который ускоряет выдачу ответов нейросети, не меняя саму модель. На боевых серверах превью-версий DeepSeek-V4-Flash и V4-Pro скорость генерации для каждого пользователя выросла до +85%. Код и технический отчет компания опубликовала на GitHub.
Технология относится к классу спекулятивного декодирования и ускоряет ответы без потери качества — итоговый текст остается математически идентичным обычной генерации. Прирост измеряли относительно прежнего рабочего варианта под названием MTP-1.
Под капотом — две идеи. Сама схема спекулятивного декодирования устроена так: легкая модель-черновик забегает вперед и быстро набрасывает сразу несколько токенов (слов или их частей), а большая модель проверяет весь блок за один проход — это дешевле, чем генерировать те же токены по одному. Совпавший отрезок с начала блока принимается целиком, и пользователь получает несколько слов за время одного шага. Загвоздка — в качестве черновика: если набрасывать токены блока разом и независимо друг от друга, они плохо стыкуются, и модель легко склеит начало одной фразы с концом другой. Чем дальше от начала блока, тем больше такого брака и тем больше токенов в итоге отвергается. DeepSeek оставил быстрый параллельный черновик, но добавил к нему крошечный последовательный модуль, который перед каждым следующим токеном оглядывается на уже выбранные. Склейка перестает разваливаться, а скорость черновика почти не страдает.
Вторая идея — не проверять лишнего. Проверка блока не бесплатна: под высокой нагрузкой каждый лишний токен занимает в очереди место, которое могло бы достаться другому пользователю, а токены в хвосте блока все равно чаще отвергаются. Поэтому DSpark заранее оценивает для каждого токена шанс пройти проверку, а отдельный планировщик в реальном времени смотрит на загрузку видеокарт: пока ресурсы свободны, он расширяет проверку с прежних двух токенов до пяти-шести, а под пиковой нагрузкой обрезает блок до самых надежных. Так ускорение не оборачивается перегрузкой серверов в час пик.
Одновременно DeepSeek открыл DeepSpec — полный набор инструментов для обучения таких моделей-черновиков. Внутри сразу три алгоритма, включая DSpark, а также поддержка чужих моделей — Qwen3 от Alibaba и Gemma от Google. То есть ускорять этим методом можно не только продукты самой DeepSeek, но и сторонние нейросети.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1052644/