
Google DeepMind представила DiffusionGemma — экспериментальную модель с открытыми весами, которая отказывается от классической авторегрессии в пользу дискретной диффузии. Вместо того чтобы выдавать токены по одному слева направо, модель работает как генераторы изображений: начинает со случайного «шума» из токенов-заглушек и за несколько проходов уточняет целый блок текста размером до 256 токенов сразу. Веса уже доступны на Hugging Face под лицензией Apache 2.0.
В основе лежит архитектура Gemma 4 26B A4B — модель со смесью экспертов на 26 миллиардов параметров, из которых при выводе активны лишь 3,8 миллиарда. Благодаря этому квантованная версия умещается в 18 ГБ видеопамяти и запускается на потребительских видеокартах. Главный выигрыш — скорость: Google заявляет до 4 раз более быструю генерацию по сравнению с обычными авторегрессионными моделями, свыше 700 токенов в секунду на GeForce RTX 5090 и более 1000 токенов в секунду на одном ускорителе H100. Дело в том, что при локальном запуске для одного пользователя классические модели упираются в пропускную способность памяти, а диффузионный подход смещает узкое место в сторону вычислений, которые у современных видеокарт в избытке.
Ключевой механизм Google называет Uniform State Diffusion: модель делает несколько проходов по «холсту» из случайных токенов, на каждом фиксирует позиции, в которых уверена, и использует их как контекст для соседних. Для длинных ответов применяется блочно-авторегрессионная схема: полностью «расшумленный» блок из 256 токенов записывается в KV-кеш, после чего модель начинает новый холст с учетом всей предыдущей истории. Двунаправленное внимание внутри блока дает побочный эффект, недоступный обычным моделям, — самокоррекцию: DiffusionGemma «видит» весь фрагмент целиком и может исправлять ошибки на лету, а не дописывать текст к уже зафиксированным токенам.
Возможности такого подхода Google показывает на судоку — задаче с жесткими взаимными ограничениями, где авторегрессионные модели традиционно буксуют. Базовая DiffusionGemma решает примерно 0% головоломок, но после простого дообучения по официальному рецепту на JAX доля правильных решений вырастает до 80%, причем дообученная модель сходится за меньшее число шагов. При этом компания честно признает компромисс: по всем бенчмаркам DiffusionGemma уступает обычной Gemma 4 26B A4B, и для задач, где важно максимальное качество, Google рекомендует стандартную модель.
Модель мультимодальная — принимает текст, изображения и видео, выдает текст, поддерживает системный промпт и режим рассуждений. Поддержка в Hugging Face Transformers, vLLM, SGLang, MLX и Unsloth заявлена с первого дня, развернуть ее можно в Vertex AI Model Garden или через NVIDIA NIM, а квантованные версии в формате GGUF уже доступны для llama.cpp. Это первый по-настоящему практичный текстовый диффузионник с открытыми весами от крупной лаборатории: год назад Google показывала Gemini Diffusion лишь в закрытом исследовательском превью, теперь же технологию можно запустить у себя на видеокарте.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1046273/