Yandex Research и НИУ ВШЭ разработали метод ускорения генерации изображений в нейросетях до 0,3 секунды

Команда учёных из Yandex Research и НИУ ВШЭ предложила метод, снижающий вычислительные затраты и ускоряющий генерацию изображений в диффузионных моделях без потери качества. Статья с описанием разработки была принята на конференцию в области искусственного интеллекта ICLR 2026.

Разработанный исследователями из Yandex Research и НИУ ВШЭ метод Scale‑wise Distillation of Diffusion Models позволяет получать результат почти мгновенно. Время генерации составляет 0,3–0,4 секунды. Процесс генерации в диффузионных моделях требует десятков шагов с вычислениями в высоком разрешении. На ранних этапах формируется только общая структура изображения, а мелкие детали ещё не различимы. Поэтому часть вычислений оказывается избыточной.

Новый метод решает эту проблему двумя способами. Генерация начинается с низкого разрешения и постепенно уточняется по мере снижения шума. Это исключает избыточные вычисления на ранних этапах. Метод использует дистилляцию уже обученных моделей, таких как FLUX и Stable Diffusion 3.5. Более простая модель‑студент учится воспроизводить результат сложной модели и сокращает число шагов генерации с десятков до 4–6.

Для обучения используется предложенная авторами новая функция потерь Maximum Mean Discrepancy. Она сравнивает то, как модель‑учитель видит изображение на своих внутренних уровнях обработки, с тем, как модель‑студент представляет то же изображение. В отличие от традиционных подходов это не требует вспомогательных моделей.

В экспериментах с функцией время одной итерации обучения сокращалось в 7 раз по сравнению со сложными комбинированными подходами. Метод Scale‑wise Distillation of Diffusion Models сокращает время генерации с нескольких секунд до 0,3–0,4 секунды при сохранении визуального качества. Кроме того, Maximum Mean Discrepancy можно использовать как самостоятельный метод дистилляции.

ссылка на оригинал статьи https://habr.com/ru/articles/1028142/