Команда Kandinsky выпустила в открытый доступ семейство токенизаторов KVAE-2.0 для генерации изображений и видео

от автора

Разработчики Kandinsky выложили в открытый доступ KVAE-2.0. KVAE-2.0 представляет собой семейство токенизаторов для диффузионных моделей генерации изображений и видео. Как сообщили информационной службе Хабра в пресс‑службе «Сбера», новое решение позволяет сжимать видео до четырёх раз сильнее по сравнению с предыдущей версией. При этом качество восстановления изображения становится только лучше. Для разработчиков и исследователей это означает, что обучение диффузионных моделей ускоряется на порядок. Сами решения на базе искусственного интеллекта работают качественнее. Требования к вычислительной инфраструктуре снижаются.

Токенизаторы преобразуют изображения и видео в компактный числовой код, который называется латентным представлением. С ним работают генеративные модели, такие как Kandinsky. От структуры этого представления напрямую зависят вычислительные затраты на обучение генеративной модели и её итоговое качество.

KVAE-2.0 фокусируется на создании семантически устойчивых представлений. Это специальные коды, которые точно и стабильно отражают смысл изображения и лучше сохраняют значимые элементы сцены, такие как текст, лица и структурные объекты. Это критично для работы основной генеративной модели в прикладных сценариях. Среди них генерация рекламных материалов и создание образовательного контента. Модели KVAE-2.0 дополнительно обучили работе с русским текстом в кадре. В этих сценариях их качество значительно выше аналогов.

Как заявили создатели, по ключевым метрикам качества KVAE-2.0 опережает аналоги от Tencent и Alibaba. Руководитель проекта Kandinsky и управляющий директор по исследованию данных «Сбера» Денис Димитров отметил, что с KVAE-2.0 качественная видеогенерация стала доступнее для стартапов, университетов и независимых разработчиков. Решение позволяет обучать модели генерации видео с нуля в разы быстрее и дешевле. Разработчики могут не зависеть от зарубежных токенизаторов и достигать лучших результатов по качеству.

По словам Дениса Димитрова, это открывает новые сценарии. Среди них генерация рекламных роликов с точными логотипами и текстом, а также создание учебных материалов с чёткими визуальными деталями. Денис Димитров добавил, что все модели линейки находятся в открытом доступе. Это даёт инженерам и исследователям возможность использовать их в своих разработках и стимулирует рост открытой экосистемы отечественных технологий.

ссылка на оригинал статьи https://habr.com/ru/articles/1030256/