Яндекс представил диффузионную нейросеть YandexART 2.0 — в её основе новая гибридная архитектура

от автора

Привет, Хабр! На связи Евгений Ляпустин из команды компьютерного зрения Яндекса. Сегодня вместе с коллегами из Yandex Research мы представляем новое поколение нашей диффузионной нейросети — YandexART 2.0. Она уже применяется в Алисе, а также доступна всем желающим через API в Yandex Cloud. 

Новая модель умеет создавать надписи прямо на изображениях, придерживаться нескольких стилей на одной картинке, располагать объекты в пространстве и относительно друг друга более естественно и учитывать при генерации больше деталей из текстового запроса.

Под катом — не только новость, но и краткий рассказ о том, как устроена модель на техническом уровне и какие возможности это открывает перед нашими пользователями.

Что изменили в архитектуре и датасете

Раньше для нашей модели мы использовали классический вариант свёрточной архитектуры U-Net, которая знакома многим по таким нейросетям, как DALL-E 2 и Imagen. Несмотря на неплохие результаты, она явно требовала переосмысления. Мы попробовали перейти на трансформеры, о применении которых рассказывали создатели Stable Diffusion 3 и FLUX, но не увидели значимого улучшения в качестве. Хотя у подхода с трансформерами есть очевидные достоинства. Например, трансформеры позволяют учитывать длинный контекст, а значит, точнее следовать сложным промптам. Мы не стали выбирать и собрали свой гибрид свёрточной и трансформерной архитектур, который объединил сильные стороны обоих подходов. Теперь YandexART умеет придерживаться нескольких стилей в одном изображении и может, например, сгенерировать фотореалистичную банку лимонада, на этикетке которой будет аниме-персонаж. Более подробно об этом решении планируем рассказать на Хабре в отдельной статье. 

YandexART обучалась на сотнях миллионов пар картинок и текстовых описаний к ним. Чтобы повысить качество этих текстов и сделать их более точными, мы использовали собственную VLM-модель. Она анализировала изображения и детально описывала, что на них находится (кстати, наши коллеги недавно рассказывали на Хабре о создании VLM-моделей). Это помогло нейросети учитывать больше деталей из запроса пользователя.

И ещё кое-что. Визуальные нейросети могут генерировать отдельные буквы, но для того, чтобы они начали составлять из них слова, требуется дополнительное обучение на большом количестве примеров. Поэтому мы добавили в датасет несколько сотен тысяч искусственно сгенерированных картинок с текстами, благодаря чему модель научилась отрисовывать надписи. Пока только на латинице, но и кириллица не за горами.

Промпт: Цветочная лавка, надпись «Flowers»

Промпт: Цветочная лавка, надпись «Flowers»

Как измеряем качество

В силу роста качества, наш прежний подход к замерам единого критерия качества перестал помогать понимать пути для дальнейшего тюнинга модели. Поэтому мы разработали новую систему оценки. Теперь она включает в себя четыре основных аспекта: релевантность, эстетичность, дефектность и комплексность. Первые три аспекта интуитивны, а последний обозначает детализированность картинки и количество объектов на ней.

Так, например, YandexART 2.0 выиграла у Midjourney v6.1 в 66% случаев по критерию комплексности, в 58% по эстетичности и практически сравнялась по доле побед в релевантности запросов пользователей.

Доля побед YandexART 2.0 (зелёным отмечены победы в сравнении с другими моделями и предыдущей версией YandexART)

Доля побед YandexART 2.0 (зелёным отмечены победы в сравнении с другими моделями и предыдущей версией YandexART)

Новый подход к замерам позволил нам в полной мере раскрыть потенциал метода RLHF (Reinforcement Learning from Human Feedback). Мы факторизовали разные аспекты качества генерации и применили это знание для обучения reward-моделей для каждого отдельного аспекта. Это в итоге помогло улучшить эстетику и комплексность генераций, не потеряв в дефектности и релевантности.

Где доступна новая модель

Yandex Cloud

YandexART 2.0 уже доступна на облачной платформе Yandex Cloud. Её можно использовать через API, чтобы интегрировать генерацию изображений в свои приложения, а также протестировать в демо-режиме, чтобы подобрать оптимальный промпт. С помощью нейросети компании и разработчики смогут быстрее получить нужный результат, потому что новая версия лучше понимает запросы и позволяет создавать более качественные и реалистичные изображения.

Промпт: Это кольцо изготовлено из высокотехнологичного серебра и украшено прямоугольным синим камнем размером 5 на 7 мм. Камень закреплён в крапанах, что придаёт украшению оригинальность и неповторимость. Это кольцо подходит как для повседневной носки, так и для особого случая, когда вам нужно выглядеть стильно и элегантно.

Промпт: Это кольцо изготовлено из высокотехнологичного серебра и украшено прямоугольным синим камнем размером 5 на 7 мм. Камень закреплён в крапанах, что придаёт украшению оригинальность и неповторимость. Это кольцо подходит как для повседневной носки, так и для особого случая, когда вам нужно выглядеть стильно и элегантно.

Нейросеть уже тестируют несколько клиентов Yandex Cloud. Например, сервис Text.ru с помощью YandexART помогает авторам оформлять материалы для сайта, блога, канала или магазина. Также генеративные нейросети Яндекса использует сервис presentsimple.ai, который автоматически создаёт презентации для работы или учёбы по текстовому запросу.

Алиса Про

Также пользователи могут применять возможности нового поколения YandexART для решения повседневных и творческих задач в чате с виртуальным ассистентом Алисой при подключении опции Про.

Алиса может не просто сгенерировать картинку, но и дополнить её и изменить так, как захочет пользователь. Промпты можно уточнять прямо в режиме диалога. Например, сначала сказать: «Алиса, нарисуй свечу ручной работы», а после получения результата добавить: «вокруг еловые ветви».


ссылка на оригинал статьи https://habr.com/ru/articles/849438/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *