Meta¹ показала генеративную нейросеть CM3leon для работы с изображениями

от автора

Компания Meta¹ рассказала о CM3leon, нейросетевой модели для преобразования текста в изображения, изображений в текст и других подобных задач. CM3leon превосходит схожие продукты: из-за отличий в само́й архитектуре продукта возможно количество параметров в два с лишним раза выше, чем в DALL-E 2, а в процессе тренировки потребовалось в 5 раз меньше вычислительной мощности, чем у конкурентов.

Meta¹ лишь заявила о CM3leon. Код проекта, файлы моделей или хотя бы API для тестирования не выпущены.

Системы генерации изображений в последние пару лет стали нормой. Сегодня свои разработки предоставляют бесплатно и продают как крупные компании калибра Google (Imagen, Parti) или Microsoft (VQ-Diffusion), так и игроки помельче: OpenAI (DALL-E 2), Stability AI (Stable Diffusion) и Midjourney. Моделей настолько много, что у одной компании бывает несколько конкурирующих проектов или поколений одного продукта. Нейросети рисуют картинки по заданному пользователем тексту чаще всего с помощью генеративных диффузионных моделей.


Результат запроса «A small cactus wearing a straw hat and neon sunglasses in the Sahara desert» («маленький кактус в пустыне Сахара, на который надеты соломенная шляпа и солнцезащитные очки») в модели Imagen. Это одна из картинок с главной страницы imagen.research.google — так Google показывает мощь своего продукта

Параллельно с этим в последние месяцы произошёл настоящий бум обработки естественного языка: GPT, Claude, LLama и другие большие языковые модели уверенно и зачастую правильно отвечают на вопросы пользователя. Подход мультимодальной модели CM3leon заимствует некоторые приёмы систем генерации текста-в-текст.

В названии CM3leon (произносится как английское слово «chameleon», [kəˈmiː.li.ən]) подчёркивается выбранная архитектура causal masked mixed-modal (CMMM сокращено до CM3). Система умеет как преобразовывать текст в изображение и редактировать существующую картинку с помощью текстовой инструкции, так и описывать контент.


Картинка с таким же запросом, но выполненная уже в CM3leon. Вообще Meta¹ не говорит это вслух, но часть примеров работы CM3leon сделана для людей «в теме». Некоторые из промптов встречались у конкурентов. К примеру, в научном докладе есть своё представление об астронавте на лошади в лесу, который украшает главную страницу проекта Parti


Примеры запросов «open hand, hand model. 4k.» и «white background, fist, hand model. 4k. white background» демонстрируют, как успешно CM3leon размещает на кисти человека правильное число пальцев. Среди других иллюстраций встречается также знак с надписью «1991» — диффузионные модели лишь недавно освоили генерацию относительно правдоподобных глифов

CM3leon показывает, что основанные на токенах трансформеры возможно тренировать так же эффективно, как и уже хорошо известные генеративные диффузионные модели. Meta¹ заявляет гибкость и эффективность авторегрессионных моделей с сохранением низкой стоимости обучения и инференса (запуска нейросети для собственно работы).

Meta¹ — не первая в этом подходе. В 2020 году OpenAI тоже экспериментировала с трансформерами в проекте Image GPT, но в итоге ушла в сторону диффузионных моделей (DALL-E 2).

Архитектура CM3leon полагается на трансформеры только с декодерами (decoder-only transformer) — в этом и есть сходство с текстовыми моделями. Конечная нейросеть заточена для работы как с изображениями, так и с текстом, поэтому методики поменяли. К примеру, в отличие от работы Zhang et. al. 2022 года нет bias term, исключений (dropout) и обучаемых параметров в слоях layer norm, а sequence length поднята с 2048 до 4096.


Поскольку CM3leon имеет общую направленность, для редактирования с текстовой подсказкой новая модель не нужна

Недавние споры об этичности обучения нейросетей на чужих объектах интеллектуальной собственности в научной работе отмечены в абзаце на 3,5 строчки, а в посте в блоге этому отведён целый раздел. Meta¹ успокаивает, что датасет из миллионов картинок для обучения CM3leon купили на Shutterstock.

Обучение проходило с методами retrieval augmented, которые Meta¹ описала в выпущенной в ноябре научной работе (arXiv:2211.12561 [cs.CV]). Это помогло значительно улучшить эффективность и предсказуемость работы конечной модели. Обучено было три варианта CM3leon: на 350 млн параметров (1,4 трлн токенов), 760 млн (1,9 трлн) и 7 млрд (2,4 трлн). В конце CM3leon «довели до ума» точной настройкой (supervised fine tuning) под конкретные задачи.

Кроме просто генерации красивых картинок чего угодно и редактирования CM3leon способна выполнять текстовые задачи. Meta¹ приводит простой пример с фотографией собаки с палкой в зубах: нейросеть корректно указывает, что находится в пасти у животного. Также CM3leon может просто описать визуальный контент.

Заявлена высокая эффективность описаний. Хотя CM3leon видела значительно меньше текста (всего 3 млрд токенов) в сравнении с Flamingo (100 млрд) или OpenFlamingo (40 млрд), в задачах создания подписей к картинкам на датасете Microsoft COCO достигнут уровень производительности zero-shot чуть похуже OpenFlamingo: 61,6 балл против 65,5. В задаче VizWiz (датасет с 31 тыс. вопросов от слепых) достигнут уровень даже лучше Flamingo на почти 10 баллов.

Впрочем, слабые результаты на других бенчмарках упомянуты лишь в научном докладе Meta¹, но не в блоге. Сами бенчмарки в научном сообществе критикуются (arXiv:2306.04675 [cs.LG], arXiv:2305.01569 [cs.CV]).


CM3leon генерирует фотографию комнаты с раковиной и кроватью в заданных регионах

CM3leon «понимает» структуру текста и изображения, поэтому может генерировать и редактировать с заданными параметрами.


Слева направо: картинка, из которой достали сегментацию; картинка, которую «скормили» CM3leon (без текстовых классов); два варианта сгенерированной картинки


Пример техник Grounded-Language-to-Image Generation, генерации картинки по картинке и текстовому описанию, приводится только в докладе. Здесь CM3leon рисует по текстовым запросам на основе позы фигуры с картинки

В примерах выше представлен «сырой» вывод данных. Конечно, для создания картинок в CM3leon вводится этап супер-разрешения, распространённый в других современных продуктах для генерации изображений.

Чтобы похвастать красивой работой CM3leon, Meta¹ привела подборки картинок. Первый из коллажей составлен из фотореалистичной графики:

  • A steaming cup of coffee with mountains in the background. Resting during road trip. (Кружка горячего, выделяющего пар кофе на фоне гор. Отдых во время автопутешествия.)
  • Beautiful, majestic road during sunset. Aesthetic. (Красивая, величественная дорога во время заката. Эстетично.)
  • Small circular island in the middle of a lake. Forests surrounding the lake. High Contrast. (Небольшой круглый остров в центре озера. Озеро окружают леса. Высокий контраст.)

Вторая подборка посвящена более иллюстративным примерам:

  • Turtle swimming underwater. Aesthetic. Fantasy. (Черепаха плавает под водой. Эстетично. Фэнтези.)
  • Elephant swimming underwater. Aesthetic. Fantasy. (Слон плавает под водой. Эстетично. Фэнтези.)
  • Flock of sheep. Aesthetic. Fantasy. (Стадо овец. Эстетично. Фэнтези.)

Meta¹ и не выпустила файлы моделей, и не встроила новый продукт в Facebook² или Instagram³. Всё, что есть — подробная статья в блоге Meta¹ AI и научная статья в виде документа PDF. Компания не поясняет, что планирует делать с разработкой в дальнейшем.


Решением Тверского районного суда города Москвы от 21 марта 2022 года американская транснациональная холдинговая компания Meta Platforms Inc. (1) признана осуществляющей экстремистскую деятельность. На территории России запрещены работа Meta и реализация её продуктов: социальных сетей Facebook (2) и Instagram (3).


ссылка на оригинал статьи https://habr.com/ru/articles/748990/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *