Meta¹ показала генеративную нейросеть CM3leon для работы с изображениями

Компания Meta¹ рассказала о CM3leon, нейросетевой модели для преобразования текста в изображения, изображений в текст и других подобных задач. CM3leon превосходит схожие продукты: из-за отличий в само́й архитектуре продукта возможно количество параметров в два с лишним раза выше, чем в DALL-E 2, а в процессе тренировки потребовалось в 5 раз меньше вычислительной мощности, чем у конкурентов.

Meta¹ лишь заявила о CM3leon. Код проекта, файлы моделей или хотя бы API для тестирования не выпущены.

Системы генерации изображений в последние пару лет стали нормой. Сегодня свои разработки предоставляют бесплатно и продают как крупные компании калибра Google (Imagen, Parti) или Microsoft (VQ-Diffusion), так и игроки помельче: OpenAI (DALL-E 2), Stability AI (Stable Diffusion) и Midjourney. Моделей настолько много, что у одной компании бывает несколько конкурирующих проектов или поколений одного продукта. Нейросети рисуют картинки по заданному пользователем тексту чаще всего с помощью генеративных диффузионных моделей.

Результат запроса «A small cactus wearing a straw hat and neon sunglasses in the Sahara desert» («маленький кактус в пустыне Сахара, на который надеты соломенная шляпа и солнцезащитные очки») в модели Imagen. Это одна из картинок с главной страницы imagen.research.google — так Google показывает мощь своего продукта

Параллельно с этим в последние месяцы произошёл настоящий бум обработки естественного языка: GPT, Claude, LLama и другие большие языковые модели уверенно и зачастую правильно отвечают на вопросы пользователя. Подход мультимодальной модели CM3leon заимствует некоторые приёмы систем генерации текста-в-текст.

В названии CM3leon (произносится как английское слово «chameleon», [kəˈmiː.li.ən]) подчёркивается выбранная архитектура causal masked mixed-modal (CMMM сокращено до CM3). Система умеет как преобразовывать текст в изображение и редактировать существующую картинку с помощью текстовой инструкции, так и описывать контент.

Картинка с таким же запросом, но выполненная уже в CM3leon. Вообще Meta¹ не говорит это вслух, но часть примеров работы CM3leon сделана для людей «в теме». Некоторые из промптов встречались у конкурентов. К примеру, в научном докладе есть своё представление об астронавте на лошади в лесу, который украшает главную страницу проекта Parti

Примеры запросов «open hand, hand model. 4k.» и «white background, fist, hand model. 4k. white background» демонстрируют, как успешно CM3leon размещает на кисти человека правильное число пальцев. Среди других иллюстраций встречается также знак с надписью «1991» — диффузионные модели лишь недавно освоили генерацию относительно правдоподобных глифов

CM3leon показывает, что основанные на токенах трансформеры возможно тренировать так же эффективно, как и уже хорошо известные генеративные диффузионные модели. Meta¹ заявляет гибкость и эффективность авторегрессионных моделей с сохранением низкой стоимости обучения и инференса (запуска нейросети для собственно работы).

Meta¹ — не первая в этом подходе. В 2020 году OpenAI тоже экспериментировала с трансформерами в проекте Image GPT, но в итоге ушла в сторону диффузионных моделей (DALL-E 2).

Архитектура CM3leon полагается на трансформеры только с декодерами (decoder-only transformer) — в этом и есть сходство с текстовыми моделями. Конечная нейросеть заточена для работы как с изображениями, так и с текстом, поэтому методики поменяли. К примеру, в отличие от работы Zhang et. al. 2022 года нет bias term, исключений (dropout) и обучаемых параметров в слоях layer norm, а sequence length поднята с 2048 до 4096.

Поскольку CM3leon имеет общую направленность, для редактирования с текстовой подсказкой новая модель не нужна

Недавние споры об этичности обучения нейросетей на чужих объектах интеллектуальной собственности в научной работе отмечены в абзаце на 3,5 строчки, а в посте в блоге этому отведён целый раздел. Meta¹ успокаивает, что датасет из миллионов картинок для обучения CM3leon купили на Shutterstock.

Обучение проходило с методами retrieval augmented, которые Meta¹ описала в выпущенной в ноябре научной работе (arXiv:2211.12561 [cs.CV]). Это помогло значительно улучшить эффективность и предсказуемость работы конечной модели. Обучено было три варианта CM3leon: на 350 млн параметров (1,4 трлн токенов), 760 млн (1,9 трлн) и 7 млрд (2,4 трлн). В конце CM3leon «довели до ума» точной настройкой (supervised fine tuning) под конкретные задачи.

Кроме просто генерации красивых картинок чего угодно и редактирования CM3leon способна выполнять текстовые задачи. Meta¹ приводит простой пример с фотографией собаки с палкой в зубах: нейросеть корректно указывает, что находится в пасти у животного. Также CM3leon может просто описать визуальный контент.

Заявлена высокая эффективность описаний. Хотя CM3leon видела значительно меньше текста (всего 3 млрд токенов) в сравнении с Flamingo (100 млрд) или OpenFlamingo (40 млрд), в задачах создания подписей к картинкам на датасете Microsoft COCO достигнут уровень производительности zero-shot чуть похуже OpenFlamingo: 61,6 балл против 65,5. В задаче VizWiz (датасет с 31 тыс. вопросов от слепых) достигнут уровень даже лучше Flamingo на почти 10 баллов.

Впрочем, слабые результаты на других бенчмарках упомянуты лишь в научном докладе Meta¹, но не в блоге. Сами бенчмарки в научном сообществе критикуются (arXiv:2306.04675 [cs.LG], arXiv:2305.01569 [cs.CV]).

CM3leon генерирует фотографию комнаты с раковиной и кроватью в заданных регионах

CM3leon «понимает» структуру текста и изображения, поэтому может генерировать и редактировать с заданными параметрами.

Слева направо: картинка, из которой достали сегментацию; картинка, которую «скормили» CM3leon (без текстовых классов); два варианта сгенерированной картинки

Пример техник Grounded-Language-to-Image Generation, генерации картинки по картинке и текстовому описанию, приводится только в докладе. Здесь CM3leon рисует по текстовым запросам на основе позы фигуры с картинки

В примерах выше представлен «сырой» вывод данных. Конечно, для создания картинок в CM3leon вводится этап супер-разрешения, распространённый в других современных продуктах для генерации изображений.

Чтобы похвастать красивой работой CM3leon, Meta¹ привела подборки картинок. Первый из коллажей составлен из фотореалистичной графики:

A steaming cup of coffee with mountains in the background. Resting during road trip. (Кружка горячего, выделяющего пар кофе на фоне гор. Отдых во время автопутешествия.)
Beautiful, majestic road during sunset. Aesthetic. (Красивая, величественная дорога во время заката. Эстетично.)
Small circular island in the middle of a lake. Forests surrounding the lake. High Contrast. (Небольшой круглый остров в центре озера. Озеро окружают леса. Высокий контраст.)

Вторая подборка посвящена более иллюстративным примерам:

Turtle swimming underwater. Aesthetic. Fantasy. (Черепаха плавает под водой. Эстетично. Фэнтези.)
Elephant swimming underwater. Aesthetic. Fantasy. (Слон плавает под водой. Эстетично. Фэнтези.)
Flock of sheep. Aesthetic. Fantasy. (Стадо овец. Эстетично. Фэнтези.)

Meta¹ и не выпустила файлы моделей, и не встроила новый продукт в Facebook² или Instagram³. Всё, что есть — подробная статья в блоге Meta¹ AI и научная статья в виде документа PDF. Компания не поясняет, что планирует делать с разработкой в дальнейшем.

Решением Тверского районного суда города Москвы от 21 марта 2022 года американская транснациональная холдинговая компания Meta Platforms Inc. (1) признана осуществляющей экстремистскую деятельность. На территории России запрещены работа Meta и реализация её продуктов: социальных сетей Facebook (2) и Instagram (3).

ссылка на оригинал статьи https://habr.com/ru/articles/748990/

Meta¹ показала генеративную нейросеть CM3leon для работы с изображениями

Комментарии

Добавить комментарий Отменить ответ