InfiniteYou от ByteDance позволяет пользователям создавать неограниченное количество вариаций портретных фотографий

от автора

Компания ByteDance разработала новый подход к созданию портретов с помощью ИИ, который решает такие распространенные проблемы, как непоследовательность черт лица и несоответствие заданным промптам

В отличие от предыдущих решений, таких как PuLID-FLUX, которые напрямую изменяют внимание модели ИИ, InfuseNet обрабатывает черты лица как параллельный информационный слой. Это сохраняет основную модель ИИ нетронутой, одновременно улучшая качество генерации портретов.

Диаграмма: Архитектура InfuseNet для интеграции входных данных идентификации и управления в модели преобразования текста в изображение через остаточные соединения.

InfuseNet обрабатывает идентификационные характеристики и управляет входными данными отдельно от основной модели ИИ, что позволяет лучше сохранять черты лица при следовании текстовым подсказкам. | Изображение: ByteDance

Система использует двухэтапный процесс обучения. Он начинается с реальных портретных фотографий, а затем переходит к синтетическим изображениям, которые генерируются системой с использованием специализированных модулей оптимизации.

По данным ByteDance, этот подход значительно улучшает качество вывода. Сгенерированные изображения сохраняют большее сходство с исходным человеком и точнее следуют текстовым подсказкам. Он также позволяет избежать распространенных проблем, таких как прямое копирование лица и ухудшение качества, которые мешают другим подходам.

В пользовательском тестировании с 16 участниками InfiniteYou показал явные преимущества по сравнению с существующими решениями. При оценке сходства лиц, точности текстовых подсказок, качества изображения и эстетики 72,8 процента предпочли результаты InfiniteYou по сравнению с 27,2 процента для PuLID-FLUX.

InfiniteYou работает с популярными инструментами ИИ, включая ControlNet и LoRA. Системе требуется всего четыре этапа обработки для генерации изображений, и она позволяет пользователям изменять как людей, так и объекты на них. Признавая эти улучшения, ByteDance отмечает, что все еще есть возможности для улучшения сходства лиц и качества изображений.

Диаграмма: InfiniteYou позволяет комбинировать входной идентификатор и стиль для создания настраиваемых выходных изображений.

Система интегрируется с существующими инструментами ИИ, такими как ControlNet и LoRA, что позволяет выполнять широкий спектр модификаций портретов и корректировок стиля. | Изображение: ByteDance

ByteDance опубликовал код InfiniteYou на GitHub и сделал веса модели доступными через Hugging Face. Экспериментальная демоверсия запланирована, но пока не запущена.

Как участник Content Authenticity Initiative , ByteDance работает с производителями камер и поставщиками медиа для внедрения метаданных C2PA для идентификации контента, сгенерированного ИИ. Однако компания не уточнила, будет ли InfiniteYou включать эти функции аутентификации.

Релиз следует за последними разработками ByteDance в области искусственного интеллекта, включая OmniHuman-1 для фотореалистичной анимации и серию Goku для видеороликов с искусственным интеллектом.

Источник


ссылка на оригинал статьи https://habr.com/ru/articles/894324/