Как я пытался создать шедевр в Qwen, Luma и Pika, и что из этого вышло

Помните, как полтора-два года назад в коротких видео стали появляться видео сомнительного качества, которые можно с легкостью пометить как сгенерированные? С тех пор их количество заметно упало.

Мы решили провести эксперимент и выяснить, действительно ли некачественные видео, созданные нейросетями, исчезли, или люди научились делать настолько хорошие ролики, что мы уже перестали определять, кто есть кто. В этой статье попробуем сгенерировать такие видео (или еще качественнее).

Кого и зачем мы тестируем

Чтобы эксперимент получился объективным, для сравнения был собран контрастный стек нейросетей. В этот раз мы обойдемся без приевшихся флагманов — вместо этого столкнем инструменты, которые в наших прошлых материалах еще детально не проверялись, и сравним открытый open-weights подход с закрытыми облачными платформами.

Роль базового ориентира досталась Qwen — этой модели хотелось устроить проверку в сложной для нее категории — видеогенерации. В качестве соперников к ней идут две относительно новых модели с совершенно разным позиционированием и технологическим пайплайном.

Первая — Luma (в основе которой лежит архитектура Diffusion Transformer или DiT), которую в сообществе регулярно хвалят за кинематографичный визуал, сложную логику кадров и отличную связность соседних сцен.

Вторая — Pika (работающая на базе оптимизированных латентных диффузионных моделей), заработавшая репутацию за счет высокой скорости инференса и качественной, отзывчивой анимации микро-движений.

Идея простая: взять популярные утверждения об этих нейросетях в качестве рабочих гипотез, прогнать их через одинаковые жесткие сценарии и наглядно проверить по ключевым для инженеров метрикам — точности следования промту и консистентности кадров.

Облачная инфраструктура для ваших проектов

Виртуальные машины в Москве, Санкт-Петербурге и Новосибирске с оплатой по потреблению.

Подробнее →

Проверка на создание природы

В первом испытании мы решили нагрузить нейросети сложной темпоральной задачей — сгенерировать природный ландшафт в динамике. Мы заставим ИИ-модели генерировать русскую березку, которая будет расти из маленького саженца в большое дерево.

Поскольку лимиты большинства современных нейросетей ограничены короткими роликами до десяти секунд, весь процесс будет в режиме ускоренной съемки — таймлапс.

Qwen

Универсальный промт, который будет использоваться:

«Создай кинематографичное видео с ускоренной съемкой, на котором видно, как одна русская белая береза вырастает из крошечного деревца в зрелое высокое дерево посреди обширного солнечного луга. Время движется вперед: годы пролетают за секунды. Подчеркни времена года: зимой — отсутствие листьев, осенью сделай их красными и оранжевыми, летом и весной — зеленые. Создай на фоне холмики и кочки, а также сделай вид смены дня и ночи».

Впервые просмотрев видео, я не заметил аномалий, но после, пересматривая и вглядываясь в детали, я выявил много изъянов.

Первое — проблемы с геометрией фона. На первых кадрах на заднем плане были видны ели, покрытые снегом. Но через время они куда-то испарились.

Второе, также связанное с фоном — холмики — они тоже куда-то исчезли. Потом я удивился еще сильнее, ведь холмы переместились в другие места. Интересные смещения тектонических плит, однако.

Еще довольно странный момент: солнце ведет себя неестественно и двигается по странной и непонятной траектории. Эта ситуация показывает, что нейросеть имеет проблемы с фоном. Также хотелось бы упомянуть очень резкую смену листьев дерева.

По результатам генерации можно сделать вывод — модель имеет проблемы с удержанием фона и сохранением долгосрочного контекста. Но стоит помнить, что Qwen — все же языковая модель, а не специализированный генератор видео. Для создания реалистичной природы не рекомендую ее использовать.

Lumа

Известная нейросеть с упором на кинематографичность и визуал.

Нейросеть сделала то, что я хотел бы увидеть. Все требования по генерации соблюдены, все что я упоминал в промпте, она смогла сгенерировать. Смена времен года происходит логично и мягко, облака плывут по небу без рывков. Фон получался проработанным, на горизонте заметно много деревьев. Зимой на холмах и в поле лежит снег.

Все требования соблюдены на отлично. Модель подтвердила слухи по части понимания контекста, кинематографичности и логичной физике объектов и пространства.

Pika

Это одна из популярных нейросетей для генерации изображений и видео.

Модель оправдала ожидания, но тут, как говорится, есть нюансы.

Зависший туман. Сгенерированный туман показался слишком не проработанным — он статичный и долго висит на одном месте.

Динамика развития картины слабовата. Хоть дерево и растет в размерах вполне реалистично, но листья почти не меняют цвет из-за смены времен года. На видео можно заметить, как они багровеют во время рассвета, но это солнечный цвет, а не воздействие осени.

Из плюсов можно выделить геометрию ландшафта — к ней вопросов нет. Бугорки и кочки созданы качественно и выглядят естественно. Порадовало и движение травы от ветра и ход облаков по небу — анимация плавная и приятная.

Мы получили рабочий результат, особенно в плане анимации микродвижений (трава, облака), но с динамикой развития событий и изменений объектов у модели пока есть сложности.

Проверка на создание человека

Посмотрим, как нейросети умеют создавать видео с человеком. Все мы помним, насколько криповыми были первые генерации, в которых Уилл Смит ел спагетти. Нейросети с того времени сильно улучшились, но справятся ли они с генерацией человека, делающего сальто? Это довольно сложный запрос, так как нужно учесть много факторов при генерации.

Промпт второй проверки:

«Создай видео, где человек выполняет идеальное сальто назад в просторной, полностью белой комнате в стиле минимализма. Кинематографичное мягкое освещение, высокий контраст между человеком и ярко-белыми стенами. Человек одет в темную спортивную одежду, чтобы выделяться. Замедленная съемка фиксирует пик прыжка, разрешение 4К, высокодетализированные текстуры, плавное перемещение камеры».

Qwen

Полностью посмотрев видео в первый раз, я удивился, насколько оно странное. Но между тем успел подметить пару моментов. Во-первых, комната вообще не похожа на комнату — она больше смахивает на лабиринт или что-то подобное. Во-вторых, человек в середине и конце сальто странно двигается. Галлюцинации, в принципе, свойственны некоторым нейросетям при генерации сложных запросов, но не настолько же. В общем, получилось больше забавно и крипово, чем качественно.

Luma

Получилось уже получше, чем у Qwen, но опять же с некоторыми изъянами. Например, человек делает сразу два сальто, хотя в промпте я просил сделать только одно, идеальное. Но лучше два, чем одно, верно?

А если без шуток, то нейросеть очевидно ошиблась в обработке запроса, и это уже минус. Меня также смутил материал пола и стен в комнате, он почему-то очень похож на песок.

(Из трех видео, полученных разными нейросетями была выбрана самая лучшая генерация, остальные можно глянуть вот тут (видео-1, видео-2)

Pika

Пика сделала что-то странное: человек на видео сразу находится в воздухе. Да и его движения схожи с генерацией от Qwen — те же непонятные действия во время сальто, но уже не такие хаотичные и странные. Нейросеть сгенерировала ролик не столько качественно, сколько просто абсурдно забавно.

Заключительная проверка: воссоздание движения котика

Теперь посмотрим, как нейросети справятся с генерацией серого котика, который должен игриво двигаться и прыгать в белой комнате.

Промт последней проверки:

«Создай видео, где игривая серая полосатая кошка, прыгающая на месте на белом фоне и энергично виляющая хвостом, снята высокоскоростной камерой, разрешение 4K Ultra HD, кинематографическое освещение, замедленная съемка, динамичный ракурс сбоку, демонстрирующий грациозные движения кошачьего тела и хвоста, мягкие тени, фотореалистичность, текстура меха с высокой детализацией, естественное освещение в помещении».

Qwen

Видео получилось лучшим из всех генераций Qwen в этом сравнении. Правда, требование по замедленной съемке модель не учла. Кошка получилась хорошо, шерсть выглядит как шерсть, но вот глаза показались мне слишком «кислотными».

При этом движения кошки выглядят реалистично и игриво — как раз то, что нам и нужно было. Qwen выдал неплохой результат, но с небольшими недостатками.

Luma

В этот раз Luma сделала не очень качественно. Движения кошки неестественны — она постоянно перепрыгивает с одной лапы на другую, и выглядит это странно. То же самое произошло и с хвостом: он дергается как сосиска, не как реальный хвост у кота. Хоть видео и получилось с большой долей реализма, движения в нем совсем не реалистичные. Под конец проверок модель заметно сдает позиции.

Pika

На удивление нейросеть услышала требование о замедленной съемке, и сделала ее. Видео получилось реалистичным по всем фронтам. Даже прыжок кошки выглядит почти как настоящий — небольшой, аккуратный и игривый, жаль, что всего один, но общую картину это ничуть не портит.

Вывод

Но давайте посмотрим на проблему шире: пока обычные пользователи смеются над кринжовыми роликами про пятилапых собак, на крупных конференциях уже вовсю проводят лекции и сессии по безопасности от дипфейков. Например, себестоимость генерации лица сегодня упала до 50 рублей, а ущерб от мошеннических действий исчисляется миллиардами (но это уже тема отдельной статьи).

Как вы считаете, почему в развлекательном сегменте мы видим явную стагнацию и регресс моделей, тогда как в сфере таргетированных дипфейков и фейк-ньюс технологии развиваются пугающе быстро? Мы уперлись в экономию GPU-мощностей для неугодных сфер нейросетей, или в тупик самой архитектуры диффузионных моделей? Поделитесь своими техническими гипотезами в комментариях.

ссылка на оригинал статьи https://habr.com/ru/articles/1047954/