Fab Tool, или Опыт создания сложного генеративного видео

Я большой фанат французского электронного музыканта Франка Уэзо, более известного под псевдонимом Carpenter Brut, и в качестве автора малобюджетного видео я давно мечтал создать ремейк культового видео Fab Tool. Клип этот, сам по себе довольно скромный в производстве, всегда казался мне невероятно выразительным именно благодаря особой атмосфере, которую можно было бы воссоздать или даже усилить в римейке, а в наше время нейрогенеративного всего римейкизируют буквально что угодно, так что рано или поздно план был бы реализован, однако путь к искомому результату в итоге оказался куда более тернистым, чем представлялось изначально.

Эта история началась полтора года назад, летом 2023 года, когда вышла пятая версия MidJourney, стал доступен Gen-2 от Runway, а в дискорде появились генеративные боты Pika и Suno. Таким образом, сформировался полноценный набор инструментов для создания AI-видео, в котором и картинка, и анимация, и музыка создавались бы нейросетями.

Как человек, помимо увлечения электронной музыкой, много лет занимающийся разнообразными малобюджетными видеопроектами, я изначально был очень заинтересован в том, чтобы нейросети нового поколения позволили выпускать те же буктрейлеры, музыкальные видео и другие небольшие творческие проекты чаще, дешевле и быстрее.

Однако мои радужные ожидания быстро разбились тогда о технические ограничения. Инструменты были сырыми, а первые результаты — далеки от идеала. Многие задумки попросту не удавались без чрезмерных творческих компромиссов. Например, давно задуманный мной проект буктрейлера к «Часу Быка» Ефремова пока ограничился лишь несколькими ранними версиями иллюстраций:

О возвращении к Fab Tool не могло быть пока и речи. Потому я решил для начала сосредоточиться на создании статических образов, ожидая дальнейшего развития видео-генераторов. В частности, я активно изучал возможности MidJourney, так как возможности их конкурентов пока оставались слишком ограниченными для моих целей. Проблема с созданием изображений всегда стояла для меня острее, чем анимация, которую всегда можно было реализовать средствами монтажных программ. То есть картинки были, спасибо Алексу Андрееву и Марии О’Тул, но картинок мне нужно было куда больше, а бюджеты у меня как у некоммерческого автора всегда минимальные. Вот пример из числа моих предыдущих работ, на которые я опирался:

Так начались два моих изобразительных нейрогенеративных проекта: веб-комикс «Непьющий» о единственном в мире непьющем детективе Джонатане Т. Мэддоксе и иллюстрированный роман «Гать».

Комикс позволил мне учиться работать в единой графической стилистике (важно — не фотореалистичной) и по возможности сохранять единство образов и атмосферы. А «Гать» предоставила разнообразные образы и приемы, пригодные для будущей анимации, которая до сих пор остается сложной задачей для всех существующих инструментов.

Комикс в результате завершился публикацией первого тома в трех главах. На его создание ушло полгода. Итоговый том включал 60 страниц (то есть 30 разворотов), собранных в фотошопе из более чем 200 генераций изображений. Надписи, баблы, рамки и диалоги я оформлял вручную, поскольку MidJourney до сих пор плохо справляется с текстом, а другие инструменты я не стал привлекать осознанно, чтобы без необходимости не усложнять продакшн. Вот пример получившихся разворотов:

Опыт это был довольно непростой, хотя и очень увлекательный, для этого я даже создал одноименный телеграм-канал, где публиковал промежуточные результаты, демки, советовался с подписчиками и вообще получал полезную в любом творческом процессе обратную связь.

Параллельно «Гать» обрастала сгенерированными изображениями. Каждая из 40 частей романа сопровождалась «официальными» иллюстрациями и дополнительной галереей «из невошедшего», которые я также публиковал у себя в телеграме и на платформе АТ в разделе дополнительных материалов.

На выходе получилось около сотни готовых к анимации образов. Но даже с ними Pika и Gen-2 могли предложить только скромные эффекты вроде наплывов и панорам, значительный объем творческих задач по-прежнему оставался недоступным для исполнения.

Однако вскоре произошли сразу две революции в направлении image-to-video. Пускай громко анонсированная модель Sora от OpenAI год не становилась доступной в паблике и принесла в итоге довольно посредственные результаты, зато модели Gen-3 Alpha от Runway и Luma Dream Machine 1.5 летом 2024 совершили настоящий прорыв. Эти инструменты использовали под капотом 3D-моделирование для оживления картинок и показали впечатляющие результаты с момента старта публичной беты, в которой можно было оживлять сложные сцены с продвинутым управлением работой камеры, пластикой объектов и персонажей, потому я сразу же приступил к созданию видео по своим изображениям. Первым был готов буктрейлер «Гати»:

Помимо продвинутой анимации, в нем я впервые использовал нейрогенеративную музыку, созданную моделью Udio, которая к тому времени уже во многом опередила своих конкурентов. Результат превзошел мои ожидания: 100+ фрагментов было создано буквально за пару выходных, для чего потребовалось зарегистрировать всего несколько бесплатных аккаунтов. Спасибо демократичной ценовой политике ребят из Luma.

Настала пора браться за что-то более серьёзное. Напрашивавшиеся в качестве следующих проектов буктрейлеры «Непьющего» или «Часа Быка» уже не казались такими уж прорывными. Наоборот, всё указывало на то, что они могут оказаться слишком простыми, с учётом новых возможностей генеративных инструментов. Поэтому я решил бросить себе настоящий вызов и достал с полки старый замысел. В октябре прошлого года я приступил к работе над Fab Tool.

Визуальные референсы в виде скриншотов из оригинального видео со временем трансформировались в две сотни сгенеренных оригинальных изображений, а затем и в сравнимое количество анимированных отрывков, благо процент удачных дублей у Luma к тому моменту стал довольно высок. Эти фрагменты предстояло снабдить новым звуковым ремиксом, который, по возможности, не уступал бы оригиналу по мощности и качеству звучания. После этого начался процесс кропотливого пост-продакшна и монтажа в Adobe Premiere.

И вот, спустя полтора года с того момента, как я приступил к исследованиям в этой области, мой видеогенеративный опус-магнум был завершён:

Как вы видите, тут сохранены и сложные переходы оригинала, и его безысходная атмосфера, и пафос, также я постарался сохранить противостояние трех цветовых атмосфер, по возможности при этом приблизив картинку к фотореалистичным стандартам, очевидно, не присущим оригиналу, а значит получив шанс в чем-то его обойти на повороте.

Удалось ли мне в итоге достичь хотя бы части своих творческих и технических целей? Несомненно. Процесс создания видео стал драматически быстрее, а атмосферность и качество картинки вы можете оценить сами. Лично я остался крайне доволен результатом. Однако приходится ли нам при просмотре по-прежнему давать скидку на сырость технологий и минимальный бюджет? В какой-то мере — да, но не во всём. Результат даже превзошел изначально заложенные ожидания, как художественные, так и инструментальные.

Конечно, полноценное «нейросетевое кино» не будет снято ни в этом, ни в следующем году, все подобные проекты до сих пор остаются в рамках экспериментальных, вне зависимости от бюджета. Однако тот прогресс, который я наблюдал за полтора года, и невероятный темп, с которым развиваются генеративные нейросети, все всяких сомнений, в ближайшее время изменят рынок видео- и кинопроизводства самым кардинальным образом — и уже меняют его на наших глазах. Как говорится, до новых премьер и новых прорывов!

ссылка на оригинал статьи https://habr.com/ru/articles/873324/

Fab Tool, или Опыт создания сложного генеративного видео

Комментарии

Добавить комментарий Отменить ответ