HunyuanVideo-Foley — генерация звука для видео

от автора

В видео-генерации давно есть проблема: ролик выглядит реалистично, но без синхронного звука всё ломается. Tencent сделали новую систему — HunyuanVideo-Foley. Она умеет генерировать звук для видео так, чтобы он совпадал и по динамике, и по смыслу.

Что делает модель

  • Генерирует звуковое сопровождение для видео с нуля, без готовых библиотек эффектов.

  • Учитывает контекст сцены: если персонаж идёт по снегу — будут шаги со скрипом, если летит космический корабль — гул турбин.

  • Может создавать фоновую атмосферу (шум улицы, шелест деревьев, ветер и т. д.).

  • Работает не только по самому видео, но и с учётом текстового описания. Например, можно подсказать, что в сцене ночь или идёт дождь.

  • Отличается от прошлых решений тем, что звук получается живой и многослойный, а не сухой и одинаковый.


Как это работает

Есть три основные штуки:

  • Датасет — собрали и отфильтровали 100k часов видео со звуком. Это база, на которой модель учится.

  • Мультимодальный диффузионный трансформер (MMDiT) — объединяет текст, картинку и звук.

  • REPA (Representation Alignment) — метод, который помогает выровнять аудио и видео, чтобы не было рассинхрона.

В итоге на выходе получается аудио, которое реально совпадает с движениями и контекстом.


Архитектура

Модель берёт три входа:

  • текст (через CLAP),

  • картинку/видео (SigLIP-2),

  • звук (DAC-VAE).

Потом всё это прогоняется через трансформеры, где разные модальности синхронизируются. Для обучения используют ATST-Frame, он проверяет совпадение картинки и звука по кадрам.


Результаты и бенчмарки

В тестах на Kling-Audio-Eval, VGGSound-Test и MovieGen-Audio-Bench модель обгоняет решения вроде FoleyCrafter, MMAudio, V-AURA и ThinkSound.
По метрикам (качество звука, совпадение с видео, синхронизация) HunyuanVideo-Foley почти везде выше конкурентов.


Примеры


Код и демо


Вывод

Тут реально видно прогресс. Видео без звука всегда казалось неполным. Эта модель закрывает дырку


ссылка на оригинал статьи https://habr.com/ru/articles/942412/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *