Tencent представила открытую ИИ-модель для генерации трёхмерных видео по картинке

от автора

Китайская компания Tencent презентовала открытую модель искусственного интеллекта HunyuanWorld-Voyager, способную генерировать видеоряд с эффектом трёхмерного пространства на основе одного изображения.

Алгоритм моделирует движение камеры по виртуальной сцене и формирует 3D-эффект без собственно 3D-моделирования. Каждый сгенерированный клип длительностью 2 секунды включает 49 кадров. Такие ролики можно объединять в видео продолжительностью несколько минут.

HunyuanWorld-Voyager обучили на базе более 100 тысяч видеоклипов. ИИ-модель использует механизмы пространственной согласованности для точного расположения объектов при перемещении камеры. Она создаёт кадры с обратной геометрической связью, чтобы обеспечить более устойчивую пространственную согласованность по сравнению с другими ИИ-генераторами. 

Пока, однако, алгоритм не может генерировать полное вращение сцен и долгие последовательности.

Работа HunyuanWorld-Voyager требует значительных вычислительных ресурсов: для сцен разрешением 540p рекомендуется не менее 60 ГБ видеопамяти, а для роликов в более высоком разрешении — 80 ГБ. 

Исходный код модели опубликовали на платформе Hugging Face, но для коммерческого применения потребуется лицензия.

Между тем Google добавила функцию преобразования изображений в видео в свой ИИ-генератор видео Veo 3 через приложение Gemini. Пользователи могут создать клип, выбрав опцию «Видео» в меню инструментов в поле запроса и загрузив фотографию. Также можно добавить звук, описав его в запросе. 


ссылка на оригинал статьи https://habr.com/ru/articles/945272/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *