Она называется «Recycle-GAN». Это система для трансформации содержимого одного видео или фотографии по подобию другого, обучающаяся исключительно на входных неразмеченных данных (обучение без учителя). «Задача изменения контента c сохранением стиля оригинала имеет множество применений, например, наложение движений и мимики одного человека на другого, обучение роботов методом “делай как я”, — говорят исследователи, — или преобразование черно-белых видео в цветные».
До сих пор даже самые продвинутые методы трансформации были нацелены на человеческие лица, и по мнению исследователей, «их практически невозможно было применить в др. областях», кроме того «они очень плохо работают с частично скрытыми лицам». Другие методы используют покадровую трансформацию, который требует трудоемкой ручной маркировки и выравнивания данных.
Recycle-GAN же использует генеративно-состязательные сети(GAN) и «пространственно-временные маркеры, чтобы “связать” две картинки или видео. (GAN — это модели, состоящие из генератора, который пытается «обмануть» дискриминатора, производя все более реалистичные результаты из входных данных.) При обучении на видео с людьми, они создают ролики с такими такие трудноуловимыми моментами как ямочки на щеках, формирующиеся при улыбке и движении губ.
«Без какого-либо вмешательства и изначальных знаний, связанных с конкретикой видео, наш подход способен обучиться просто используя общедоступные предметные ролики из Интернета», — пишет команда разработчиков
Recycle-GAN способен на гораздо больше чем только передача мимики лица. Исследователи использовали его для изменения погодных условий в видео, конвертировав полный штиль в ветреный день. Они имитировали цветущие и умирающие цветы, и синтезировали убедительный восход солнца из видео в Интернете.
Результаты тестирования достаточно хороши: системе удалось обмануть 15 испытуемых в 28,3% случаев, но команда полагает, что продукция будущих версий системы может быть более правдоподобной, если они примут во внимание скорость воспроизведения, например, насколько быстрее или медленнее говорят люди в видео
«Правдоподобный перенос стиля должен быть способным учитывать даже разницу во времени, получающуюся при воспроизведения речи / контента», — написала команда. «Мы считаем, что лучшая пространственно-временная архитектура нейронной сети может решить эту проблему в ближайшем будущем».
Неудивительно, что deepfakes остаются горячо обсуждаемой актуальной проблемой. Публично доступные сервисы делают их создание относительно легкими, и нет никакой законодательной основы для защиты жертв подобных видео.
Reddit, Pornhub, Twitter и другие заняли позицию против них, а исследователи (совсем недавно присоединившееся МО США) продолжают искать способы обнаружения deepfakes. Но, как недавно высказался Эрик Голдман, профессор юридического факультета Университета Санта-Клары и директор Института высоких технологий, лучше всего «приготовиться жить в мире, где нас повсеместно будут окружать и настоящие и поддельные фотографии и видео."
ссылка на оригинал статьи https://habr.com/post/420541/
Добавить комментарий