Получение морфируемой 3D-модели лица на основе фотографии в произвольном ракурсе

Привет, Хабр! Представляю вашему вниманию перевод статьи «Learning 3D Face Morphable Model Out of 2D Images».

3DMM

Трёхмерная морфируемая модель лица (3D Morphable Model, далее 3DMM) — это статистическая модель структуры и текстур лица. 3DMM используются компьютерном зрении, компьютерной графике, при анализе человеческого поведения и в пластической хирургии.

Неповторимость каждой черты лица делает моделирование человеческого лица нетривиальной задачей. 3DMM создётся для получения модели лица (структуры и текстуры) в пространстве явных соответствий. Это означает поточечное соответствие между полученной моделью и другими моделями, позволяющими выполнять морфирование. Кроме того, в 3DMM должны быть отражены трансформации низкого уровня, такие как отличия мужского лица от женского, нейтрального выражения лица от улыбки.

3D morphable model

Исследователи из Университета Мичигана предлагают новейший метод получения 3DMM лица, основанный на глубоком обучении. Используя высокую эффективность глубоких нейронных сетей для осуществления нелинейных отображений, их метод позволяет получить 3DMM на основе 2D изображения, снятого в произвольной обстановке.

Более ранние подходы

Обычно 3DMM получают с помощью набора 3D сканов лиц и набора 2D изображений этих же лиц. Общепринятый подход заключается в использовании редукции размерностей при обучении с учителем, которая выполняется с помощью применения анализа главных составляющих (Principal Component Analysis – PCA) на тренировочном наборе данных, состоящем из 3D сканов лиц и соответствующих 2D изображений. При использовании линейных моделей, таких как PCA, нелинейные трансформации и лицевые вариации не могут быть отражены в 3DMM. Более того, для моделирования точных 3D текстур лиц необходимо большое количество «3D информации». Таким образом, использование данного подхода оказывается неэффективным.

Предлагаемый метод

Идея предлагаемого метода заключается в использовании глубоких нейронных сетей или, более конкретно, свёрточных нейросетей (которые лучше подходят для рассматриваемой задачи и менее затратны в плане времени вычислений, чем многослойные перцептроны) для получения 3DMM. Кодирующая нейросеть (энкодер) принимает на вход изображение лица и генерирует параметры текстуры и альбедо лица, с помощью которых две декодирующих нейросети (декодеры) оценивают текстуру и альбедо.

Как было указано ранее, линейная 3DMM имеет ряд проблем, таких как необходимость наличия 3D сканов лиц, невозможность использования изображений, снятых в произвольном ракурсе и ограниченная точность представления из-за использования линейной PCA. В свою очередь, предлагаемый метод позволяет получить нелинейную 3DMM модель на основе 2D изображений лиц высокого разрешения, снятых с произвольного ракурса.

Планарное представление

В своём подходе, исследователи используют развёрнутую 2D карту лица для представления его текстуры и альбедо. Они утверждают, что учёт пространственной информации играет важную роль, так как они применяют свёрточные нейронные сети, а фронтальные изображения лица содержат мало информации о боковых сторонах. Именно поэтому их выбор пал на планарное преставление.

Три различных представления альбедо

Три различных представления альбедо. (а) – 3D представление, (в) – альбедо как 2D фронтальное изображение лица, (с) – планарное представление.

суммарное представление текстуры

Планарное представление. x, y, z и суммарное представление текстуры.

Архитектура нейросети

Исследователи спроектировали нейросеть, которая, принимая на вход изображение, кодирует его в вектора текстуры, альбедо и освещения. Закодированные скрытые вектора для альбедо и текстуры декодируются с использованием двух декодеров, в качестве которых используются свёрточные нейросети. На выходе декодеры выдают блики лица, его альбедо и 3D текстуру лица. С использованием этих параметров, дифференцируемый рендеринг-слой генерирует модель лица посредством совмещения 3D текстуры, альбедо, освещения и параметров расположения камеры, полученных энкодером. Архитектура представлена на схеме ниже.

Архитектура предлагаемого метода

Архитектура предлагаемого метода для получения нелинейной 3DMM

Получаемая устойчивая нелинейная 3DMM может быть использована для 2D наложения лиц и решения проблемы трёхмерной реконструкции лиц.

Схема рендеринг-слоя

Сравнение с другими методами

Рассматриваемый метод был приведён в сравнение с другими методами на примере следующих задач: 2D наложение, 3D реконструкция и редактирование лиц. Предлагаемый метод превосходит другие современные подходы для решения этих задач. Результаты сравнения представлены ниже.

2D наложение лица

Одно из приложений метода — наложение лиц, что должно существенно улучшить анализ лиц в ряде задач (к примеру, распознавание лиц). Наложение лиц – непростая задача, но рассматриваемый метод показывает высокие результаты при её решении.

2D-face-alignment-results

Результаты 2D наложения лиц. Невидимые пометки отмечены красным. Рассматриваемый метод отражает необычные позы, освещение и выражение лица.

3D реконструкция лица

Рассматриваемый метод также был приведён к сравнению на примере 3D реконструкции лица и показал выдающиеся результаты по сравнению с другими методами.
Количественное сравнение результатов 3D реконструкции

Количественное сравнение результатов 3D реконструкции

Результаты 3D реконструкции в сравнении с методом Sela

Результаты 3D реконструкции в сравнении с методом Sela и др. Предлагаемый метод сохраняет волосы на лице и другие особенности лица намного лучше, чем этот метод.

Результаты 3D реконструкции в сравнении с VRN от Jackson

Результаты 3D реконструкции в сравнении с VRN от Jackson и др. на примере известного датасета CelebA.

Результаты 3D реконструкции в сравнении с методом Tewari и др. Как видно, предлагаемый метод решает проблему сжимания лица при наличии различных текстур (таких как волосы на лице).

Редактирование лица

Обсуждаемый метод разбивает изображение лица на отдельные элементы и позволяет изменять лицо с помощью манипуляций над ними. Результаты работы данного метода при редактировании лиц были оценены на примере таких задач, как изменение освещения и добавление дополнительных элементов лица.

Результаты добавления бороды

Результаты добавления бороды. Первая колонка содержит исходные изображения, последующие – разные степени изменения бороды.

Сравнение с методом Shu

Сравнение с методом Shu и др. (вторая строка). Как видно, предлагаемый метод даёт более реалистичные изображения, и кроме того, лучше сохраняется идентичность лица.

Вывод

Предлагаемый метод, предположительно, получит широкое распространение, так как он позволяет получить точную и устойчивую 3DMM. Хотя 3DMM была широко распространена с момента своего создания, до появления рассматриваемого метода не существовало эффективного получения этой модели с помощью 2D изображений с произвольного ракурса.

Предлагаемый метод использует глубокие нейронные сети в качестве аппроксиматора для устойчивого моделирования человеческих лиц со всеми их особенностями. Столь необычный способ получения 3DMM позволяет проводить манипуляции с изображением и может быть использован во многих задачах, некоторые из которых были представлены статье.

Перевод — Борис Румянцев.

ссылка на оригинал статьи https://habr.com/post/423543/