Одна фотография – 90 метров симуляции: Nvidia Lyra 2.0 делает тренировку роботов дешёвой и быстрой

Исследователи Nvidia представили Lyra 2.0 – систему, которая по одной фотографии генерирует большие связные трёхмерные окружения. Полученные сцены можно изучать в реальном времени и напрямую использовать для симуляции роботов, например в физическом движке Nvidia Isaac Sim.

Существующие ИИ-модели для генерации 3D страдают от двух фундаментальных проблем. Во-первых, при отдалении виртуальной камеры от стартовой точки цвета и структуры начинают искажаться – дрейфовать. Во-вторых, если камера возвращается в уже виденное место, модель часто пересоздаёт окружение с нуля, словно ничего там раньше не было.

Система берёт один снимок и генерирует видео с управлением камерой, имитирующее виртуальную прогулку по сцене. Эти ролики затем автоматически преобразуются в 3D-представления, которые можно просматривать в реальном времени и экспортировать в симуляционные среды. Согласно научной статье, длина сгенерированных сцен достигает 90 метров.

Чтобы решить первый камень преткновения – модель забывает ранее увиденные области, как только они покидают кадр, – Lyra 2.0 сохраняет трёхмерную геометрию для каждого сгенерированного кадра. Когда камера возвращается к уже посещённой области, система извлекает предыдущие кадры и использует их пространственную информацию как ориентир. Видеомодель по-прежнему занимается непосредственной генерацией изображений, поэтому ошибки в сохранённой геометрии не просачиваются в новые кадры.

Со вторым камнем – маленькие ошибки накапливаются на каждом шаге генерации видео и со временем превращаются в серьёзные искажения – борются хитрее: во время обучения модель специально подкармливают её же ошибочными выходами. Так она учится распознавать падение качества и корректировать его, а не передавать ошибки дальше по цепочке.

На бенчмарках с двумя наборами данных Lyra 2.0 обходит шесть других методов, включая GEN3C, Yume-1.5 и CaM, почти по всем измеряемым критериям: качество изображения, согласованность стиля, управление камерой и т. д. Ускоренная версия модели генерирует видео примерно в 13 раз быстрее при сопоставимом качестве.

Сгенерированные 3D-сцены можно исследовать шаг за шагом через интерактивный интерфейс и экспортировать в виде мешей в физические движки, такие как Nvidia Isaac Sim. Компания утверждает, что это позволит обучать роботов в полностью синтезированных средах без необходимости собирать реальные 3D-данные. Правда, пока Lyra 2.0 поддерживает только статичные сцены.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

ссылка на оригинал статьи https://habr.com/ru/articles/1025092/