GenEx пытается научить AI представлять, что находится «за углом»

от автора

Исследователи Университета Джонса Хопкинса создали систему искусственного интеллекта, которая может генерировать полностью исследуемое трехмерное окружение по одному фото. Система, названная GenEx, может помочь роботам и AI-агентам лучше понимать и ориентироваться в сложных ситуациях, позволяя им воображать, что находится за пределами их непосредственного видения. Представьте, что это дает машинам форму воображения — способность представить, что может быть за следующим поворотом.

Вместо использования фотографий из реального мира команда обучала GenEx, используя виртуальные окружения из игровых движков, таких как Unreal Engine 5 и Unity. Это позволило им эффективно собирать разнообразные обучающие данные.

Процесс обучения использует кубмапы — способ проецирования 360-градусных видов на шесть квадратов, образующих куб. Команда собирала предопределенные пути исследования через эти виртуальные миры, систематически сканируя разные направления движения для построения комплексного набора данных. Это помогло GenEx научиться создавать плавные переходы между различными точками зрения. По словам исследователей, результаты впечатляют. Даже при исследовании до 20 метров в созданных окружениях изображения остаются стабильными и когерентными. Стандартные метрики качества показывают низкие показатели ошибок, что говорит о том, что система производит очень реалистичные визуализации. GenEx может создавать обзоры сверху, перемещаясь вдоль вертикальной оси, давая AI-агентам более широкий обзор их окружения — как будто иметь перспективу дрона, не нуждаясь в самом дроне.

Система также удивительно хорошо справляется с созданием многопроекционных видео объектов. В то время как другие открытые модели борются с этой задачей, GenEx поддерживает согласованные фоны и реалистичное освещение на протяжении последовательности, говорят исследователи.

Возможно, наиболее впечатляющее, что GenEx может помочь в чем-то, что называется активным 3D-картированием. Пока AI-агент исследует созданное окружение, он строит трехмерную карту всего, что он «видит», подобно тому, как автономные транспортные средства строят карты своих окружений — за исключением того, что все это происходит в воображаемом пространстве GenEx, а не в реальном мире.

«Воображаемое исследование» помогает AI принимать лучшие решения. Исследователи продемонстрировали это на двух сценариях дорожного движения:

В первом случае AI-агент, подъезжающий к нерегулируемому перекрестку, видит серебристую машину, идущую навстречу. С одним изображением агент остановился бы для безопасности. Но, используя GenEx для исследования разных точек зрения, он может заметить стоп-знак, обращенный к другой машине, и решить двигаться дальше, чтобы предотвратить задержки в дорожном движении.

В другом сценарии агент, ожидающий на красный свет, должен решить, повернуть ли направо, что осложнено приближающейся машиной и переходящим пешеходом. Используя GenEx для исследования нескольких точек зрения, агент понимает, что он мешает прямой видимости между машиной и пешеходом. Вместо простого ожидания, он решает предупредить обе стороны о потенциальной опасности.

AI- агенты используют воображаемые перспективы для лучшей оценки дорожной ситуации. В то время как отдельные агенты имитируют дополнительные точки зрения, многоагентные системы могут учитывать перспективы других участников дорожного движения, что позволяет принимать более обоснованные решения. 

AI- агенты используют воображаемые перспективы для лучшей оценки дорожной ситуации. В то время как отдельные агенты имитируют дополнительные точки зрения, многоагентные системы могут учитывать перспективы других участников дорожного движения, что позволяет принимать более обоснованные решения. 

GenEx позволяет системам AI творчески исследовать окружающую среду, стремясь предоставить знания, эквивалентные физическому исследованию. Исследователи сравнивают это с человеческим воображением — нам не нужно физически обойти пожарную машину, чтобы знать, что она, вероятно, блокирует всю дорогу, или обойти стоп-знак, чтобы знать, что на его задней стороне. GenEx дает AI-агентам подобные воображаемые способности. Когда оборудованный GenEx агент GPT-4o принимал правильные решения в 85% случаев, по сравнению с 46% для агента, работающего с одним изображением. В многоагентных сценариях разница была еще более драматической: 95% точности с GenEx против 22% без него.

GenEx позволяет системам AI творчески исследовать окружающую среду

GenEx позволяет системам AI творчески исследовать окружающую среду

Тем не менее, команда признает некоторые ограничения. Преодоление разрыва между воображаемыми и реальными окружениями остается вызовом. Будущая работа должна сосредоточиться на адаптации системы к данным реального мира и динамическим условиям.

Источник


ссылка на оригинал статьи https://habr.com/ru/articles/871590/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *