Беспилотные автомобили и гуманоидные роботы, способные ходить, разговаривать и работать бок о бок с людьми, — это лишь два примера того, как искусственный интеллект может изменить мир в ближайшем будущем.
Однако для того, чтобы эти физические ИИ-инструменты и приложения могли работать безопасно и эффективно, им необходимо научиться понимать окружающий мир.
Дисклеймер: это вольный перевод колонки издания Forbes, которую написал Бернард Марр. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
Обсудить пилот или задать вопрос об LLM можно здесь.
На выставке Consumer Electronics Show в Лас-Вегасе в этом году NVIDIA анонсировала запуск своей платформы Cosmos, предназначенной для ускорения разработки физических ИИ-систем.
Cosmos, названная «моментом ChatGPT для робототехники», способна генерировать огромные объемы синтетических данных. Эти данные, несмотря на то что они искусственно созданы, достаточно близки к реальному миру, чтобы роботы, автомобили с автопилотом и другие физические ИИ-алгоритмы могли на них обучаться.
Тем не менее, некоторые считают, что никакое количество синтетических данных не сможет полностью смоделировать все реальные ситуации, к которым машины должны быть готовы. Поэтому, например, Tesla уже много лет собирает данные с реальных условий с помощью своих автомобилей, оснащенных сенсорами. Генеральный директор компании Илон Маск написал в Twitter: «Два источника данных имеют бесконечный масштаб: синтетические данные, у которых есть проблема «а правда ли это?» и реальное видео, которой этой проблемы не имеет».
Аргумент заключается в том, что синтетические данные лишены хаотичной непредсказуемости и сложности реального мира, а это критически важно для создания комплексных и безопасных ИИ-систем. Давайте рассмотрим это более подробно.
Синтетические данные vs реальные данные
В системах автономного вождения визуальные данные (изображения) используются для обучения алгоритмов, которые определяют, как автомобили будут реагировать на различные условия и ситуации на дороге. Эти данные могут быть получены с помощью камер, установленных на автомобилях (реальные данные). Также они могут быть сгенерированы ИИ-алгоритмами в соответствии с правилами, изученными на основе реальных данных (синтетические данные).
У каждого из этих методов есть свои плюсы и минусы.
Синтетические данные зачастую можно собрать гораздо быстрее и дешевле, чем реальные. Для этого не нужно выходить на улицу и собирать данные вручную — их просто генерируют машины.
Это также может иметь преимущества с точки зрения безопасности. Тестирование беспилотных автомобилей на дорогах, например, всегда сопряжено с определенным риском, который можно полностью устранить, если поездки просто симулировать.
Ситуации, окружение и многие другие переменные можно также настроить, вместо того чтобы ждать, когда появятся идеальные условия для сбора данных в реальном мире. Например, исследователи могут смоделировать редкие погодные явления, протестировать автономные автомобили в опасных сценариях или смоделировать сложные производственные дефекты без реальных рисков или задержек.
Кроме того, создание синтетических данных может снизить или полностью исключить вопросы, связанные с конфиденциальностью и защитой данных, которые могут возникнуть при сборе реальных данных. Так, например, нет риска того, что конфиденциальные персональные данные могут быть случайно сохранены или скомпрометированы.
Это может произойти при сборе реальных данных. Например, номера автомобилей, зафиксированные камерами автономных автомобилей, могут быть связаны с их владельцем и использованы для идентификации и отслеживания.
Реальные данные, с другой стороны, как указывает Маск, имеют неоспоримое преимущество в своей аутентичности. Хаотичное и непредсказуемое поведение людей, которое сложно сгенерировать искусственно, скорее всего, будет учтено в реальных данных.
Регулирование также может стать проблемой.
Законы в области ИИ развиваются быстро, и вполне возможно, что регуляторы в какой-то момент потребуют, чтобы определённые модели или приложения обучались на реальных данных, или даже в некоторых юрисдикциях, по соображениям безопасности.
Взвешивание вариантов
На самом деле как реальные, так и синтетические данные, вероятно, окажутся крайне важными для обучения следующего поколения физических ИИ-автомобилей и роботов.
Каждый из методов имеет свои уникальные преимущества и вызовы, и наиболее успешным, вероятно, будет гибридный подход.
Задача состоит в том, чтобы определить, какой тип данных наиболее подходящий для конкретных случаев использования. Например, синтетические данные могут быть более полезны для задач или приложений, связанных с обработкой чувствительной информации или работой в опасных условиях.
С другой стороны, реальные данные могут быть предпочтительны для учёта динамичного человеческого поведения или для ситуаций, где возможны неожиданные хаотичные события.
Это означает, что ИИ-проекты, которые выберут сбалансированный подход, возглавляемый специалистами, понимающими, как синтетическая и реальная информация могут дополнять друг друга, а не конкурировать, с большей вероятностью создадут реальную бизнес-ценность.
ссылка на оригинал статьи https://habr.com/ru/articles/873610/
Добавить комментарий