Чтобы повысить надёжность моделей обучения с подкреплением для сложных задач с вариативностью, исследователи Массачусетского технологического института представили более эффективный алгоритм. Он стратегически выбирает лучшие задачи для обучения агента ИИ, чтобы он мог эффективно выполнять все таски из одного набора.
Модели обучения с подкреплением, лежащие в основе современных систем принятия решений ИИ, по-прежнему часто терпят неудачу, когда сталкиваются даже с небольшими корректировками задач. В случае с движением транспорта модели может быть сложно контролировать набор перекрёстков с разными ограничениями скорости, количеством полос движения или схемами движения. Новый алгоритм позволяет представлять один перекрёсток в пространстве задач, включающем все остальные в городе.
Сосредоточив внимание на меньшем количестве пересечений, которые в наибольшей степени способствуют общей эффективности алгоритма, этот метод максимизирует производительность, сохраняя при этом низкую стоимость обучения.
Исследователи обнаружили, что их метод в 5–50 раз эффективнее стандартных подходов к моделированию задач. Это помогает алгоритму быстрее найти лучшее решение, что в конечном итоге повышает производительность ИИ-агента.
«Мы смогли увидеть невероятные улучшения производительности с помощью очень простого алгоритма, думая нестандартно. Алгоритм, который не очень сложен, имеет больше шансов быть принятым сообществом, потому что его легче реализовать и понять другим», — говорит старший автор Кэти Ву, доцент Университета Томаса Д. и Вирджинии В. Кэбот.
Чтобы обучить алгоритм управлению светофорами на большом числе перекрёстков, инженер обычно выбирает один из двух основных подходов. Он может обучить один алгоритм для каждого перекрёстка независимо, используя только его данные, либо обучить более крупный алгоритм, используя данные со всех перекрёстков, а затем применить его к каждому из них.
Но каждый подход имеет свои недостатки. Обучение отдельного алгоритма для каждой задачи — это трудоёмкий процесс, требующий огромного количества данных и вычислений, а обучение одного алгоритма для всех задач часто приводит к низкой производительности.
Ву и её коллеги выбирают подмножество задач и обучают один алгоритм для каждой задачи независимо. При этом инженеры отбирают отдельные задачи, которые с наибольшей вероятностью улучшат общую производительность алгоритма при выполнении всех остальных.
Исследователи используют распространённый прием из области обучения с подкреплением, называемый обучением с нулевым переносом, при котором уже обученная модель применяется к новой задаче без дообучения.
«Мы знаем, что было бы идеально тренироваться на всех задачах, но задавались вопросом, сможем ли обойтись обучением на подмножестве этих задач, применить результат ко всем остальным и при этом увидеть повышение производительности», — говорит Ву.
Чтобы определить, какие задачи им следует выбрать, исследователи разработали алгоритм под названием Model-Based Transfer Learning (MBTL). Он состоит из двух частей. Во-первых, MBTL моделирует, насколько хорошо работал бы каждый алгоритм, если бы он обучался независимо одной задаче. Затем он моделирует, насколько ухудшится производительность каждого алгоритма, если его перенести на другую задачу. Эта концепция известна как производительность обобщения.
Явное моделирование эффективности обобщения позволяет MBTL оценить ценность обучения новой задаче. Алгоритм делает это последовательно, сначала выбирая задачу, которая приводит к наибольшему приросту производительности, а затем подбирая дополнительные, которые обеспечивают наибольшие последующие незначительные улучшения общей производительности.
Методика моделирования задач, включая управление сигналами светофора, рекомендациями по скорости в реальном времени и другими, оказалась в 5–50 раз эффективнее остальных методов. Так, при 50-кратном повышении эффективности алгоритм MBTL может обучаться всего на двух задачах и достигать той же производительности, что и стандартный метод, использующий данные из 100 задач.
В будущем исследователи планируют разработать алгоритмы MBTL, которые можно будет использовать для решения более сложных задач в многомерных пространствах. Они также заинтересованы в применении своего подхода к реальным проблемам, особенно в мобильных системах следующего поколения.
Ранее Google Deepmind совместно со специалистами Стэнфорда, Северо-Западного университета Чикаго и Вашингтонского университета разработала архитектуру для симуляции поведения группы людей, состоящей из более чем тысячи человек, для проверки социологических гипотез. Архитектура основана на методе экспертных размышлений, в котором агентам-участникам задают вопросы и оценивают их ответы с помощью агента-эксперта. Последний может принимать роль специалиста в области социальных наук, например политолога или психолога.
Между тем Microsoft представила экспериментальную Python-библиотеку TinyTroupe, которая предназначена для моделирования поведения людей. Она работает на базе больших языковых моделей и будет полезна для оценки эффективности рекламных кампаний, организации тестирования ПО или генерации данных для обучения нейросетей. С помощью TinyTroupe разработчики могут моделировать людей с определёнными личностями, интересами и жизненными целями. Такие искусственные агенты называются TinyPerson. Они могут взаимодействовать друг с другом, с реальными пользователями и «жить своей жизнью» в смоделированных мирах TinyWorld.
ссылка на оригинал статьи https://habr.com/ru/articles/861372/
Добавить комментарий