AIRI представил ELMUR — архитектуру памяти для роботов на базе ИИ

от автора

Ученые института AIRI представили ELMUR — архитектуру управления для роботов и ИИ-агентов, которым нужно принимать решения с учетом событий из далекого прошлого. Это важная задача для робототехники: агент может увидеть полезную информацию задолго до того, как она понадобится для действия.

Обычные трансформеры с этой задачей справляются ограниченно. Если расширять окно внимания, резко растут вычислительные затраты. Если сжимать прошлый опыт, появляется риск потерять важные детали. А внешняя память фиксированного размера не всегда позволяет надежно учитывать давние события при текущем решении.

В ELMUR память встроена прямо в слои модели. Каждый слой содержит фиксированное количество слотов, которые параллельно взаимодействуют с основным потоком данных. Система может читать нужную информацию из этих ячеек и записывать туда новые данные. Если память заполняется, обновляются те слоты, которые использовались реже всего, по принципу LRU — Least Recently Used.

Такой подход позволяет агенту хранить важные данные за пределами обычного окна внимания без квадратичного роста вычислений. По словам исследователей, ELMUR может удерживать полезную информацию на протяжении 100 тыс. шагов вне стандартного контекста.

В тестах архитектура показала заметный результат. В синтетическом T-Maze модель смогла удерживать информацию на протяжении одного миллиона шагов со 100-процентной точностью. На бенчмарке MIKASA-Robo, который оценивает память роботов, ELMUR почти вдвое улучшила базовые показатели и заняла первое место в 21 из 23 задач.

Главная область применения — робототехника и системы управления, где агент получает неполные визуальные сигналы и должен действовать в среде, которая меняется со временем. Например, робот может заметить объект, препятствие или подсказку в начале маршрута, а использовать эту информацию только спустя много шагов.

Следующим этапом исследователи хотят расширить подход на Visual Language Action-модели. Это направление особенно важно для роботов, которые связывают визуальное восприятие, языковые инструкции и физические действия.

ссылка на оригинал статьи https://habr.com/ru/articles/1029032/