Топ-20 лучших научных статей об ИИ-агентах в 2024 году

от автора

Привет, Хабр! Подходит к концу 2024 год — год, который был насыщен огромным количеством исследований в области искусственного интеллекта. Причём настоящий бум произошёл в сфере ИИ-агентов, их архитектур, механизмов принятия решений и способов обучения больших языковых моделей.

К концу года, после прочтения тонны статей, я решил поделиться с вами двадцатью (на мой субъективный взгляд) самыми интересными и влиятельными работами об ИИ-агентах за 2024 год. В этом материале я постараюсь не только кратко рассказать о ключевых идеях и результат и что именно делает каждую из этих статей выдающейся, но и сформулировать, куда в целом двигается область. Если вы хотите за несколько минут узнать о самых ярких новинках в мире ИИ-исследований — вы по адресу (будет, что почитать на каникулах).

Каждый день на свет появляются тысячи новых статей, и успеть прочитать все невозможно. Именно поэтому я создал Dataist AI — бота, который по будням пишет короткие обзоры на самые многообещающие научные публикации. Вы можете пользоваться им бесплатно.

Если вам интересна тема ИИ, мои кейсы и опыт, подписывайтесь на мой телеграм-канал, где я делюсь инсайтами, практическими советами и последними новостями из мира искусственного интеллекта.

Поехали!

  1. Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective

    Процесс инициализации политики включает предварительное обучение, дообучение на инструкциях и внедрение поведения, похожего на человеческое рассуждение.

    Процесс инициализации политики включает предварительное обучение, дообучение на инструкциях и внедрение поведения, похожего на человеческое рассуждение.

    Авторы разработали подробную дорожную карту для воспроизведения модели o1 от OpenAI, рассматривая процесс создания модели с точки зрения обучения с подкреплением. Основная цель — определить ключевые компоненты и методы, необходимые для достижения экспертного уровня производительности модели o1 в задачах, требующих повышенных способностей к рассуждению. 

    Авторы также провели обзор существующих открытых проектов, направленных на воспроизведение модели o1, рассматривая их как вариации предложенной дорожной карты. Отдельно подчеркивается перспектива в мультимодальности и использовании симуляторов (моделей мира). Авторы надеются, что предложенная дорожная карта послужит основой для дальнейших исследований в области общего искусственного интеллекта (AGI).

    Работа дает систематизированный подход к воспроизведению крупномасштабной модели, подчеркивая, что правильная комбинация RL и поиска может значительно улучшить качество рассуждений. Это не просто «копия» большой модели, а попытка понять ее фундаментальные строительные блоки.

  2. Agentic Information Retrieval

    Иллюстрация агентского IR (Information Retrieval) в сценариях повседневного ассистента.

    Иллюстрация агентского IR (Information Retrieval) в сценариях повседневного ассистента.

    Авторы представили новую парадигму информационного поиска (IR) под названием «Agentic Information Retrieval» (Agentic IR). Целью исследования является разработка архитектуры и методов, основанных на возможностях больших языковых моделей (LLMs) и агентных систем, для расширения возможностей традиционных систем IR. 

    В исследовании представлена единая архитектура IR-агента , включающая модули памяти, мыслительных процессов и внешних инструментов, позволяющих агенту взаимодействовать с различными источниками информации и выполнять многошаговые действия.

    Исследование показывает, что Agentic IR значительно расширяет возможности традиционных систем информационного поиска в области решения более широкого спектра задач, интерактивности и автономности, а также применение в различных повседневных и бизнес-сценариях. 

    Agentic IR представляет собой значительный прорыв в области информационного поиска, предлагая более гибкую и мощную архитектуру, основанную на возможностях современных LLM и агентных систем.

  3. Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

    Исследование фокусируется на обзоре моделей мира для генерации видео, автономного вождения и автономных агентов

    Исследование фокусируется на обзоре моделей мира для генерации видео, автономного вождения и автономных агентов

    Авторы провели всесторонний обзор текущих моделей мира (world models) и оценили их роль в достижении общего искусственного интеллекта (AGI). Исследование демонстрирует, что модель Sora является значительным достижением в области генерации видео и симуляции окружающего мира. Sora способна создавать высококачественные видео продолжительностью до одной минуты, демонстрируя понимание физических законов и сложных динамических взаимодействий.

    А такие модели как GAIA-1 и DriveDreamer, показывают высокую эффективность в прогнозировании дорожных сценариев и улучшении безопасности автономных транспортных средств. Также модели мира, используемые в качестве симуляторов, значительно улучшают эффективность обучения агентов в игровых и роботизированных средах.

    Модели мира  представляют собой важный шаг вперед в развитии AGI. Однако для дальнейшего прогресса модели мира должны обладать способностью к контрфактическому рассуждению, также необходимо обеспечить более точное моделирование физических явлений и оптимизировать процессы генерации.

    Модели мира уже дают возможность ИИ «понимать» среду и предсказывать последствия действий. Это основа для развития более продвинутых AGI-систем, которым нужно ориентироваться в физическом или виртуальном пространстве. Это путь к по-настоящему умным виртуальным ассистентам и роботам. 

  4. Genie: Generative Interactive Environments

    Genie способна преобразовывать промты в интерактивные, играбельные среды.

    Genie способна преобразовывать промты в интерактивные, играбельные среды.

    Авторы представили Genie — первую генеративную интерактивную среду, обученную с помощью неразмеченных интернет-видео. Целью исследования является создание модели, способной преобразовывать различные виды запросов (тексты, синтетические изображения, фотографии, эскизы) в интерактивные, управляемые действиями виртуальные миры, доступные для исследования и взаимодействия.

    В исследовании используется архитектура ST-Transformer (пространственно-временной трансформер) для обеспечения эффективной обработки видео с учетом как пространственных, так и временных зависимостей. Основные компоненты модели Genie включают видео-токенизатор, латентную модель действий (Latent Action Model, LAM) и динамическую модель. Модель обучалась на большом наборе данных из более чем 200,000 часов публично доступных видео игр 2D платформеров, а также на робототехнических видео из набора данных RT1. 

    Создание интерактивных «на лету» симуляций может радикально поменять подход к разработке игр, обучающих сред, исследовательских инструментов и симуляторов для роботов. Уже доступна Genie 2, которая позволяет создавать 3D-миры для видео и игр.

  5. Agent AI: Surveying the Horizons of Multimodal Interaction

    Обзор компонентов ИИ-агента, способного воспринимать и действовать в различных доменах и приложениях, что потенциально может стать путем к AGI.

    Обзор компонентов ИИ-агента, способного воспринимать и действовать в различных доменах и приложениях, что потенциально может стать путем к AGI.

    Авторы исследовали область ИИ-агентов как перспективный путь к созданию общего ИИ (AGI). Основная цель заключается в разработке интерактивных агентов, способных воспринимать и действовать в различных физических и виртуальных средах.

    Авторы объединили LLMs и VLMs (Vision Language Models) в единую агентскую систему (Agent Transformer), способную воспринимать и действовать в различных модальностях (текст, изображение, звук, видео). Методы обучения с подкреплением (Reinforcement Learning, RL) и имитационного обучения (Imitation Learning, IL) использовались для повышения эффективности агентов в выполнении задач.

    Авторы включили стратегий оптимизации как пространственных, так и временных аспектов поведения агентов, а также внедрили механизмы непрерывного обучения и самоулучшения. Также был разработан датасет «CuisineWorld», для оценки и сравнения эффективности различных агентных систем.

    В результате были представлены примеры применения ИИ-агентов в области игр, робототехники и здравоохранения. ИИ-агенты обладают значительным потенциалом для достижения AGI. Однако существуют определённые вызовы, такие как снижение уровня галлюцинаций моделей, уменьшение предвзятости и обеспечение конфиденциальности данных.

  6. The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

    Задачи для оценки (слева) по категориям: веб-поиск, продуктивность, рабочий процесс и развлечения. "Использование компьютера из коробки" (справа) обеспечивает простую реализацию для выполнения этих задач в операционной системе пользователя.

    Задачи для оценки (слева) по категориям: веб-поиск, продуктивность, рабочий процесс и развлечения. «Использование компьютера из коробки» (справа) обеспечивает простую реализацию для выполнения этих задач в операционной системе пользователя.

    Авторы оценили возможности и ограничения новой модели Claude 3.5 Computer Use от компании Anthropic, которая представляет собой первую ИИ-модель для использования компьютера через графический интерфейс пользователя (GUI). Основная цель заключалась в проведении исследования, демонстрирующего способность модели выполнять комплексные задачи в реальных условиях, а также в предоставлении основы для дальнейших исследований в области GUI-агентов.

    Авторы разработали и организовали коллекцию тщательно продуманных задач, охватывающих различные домены и программное обеспечение, включая веб-поиск, рабочие процессы, офисную продуктивность и видеоигры.

    Представлен универсальный кроссплатформенный фреймворк для развертывания моделей GUI-автоматизации на основе API, обеспечивающий простую реализацию и тестирование.

    В результате авторы пришли к выводу, что Claude 3.5 Computer Use обладает высоким потенциалом для автоматизации сложных задач через GUI, однако существует ряд ограничений, связанных с точностью выполнения действий и самооценкой модели. 

  7. WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

    WebRL - фреймворк обучения с подкреплением для саморазвивающихся веб-агентов

    WebRL — фреймворк обучения с подкреплением для саморазвивающихся веб-агентов

    Авторы разработали фреймворк WebRL для обучения высокоэффективных веб-агентов через саморазвивающийся куррикулум, который генерирует новые задачи из неудачных попыток. 

    Была создана надежная модель вознаграждения (Outcome-Supervised Reward Model, ORM) и внедрены методы, обеспечивающие стабильное улучшение производительности агентов. Фреймворк автоматически генерирует задачи различной сложности, адаптируясь к текущим возможностям модели, что способствует постепенному и устойчивому обучению.

    В результате применение WebRL к моделям Llama-3.1-8B и GLM-4-9B привело к увеличению средней успешности выполнения задач на WebArena-Lite с 4.8% до 42.4% и с 6.1% до 43% соответственно. 

    WebRL является эффективным инструментом для обучения веб-агентов на основе открытых LLM, успешно преодолевая основные вызовы, такие как недостаток обучающих задач, разреженность сигналов обратной связи и расходимость политик в онлайн-обучении. 

  8. Personalization of Large Language Models: A Survey

    Персонализация больших языковых моделей: 1 - персонализация текста, 2 - использование персонализированной информации для повышения качества рекомендаций

    Персонализация больших языковых моделей: 1 — персонализация текста, 2 — использование персонализированной информации для повышения качества рекомендаций

    Авторы представили обзор методов персонализации больших языковых моделей (LLMs). Они нацелены на объединение двух основных направлений в области персонализированных LLMs: (a) генерация персонализированного текста и (b) использование LLMs для систем рекомендаций. Целью является создание единой таксономии, формализация теоретических основ персонализации и выявление ключевых различий и вызовов между этими направлениями.

    Авторы ввели три уровня персонализации: на уровне пользователя, на уровне персоны (группа пользователей с общими характеристиками) и на глобальном уровне (общие предпочтения и нормы, принятые широкой аудиторией).

    Методы персонализации на основе использования пользовательской информации включают Retrieval-Augmented Generation (RAG), промтинг, Representation Learning и обучение с подкреплением на основе обратной связи от человека (RLHF).

    Персонализированные ИИ-системы — необходимый шаг для пользовательских сервисов, образовательных платформ и рекомендаций. Но нужно учитывать риски утечки приватных данных и корректно решать проблему предвзятости моделей.

  9. Evolving Agents: Interactive Simulation of Dynamic and Diverse Human Personalities

    Эволюционирующие агенты демонстрируют различное поведение, соответствующее их личностным характеристикам, и претерпевают непрерывную эволюцию личности на основе внешней информации в рамках интерактивной симуляционной среды.

    Эволюционирующие агенты демонстрируют различное поведение, соответствующее их личностным характеристикам, и претерпевают непрерывную эволюцию личности на основе внешней информации в рамках интерактивной симуляционной среды.

    Авторы представили архитектуру агентов эволюционирующих агентов (Evolving Agents), способную симулировать динамичную и разнообразную человеческую личность в интерактивных симуляционных средах. Целью является создание агентов, чьи личностные характеристики и поведенческие паттерны эволюционируют со временем через взаимодействие с окружающей средой и другими агентами.

    Архитектура эволюционирующих агентов состоит из двух основных систем:

    1. Система Личности (Personality): Включает модули Когниции (Cognition), Эмоций (Emotion) и Рост Характера (Character Growth), отвечающие за когнитивную обработку информации, эмоциональные реакции и развитие характера агента.

    2. Система Поведения (Behavior): Состоит из модулей Планирования (Planning) и Действий (Action), отвечающих за разработку и выполнение конкретных действий агента.

      В результате агентам удалось продемонстрировать реалистичную эволюцию личностных черт и поведенческих паттернов после нескольких дней симуляции. Личностные черты агентов отражались в их поведении, и изменения в личностных

  10. More Agents Is All You Need

    "Agent Forest" — это двухфазный процесс, в котором несколько агентов на основе больших языковых моделей (LLM) используются для выполнения задачи с целью повышения качества и точности ответов.

    «Agent Forest» — это двухфазный процесс, в котором несколько агентов на основе больших языковых моделей (LLM) используются для выполнения задачи с целью повышения качества и точности ответов.

    Авторы разработали метод Agent Forest и продемонстрировали, что увеличение числа агентов приводит к значительному улучшению производительности ИИ-системы. Они также исследовали свойства задач, которые способствуют достижению этого эффекта, и оценили общую применимость и совместимость предложенного метода с существующими подходами.

    Метод Agent Forest состоит из двух этапов:

    1. Выборка (Sampling): На данном этапе генерируется N различных ответов от агентов (LLMs) путем многократного запроса к модели с тем же вводом.

    2. Голосование (Voting): После генерации выборки ответов производится оценка их сходства. Финальный ответ выбирается как тот, который имеет наибольшее суммарное сходство с остальными ответами в выборке.

      Данное исследование подтверждает, что простое увеличение числа агентов является мощным инструментом для повышения производительности ИИ-систем, особенно в контексте сложных задач. Поэтому не всегда выигрышно обучать одну модель до экстремальных размеров. Несколько моделей поменьше могут совместно выдавать лучший результат, причём дешевле.

  11. Internet of Agents

    Концептуальная архитектура для разработки IoA (Internet of Agents)

    Концептуальная архитектура для разработки IoA (Internet of Agents)

    Авторы представили Internet of Agents (IoA) — новый фреймворк, предназначенный для обеспечения гибкой и масштабируемой коллаборации между автономными агентами, основанными на больших языковых моделях (LLMs). Основная цель заключается в преодолении существующих ограничений мультиагентным систем, таких как изоляция экосистем, симуляция на одном устройстве и жестко закодированные коммуникационные каналы.

    Для достижения поставленных целей авторы создали аналог «Интернета» для агентов, где они могут подключаться к общей сети, обнаруживать друг друга, формировать команды и управлять потоками общения. 

    В результате IoA превосходит лучшие решения типа AutoGPT и Open Interpreter, демонстрируя высокую эффективность в решении сложных задач. IoA успешно объединяет агентов с различными инструментами, архитектурами и базами знаний, что позволяет им совместно решать задачи, требующие разнообразных навыков и специализаций. Также IoT гибко масштабируется и пригодна для распределённых сред (включая Internet-of-Things).

    Мультиагентные системы становятся всё более востребованными. А IoA упрощает процесс интеграции разных агентов, работая как «универсальная шина» для взаимодействия.

  12. Many-agent Simulations toward AI Civilization

    От архитектуры агента к цивилизации агентов.

    От архитектуры агента к цивилизации агентов.

    Авторы исследовали поведение больших групп автономных ИИ-агентов, моделирующих процессы цивилизационного развития. Основная цель заключается в создании масштабных симуляций, включающих от 10 до более чем 1000 агентов, чтобы понять, могут ли такие агенты самостоятельно развивать специализированные роли, соблюдать и изменять коллективные правила, а также участвовать в культурной и религиозной передаче, приближаясь к формированию ИИ-цивилизаций.

    Для этого авторы разработали архитектуру PIANO (Parallel Information Aggregation via Neural Orchestration), которая позволяет агентам в среде Minecraft взаимодействовать с людьми и другими агентами в реальном времени. 

    В результате агенты смогли достигать значительного прогресса в Minecraft, собирая в среднем 17 уникальных предметов за 30 минут и до 320 уникальных предметов за 4 часа в больших группах. А агенты с модулями социальной осведомленности могли точно определять и реагировать на эмоциональные состояния других агентов, формируя устойчивые социальные отношения. 

    В группах агентов наблюдалась специализация на различные роли (фермеры, шахтеры, стражи и т.д.), что способствовало эффективному выполнению задач и развитию цивилизационных структур. Агенты также могли следовать налоговым законам, а также изменять их через демократические процессы, отражая влияние лидеров мнений. В больших симуляциях агенты успешно распространяли культурные мемы и религиозные идеи.

    Глубокое понимание механизмов социального взаимодействия, распределения ролей и «культурных» явлений дает нам новые инструменты для исследования эволюции сообществ и моделирования сложных социальных систем.

  13. AIGS: Generating Science from AI-Powered Automated Falsification

    Примеры научных исследовательских процессов, проводимых людьми-исследователями. Опровержение играет ключевую роль на этапе проверки предложенных гипотез, что в конечном итоге приводит к научному открытию.

    Примеры научных исследовательских процессов, проводимых людьми-исследователями. Опровержение играет ключевую роль на этапе проверки предложенных гипотез, что в конечном итоге приводит к научному открытию.

    Авторы представили систему AI-Generated Science (AIGS), способную автономно выполнять весь процесс научных исследований и открывать новые законы. Основной акцент делается на интеграцию процесса фальсификации гипотез, что, по мнению авторов, является сутью научного метода и ключевым элементом для обеспечения научной строгости и прозрачности в AIGS-системах.

    Для достижения поставленных целей авторы разработали мультиагентную систему, которая автономно генерирует идеи и методологии исследований, реализует предложенные методологии и проводит эксперименты, анализирует результаты экспериментов и предоставляет обратную связь для доработки предложений, выполняет фальсификацию гипотез через абляционные исследования и верификацию научных открытий.

    В результате система продемонстрировала высокую степень креативности в генерации идей и методологий (иногда нерелевантных), а также практически 100% успешности в реализации предложенных экспериментов.

    Это хорошая возможность полностью автоматизировать научный цикл сулит ускорение исследований в самых разных областях, если удастся повысить качество и «глубину» получаемых результатов.

  14. ABIDES-Economist: Agent-Based Simulation of Economic Systems with Learning Agents

    Типы агентов и их взаимодействия в ABIDES-Economist

    Типы агентов и их взаимодействия в ABIDES-Economist

    Авторы представили ABIDES-Economist — симуляционную платформу для экономических систем. Основная цель заключается в моделировании взаимодействий между экономическими агентами для анализа производственных и потребительских процессов в экономике, а также денежного обращения. 

    В исследовании используется агентно-ориентированное моделирование (Agent-Based Modeling, ABM), а сновные подходы включают наличие агентов-домохозяйств и фирм, а также агентов центрального банка и правительства, интеграцию обучения с подкреплением (RL) и моделирование взаимодействий и внешних шоков.

    В результате данное исследование закладывает фундамент для дальнейшего развития автономных систем моделирования экономических процессов, объединяя передовые методы ИИ и экономической теории, что открывает новые перспективы для исследований и практических приложений в области экономики, симулируя различные экономические сценарии.

  15. AFlow: Automating Agentic Workflow Generation

    Пример узла, оператора и ребра. Представлены необязательные параметры для узлов, структуру некоторых операторов и общие представления ребер.

    Пример узла, оператора и ребра. Представлены необязательные параметры для узлов, структуру некоторых операторов и общие представления ребер.

    Авторы представили AFLOW — платформу для генерации агентных рабочих процессов (agentic workflows) с использованием больших языковых моделей (LLMs). Основная цель заключается в сокращении зависимости от ручного проектирования рабочих процессов, что позволяет повысить масштабируемость и обобщаемость применения LLMs в различных доменах и сложных задачах.

    В исследовании авторы переосмыслили оптимизацию рабочих процессов как задачу поиска в пространстве кодовых представлений, где узлы представляют вызовы LLM, а ребра определяют логику и зависимости между ними.

    Для разработки фреймворка AFLOW использовался алгоритм  Monte Carlo Tree Search (MCTS), а также операторы, которые служат строительными блоками для построения рабочих процессов.

    В результате на шести публичных бенчмарках (HumanEval, MBPP, GSM8K, MATH, HotPotQA, DROP) AFLOW продемонстрировал среднее улучшение производительности на 5.7% по сравнению с передовыми ручными методами и на 19.5% по сравнению с существующими автоматизированными подходами. Также рабочие процессы, сгенерированные AFLOW, позволили меньшим моделям превосходить GPT-4 на отдельных задачах при 4.55% от стоимости инференса GPT-4.

    Вместо ручной сборки пайплайнов, которая может быть долгой и не всегда оптимальной, AFlow позволяет систематически и быстро находить лучшие конфигурации, экономя ресурсы и повышая точность.

  16. Automated Design of Agentic Systems

    Обзор предложенного алгоритма Meta Agent Search и примеры обнаруженных агентов.

    Обзор предложенного алгоритма Meta Agent Search и примеры обнаруженных агентов.

    Авторы представили новый исследовательский направление автоматизированного проектирования агентных систем (ADAS). Основная цель ADAS заключается в автоматическом создании мощных агентных систем, включая изобретение новых строительных блоков и их комбинаций. Авторы намерены сократить зависимость от ручного проектирования агентных систем, что позволит повысить эффективность, масштабируемость и обобщаемость применения ИИ-агентов в различных доменах и сложных задачах.

    В исследовании представлен алгоритм Meta Agent Search, который реализует подход ADAS через использование мета-агента для генерации кода все более совершенных агентов, переиспользуя “удачные” наработки.

    В результате агентные системы, созданные с помощью Meta Agent Search, значительно превосходят современные ручные методы. Также созданные агенты демонстрируют высокую переносимость между различными моделями и доменами. Они сохраняют превосходную производительность при переносе на новые задачи и модели, подтверждая их надежность и универсальность.

    Это шаг к полноценному мета-программированию, где ИИ берёт на себя роль «архитектора» агентных систем. Такой путь ускоряет разработку ИИ-агентов для различных отраслей.

  17. Thinking LLMs: General Instruction Following with Thought Generation

    Пайплайн оптимизации мыслей.

    Пайплайн оптимизации мыслей.

    Авторы разработали метод обучения больших языковых моделей (LLM) способности «думать» перед ответом на любые задачи, а не только математические или логические. Авторы стремились научить модели генерировать внутренние размышления в текстовой форме для улучшения качества финальных ответов без использования дополнительных размеченных данных.

    Метод Thought Preference Optimization (TPO) позволяет LLM генерировать несколько вариантов ответов с размышлениями, далее модель-судья оценивает только финальные ответы (без размышлений), и на основе оценок формируются пары для обучения методом Direct Preference Optimization (DPO).

    В итоге TPO достигла win rate 52.5% на AlpacaEval и 37.3% на Arena-Hard, превзойдя базовую модель без размышлений, а качество ответов улучшалось с каждой итерацией обучения. Также модель научилась адаптировать длину размышлений под сложность задачи.

    Явная генерация промежуточных рассуждений улучшает качество ответа в широком спектре задач, не требуя ручной аннотации мыслей. Это повышает прозрачность принятия решения и расширяет возможности “думающих моделей” в различных областях применения: от общих задач до маркетинга и здравоохранения.

  18. Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning

    Обзор процесса генерации историй в ExploreToM

    Обзор процесса генерации историй в ExploreToM

    Авторы разработали надежный и масштабируемый фреймворк для генерации разнообразных и сложных данных для оценки и обучения LLMs “способности к разуму” (Theory of Mind, ToM). Основная цель заключается в преодолении ограничений существующих бенчмарков, которые используют ограниченные наборы данных с простыми шаблонами, что может приводить к неправильной оценке способностей моделей.

    В исследовании представлен метод ExploreToM, который используется адаптивную генерацию историй с помощью A поиска:*, автоматически генерирует вопросы для оценки понимания и преобразует сюжеты в естественно звучащие повествования.

    В результате Llama-3.1-70B и GPT-4o показали крайне низкие показатели точности (0% и 9% соответственно) на данных, сгенерированных с помощью ExploreToM, что подчеркивает сложность созданных сценариев, а дообучение Llama-3.1-8B-Instruct на данных ExploreToM привело к значительному увеличению точности на классическом бенчмарке ToMi на 27 баллов. Подтверждается 99% согласованность с «правильными» ответами после такой генерации.

    Чтобы моделировать социальные аспекты, ИИ необходима способность к разуму. ExploreToM поднимает планку сложности и выявляет слабые места, стимулируя разработчиков совершенствовать модели в «социальном интеллекте».

  19. MindSearch: Mimicking Human Minds Elicits Deep AI Searcher

    Общая структура MindSearch. WebPlanner выполняет роль высокоуровневого планировщика, координируя шаги рассуждения и работу нескольких WebSearcher.

    Общая структура MindSearch. WebPlanner выполняет роль высокоуровневого планировщика, координируя шаги рассуждения и работу нескольких WebSearcher.

    Авторы представили систему MindSearch, объединяющую большие языковые модели (LLMs) и поисковые движки для эффективного поиска и интеграции информации из веба. Основная цель заключается в преодолении существующих ограничений поисковых систем, которые часто не соответствуют сложным человеческим намерениям. Авторы стремятся создать мултиагентную архитектуру, имитирующую когнитивные процессы человека при поиске информации, что позволит значительно улучшить качество и релевантность получаемых ответов на сложные запросы.

    MindSearch, состоит из двух основных компонентов: WebPlanner (Планировщик веб-поиска) и WebSearcher (Поисковик веб-страниц). Планировщик моделирует процесс многократного поиска информации, аналогично человеческому мышлению, разбивает пользовательский запрос на атомарные под-вопросы и строит динамический граф рассуждений с помощью алгоритма A* и генерирует последовательные и параллельные подзадачи для более глубокого анализа запроса. А поисковик отвечает за иерархический поиск информации в интернете по заданным под-вопросам, формирует несколько похожих запросов, затем агрегирует и фильтрует результаты для получения наиболее релевантной информации.

    Дополнительно, MindSearch включает механизмы управления контекстом между агентами, что позволяет обрабатывать длинные контексты и распределять когнитивную нагрузку между специализированными агентами.

    В результате MindSearch смог обработать более 300 веб-страниц за 3 минуты, что эквивалентно примерно 3 часам человеческой работы. MindSearch на базе InternLM2.5-7B зачастую даёт более предпочтительные ответы, чем ChatGPT-Web (GPT-4o) и Perplexity.ai (оценка пользователей). 

    Таким образом, MindSearch способствует развитию более совершенных и интеллектуальных ИИ-систем, способных эффективно справляться с комплексными задачами информационного поиска.

  20. A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness

    Хронология существующих малых языковых моделей

    Хронология существующих малых языковых моделей

    Авторы представили всесторонний обзор малых языковых моделей (Small Language Models, SLMs) в контексте доминирования больших языковых моделей (Large Language Models, LLMs). Основная цель заключается в анализе текущего состояния исследований, методик, улучшений, областей применения, взаимодействия с LLMs и аспектов надежности SLMs.

    Малые языковые модели способны выполнять специализированные задачи и пригодны для работы в условиях ограниченных ресурсов. SLMs можно получить из LLM с помощью прунинга, дистилляции знаний, квантизации и использованию низгоранговых техник. SLMs успешно применяются в медицинских, финансовых, юридических и научных областях, демонстрируя высокую точность и эффективность. В гибридных архитектурах LLMs могут выступать роутерами для SLMs, улучшая производительность и эффективность целой ИИ-системы.

    Малые языковые модели демонстрируют сопоставимую производительность с LLMs в специализированных задачах при значительно меньших вычислительных затратах и размерах. LLMs далеко не всем доступны; SLM дают экономичные решения для конкретных сценариев (edge-устройства, мобильные приложения, офлайн-режимы). Это направление обеспечивает широкую доступность ИИ-технологий при сохранении высокой производительности и экономический эффективности.

    Итоги

    Итак, подводя итоги года, можно сказать, что исследования в области ИИ-агентов движутся вперёд сразу по нескольким ключевым направлениям.

    Во-первых, нас ждёт ещё больше экспериментов с мультиагентными системами, где автономные «разумные» единицы не просто взаимодействуют, а учатся сотрудничать и конкурировать для достижения общих целей.

    Во-вторых, продолжит развиваться автоматизация проектирования самих агентов и мультиагентных систем, что позволит быстрее создавать более гибкие решения и экономить человеческие ресурсы.

    Третье направление — совершенствование когнитивных навыков: от способности удерживать в памяти контекст до более глубокого понимания языка и среды.

    Четвёртым пунктом, который становится всё более важным, остаётся экономичность: учёные и инженеры продолжают искать пути для снижения вычислительных и денежных затрат, чтобы инновации не упирались в бесконечные бюджеты, а ИИ-приложения были более доступны людям.

    И наконец, безопасность и этика занимают центральное место во всех обсуждениях будущего искусственного интеллекта: без чёткого контроля, прозрачности и ответственного подхода даже самые передовые разработки могут обернуться обратной стороной медали.

    Поздравляю всех с наступающим! Нас ждёт ещё больше захватывающих открытий, и это здорово, ведь мы живём в по-настоящему интересное время. Если вам понравился этот формат и вы хотите видеть подобные обзоры ежемесячно, ставьте «+» к статье — и до новых встреч в следующем году!


ссылка на оригинал статьи https://habr.com/ru/articles/871104/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *