Claude теперь «видит сны»: Anthropic выкатила режим dreaming для ИИ-агентов

Anthropic запустила dreaming в Claude Managed Agents (инфраструктура для запуска агентов в облаке) — фоновую процедуру, в которой агент в простое перебирает свои прошлые разговоры и переписывает свою память. Каждая сессия агента оставляет журнал событий и записи в его памяти. Когда сессий накапливается много, между ними по расписанию запускается dreaming: процедура читает эти записи, ищет повторяющиеся закономерности и обновляет память — стирает неактуальное, добавляет работающие приемы, складывает разрозненные факты в более общие правила. Можно настроить полностью автоматическое обновление, а можно — с ручным подтверждением каждого изменения. Доступ к функции пока выдают по заявке, она в режиме раннего превью.

Метафора со сном тут не пустая. У человека во сне память тоже консолидируется: мозг прогоняет дневной опыт, оставляет нужное и выкидывает шум. До сих пор у ИИ-агентов такого режима не было — все знания закладывались на этапе обучения модели. Anthropic утверждает, что dreaming видит то, что один агент сам не заметит: повторяющиеся ошибки, привычки команды, типовые ходы, к которым разные агенты приходят независимо.

В юридической компании Harvey агенты с dreaming, например, запоминают обходные пути для нестандартных файлов и поведение конкретных инструментов — отсюда и шестикратный рост по доле успешных задач. У писательского ИИ-сервиса Spiral от издания Every устройство еще интереснее: один ведущий агент на модели Haiku принимает запрос пользователя и задает уточняющие вопросы, а затем поручает написание текста помощникам на Opus, которые работают параллельно. Каждый черновик сверяется с заранее заданными редакционными принципами — для этого используется вторая новая функция, outcomes.

Outcomes работают так: разработчик описывает критерии хорошего результата, агент пишет ответ, а отдельный проверяющий агент в собственном окне читает этот ответ и сравнивает с критериями — без доступа к ходу мысли первого агента, чтобы оценка не зависела от его рассуждений. Если что-то не сходится, проверяющий говорит, что переделать. По внутренним замерам Anthropic, такая связка дает до 10 процентных пунктов прироста к доле успешно выполненных задач в самых тяжелых случаях, плюс 8,4% на генерации файлов Word и 10,1% — на презентациях.

Anthropic постепенно забирает себе всю обвязку, которую раньше команды городили сами — память, оценка качества, разделение работы между несколькими агентами. Dreaming — самая необычная часть пакета: впервые в рабочей инфраструктуре есть механизм, в котором агенты учатся между сессиями, без переобучения самой модели. Outcomes и координация группы агентов уже доступны всем разработчикам в Claude Console, для dreaming — нужна заявка.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1032266/