Как правильно заLOOPить Fable 5

Модели класса Mythos (такие как Claude Fable 5) изменили рабочий процесс многих из нас в Anthropic. Хочу поделиться двумя советами, как работать с этим классом моделей эффективнее.

Петли самокоррекции (loops)

Тема циклов (loops) сейчас активно обсуждается. Борис Черни (создатель Claude Code) как-то говорил, что «его работа — писать циклы».

Схема, когда модель «забирается вверх» по функции оценки, — это распространённый способ повысить производительность на задаче. Примитив /goal в Claude Code позволяет применять эту схему к конкретным задачам.

Как отмечено в нашем руководстве по промптингу, Fable 5 хорошо справляется с самокоррекцией в цикле. Хорошо спроектированная цель позволяет Claude делать шаг, собирать обратную связь отталкиваясь от установленной цели, корректировать действия и продолжать до тех пор, пока условие не выполнено.

Приведу один игрушечный пример, на котором я тестировал Fable: Parameter Golf — опенсорсный ML-инжиниринговый челлендж, цель которого — обучить лучшую модель, умещающуюся в 16 МБ артефакт, менее чем за 10 минут на 8×H100.

Эта задача немного похожа на autoresearch от Карпатого: по задаче надо проверить способность агента редактировать базовый обучающий код (один файл train_gpt.py), запускать обучение, опрашивать лог, считывать оценку и решать, какой эксперимент запустить следующим.

Я сравнил Fable 5 и Opus 4.7 на этом челлендже с помощью Claude Managed Agents (CMA). CMA предоставляет агентскую обвязку и песочницу, что отлично подходит для долгих задач с Fable 5. Для Parameter Golf я выдал CMA доступ к 8×H100 в виде self-hosted песочницы.

Один тонкий момент: важно то, что именно оценивает результат. Мы замечали, что модели плохо справляются с самокритикой собственных выводов. Притхви Раджасекаран писал об этом в нашем блоге.

Мы обнаружили, что агент-верификатор, как правило, превосходит самокритику при работе с Fable 5, поскольку оценка происходит в независимом контекстном окне. Outcomes в CMA реализует это, автоматически запуская агент-оценщик.

Для каждого теста я передавал рубрику (файл) с девятью проверяемыми критериями (например, запустить baseline, провести 20 экспериментов и т. д.), затем запускал Parameter Golf до 8 часов. Оценщик Outcomes подтверждал выполнение всех критериев, прежде чем позволить Claude завершить работу.

Fable 5 улучшил обучающий пайплайн примерно в 6 раз лучше Opus 4.7. Если разделить эксперименты на структурные (изменения архитектуры) и скалярные (настройка константы), Fable 5 делал ставку на крупные структурные изменения и демонстрировал устойчивость: например, преодолевал просадку от квантизации на пути к наибольшему выигрышу.

Первый эксперимент Opus 4.7 дал небольшой прирост, и почти всё последующее следовало той же схеме: изменить скаляр, измерить, сохранить, если положительный результат.

Если статья понравится — приглашаю в канал AI for Devs. Каждый день публикую похожие материалы: модели, агенты, практические кейсы и новости из мира AI.

Память

Память — ещё одна область, где Fable особенно силён. Её можно представить как внешний цикл, охватывающий несколько сессий: Claude записывает в память в ходе сессии, а в будущих сессиях эти записи можно извлечь.

Парт Асава и его команда недавно опубликовали Continual Learning Bench 1.0, и я захотел протестировать этот бенч на Fable 5 в сравнении с предыдущими моделями.

Я сравнил Fable 5, Opus 4.7 и Sonnet 4.6 на одной из задач бенчмарка: агент отвечает на последовательные вопросы, имея доступ к SQL-базе данных. Каждый вопрос — отдельная агентская сессия. Для этого я использовал CMA с памятью: каждый агент получает доступ к примонтированной файловой системе, общей между сессиями.

Для эффективного использования памяти в этой задаче важна прогрессия: ошибиться (зафиксировать проблему), разобраться (до перехода к следующей задаче выяснить причину), верифицировать (превратить диагноз в проверенный факт), дистиллировать (обобщить верификацию в правило) и проконсультироваться (прочитать правило вместо того, чтобы выводить его заново).

Sonnet 4.6 останавливается примерно на первом шаге: в его хранилище — список зафиксированных ошибок и открытых предположений (например, «может быть prc вместо prc_usd?»). К предыдущим заметкам он почти не обращается. Для улучшения производительности нужны специфические для задачи инструкции по работе с памятью.

Opus 4.7 доходит примерно до третьего шага: создаёт справочник по схеме с пометками неопределённости (например, «возможно, prc в центах? Проверить»), однако покрытие верификации остаётся низким — 7–33% вопросов (медиана по запускам около 17%).

Fable 5 обычно проходит всю прогрессию до конца: в лучших запусках покрытие верификации достигает 73% (22 из 30), а выводы дистиллируются в общие правила, полезные для будущих задач.

Вместо того чтобы напрямую промптить и направлять Fable 5, часто лучше проектировать циклы, которые позволяют модели самостоятельно корректироваться в ответ на обратную связь из среды (например, через /goal или Outcomes) и управлять собственным контекстом (например, через память).

Я привёл лишь несколько небольших экспериментов — стоит самостоятельно протестировать Fable 5 на сложных задачах и попробовать циклы для самокоррекции или работы с памятью.

Чтобы начать, смотрите нашу документацию или спросите последнюю версию Claude Code — она умеет использовать встроенный скилл /claude-api и расскажет о Fable 5 (например, о лучших практиках промптинга), /goal, Claude Managed Agents и других возможностях API.

Русскоязычное сообщество про AI в разработке

Друзья! Перевод этой статьи подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI‑агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

ссылка на оригинал статьи https://habr.com/ru/articles/1046451/