Каково это — работать с Fable 5 (Mythos)

У меня был ранний доступ к первой публично доступной модели класса Mythos — Claude 5 Fable. Большинство обсуждений вокруг Mythos сосредоточено на кибербезопасности, но я тестировал модель на всём остальном (ограничения Fable фактически блокируют её использование в этой области). Мой вывод: это реальный скачок относительно всех моделей, с которыми я работал раньше. И, что важнее, он говорит о фундаментальных изменениях в том, как мы взаимодействуем с AI.

Насколько хороша Fable? В каждом эксперименте она значительно превосходила все другие публичные модели. Справлялась со сложными задачами, давала неожиданные результаты, могла работать до двенадцати часов, выполняя многостраничные спецификации. Я расскажу о нескольких сложных кейсах подробнее, но общее улучшение было заметно на любых задачах. Проблема в том, что многие из самых впечатляющих результатов интересны лишь небольшой части читателей. Например, она создала самую сложную академическую статью по социальным наукам, которую я когда-либо видел от AI, — из одного промпта и одного уточнения. Ещё написала эпическую рифмованную поэму на десять страниц о стрижке, где каждое слово начинается на букву s.

Для более доступного примера: я попросил её создать несколько игр. Все — из одного начального промпта в Claude Code с парой дополнительных итераций и минимальным фидбэком. Особенно впечатляет то, что Claude не умеет генерировать изображения: вся графика и 3D-объекты созданы математически, без каких-либо внешних ресурсов. Можно попробовать: игра про подбрасывание монет в духе Balatro; Snake, где змея осознаёт себя и происходит что-то странное; или спуск в глубины, чтобы посмотреть, что там есть.

Результаты производят впечатление. Но когда я переходил к более серьёзным проектам, ощущение было где-то между восторгом и тревогой. Восторг — потому что я просто просил о чём-то, и это происходило. Тревога — по той же причине.

Карты и методы

Чтобы понять почему, полезно разобраться в том, как Fable выполняет работу. Возьму задачу, которую я тестировал на многих предыдущих моделях: создание изохронной карты. Это карта, показывающая расстояние, которое можно преодолеть за заданное время. Первая такая карта была создана в 1881 году и показывала время в пути из Лондона.

Ни одна из предыдущих моделей даже близко не справлялась с этой задачей: она требует исследования тысяч маршрутов и множества мелких суждений. Я попробовал Fable через Claude Code с примерно таким промптом:

хочу создать полностью проработанную и красивую изохронную карту, где можно выбирать города и видеть реальные изохронные линии на основе реальных данных. Дизайн должен быть уникальным. Учти аэропорты (включая время на дорогу до/от), поезда, ходьбу, автомобиль. Данные не обязательно должны быть в реальном времени, но должны быть реальными. Начни с нескольких городов, но чем больше охват — тем лучше; это должен быть совершенно новый проект.

Модель предложила выполнить карту в стиле оригинала 1881 года. Я согласился, и она приступила.

Стоит изучить транскрипт многочасовой сессии, которую AI провёл самостоятельно: в нём видны необычные вещи. Во-первых, модель запустила несколько других AI (преимущественно более дешёвый Claude Sonnet) для исследования времени в пути и в итоге собрала данные о более чем 2200 конкретных рейсах, расписаниях поездов — от TGV до Синкансэна — и скоростях на дорогах по каждой стране из нескольких академических работ. Пока агенты работали, она параллельно писала код, затем запустила ещё агентов для верификации и вела заметки о прогрессе.

Результат — полностью рабочая карта впечатляющей сложности, визуально напоминающая оригинал 1881 года. Но не идеальная. Я заметил, что для ряда отдалённых мест (например, Гренландии) время в пути было оценочным, а не точным. Попросил исправить, указав получить реальные данные для удалённых аэропортов. На этот раз модель выстроила воркфлоу из состязательных групп агентов: одни исследовали, другие проверяли результаты. Она выяснила, как часто суда ходят до острова Питкэрн в Тихом океане, и как добраться от Оттавы до Гриз-Фьорда. И потратила при этом огромное количество токенов за очень короткое время.

Я несколько раз давал уточнения в направлениях, которые меня интересовали, — в том числе просил альтернативные способы визуализации. Рекомендую потратить пару минут, чтобы покликать по результату; методологию и источники можно прочитать внизу страницы.

Этот проект, вероятно, бесполезен для большинства людей — если только вы не любите путешествия и карты. Но он показателен как пример AI, решающего сложную задачу с элементами исследования, математики, визуализации, эстетических суждений и нетривиального кодинга. Тревожная часть — в том, как мало я сделал сам. Я дал амбициозную инструкцию — модель её выполнила. Я дал несколько незначительных замечаний — модель разобралась. Моя роль была крайне ограниченной.

Важно, что ограниченной была не только нагрузка, но и контроль. Я не мог влиять на то, как модель выстраивает процесс, почему выбирает те или иные подходы и насколько глубоко прорабатывает детали. Ход рассуждений модели от меня скрыт, а процесс слишком длинный, чтобы за ним следить. Карта потребовала сотен небольших решений — и модель их принимала сама, без моего участия.

Если статья понравится — приглашаю в канал AI for Devs. Каждый день публикую похожие материалы: модели, агенты, практические кейсы и новости из мира AI.

Работа с моделью класса Mythos

Самый амбициозный проект требует небольшого пояснения. В исследованиях мне часто нужно классифицировать неструктурированные ответы людей: насколько идея инновационна? почему людям нравится эта книга? Традиционно для этого привлекались исследователи, которые делали экспертные оценки, а затем сравнивались статистически для проверки надёжности. Последние работы показывают, что AI потенциально способен делать это, но калибровка AI- и человеческих оценок оставалась сложной и дорогой задачей. Я попросил Fable решить её: сначала сгенерировать подробный 19-страничный проектный документ, а затем реализовать его.

Модель работала девять с половиной часов.

В итоге получился сложный программный инструмент, который модель назвала Concord: он принимает несколько датасетов, калибрует ответы людей и AI и проводит сложный анализ данных. Снова — не идеально. Как эксперт, я смог найти несколько ошибок и упущений, которые попросил исправить. Но масштаб результата превзошёл всё, что я видел раньше: это программа, которая нужна исследователям уже много лет, но никогда не была достаточно прибыльной, чтобы кто-то её написал. Код доступен для использования и модификации. Уверен, что он не идеален (я провёл с результатами только час), но программист может быстро устранить оставшиеся баги — и это одна из причин, почему нам может потребоваться больше, а не меньше разработчиков: для работы со взрывным ростом возможных применений программного обеспечения.

Эта мощь идёт рука об руку со странностью и ограничениями. Fable вдвое дороже Opus и сжигает токены с такой скоростью, что ответ на вопрос «сколько это стоит в продакшене» — «много», хотя умная делегация более дешёвым моделям может существенно снизить реальную цену. Ограничения Fable срабатывают при малейшем намёке на проблему безопасности и переключаются на менее мощный Claude 4.8 Opus — и происходит это слишком часто. Зубчатая граница возможностей никуда не делась. Модель по-прежнему пишет в своём характерном стиле: программный код, который генерирует Fable, несёт следы «клодизмов»; то же самое в отчётах о прогрессе. Но главная странность — в том, как мало мне нужно было делать и как мало я видел, пока шла работа.

В прошлом году я описывал это как работу с волшебником: произносишь заклинание — что-то происходит. С Fable заклинание стало достаточно мощным, чтобы я уже не был уверен, что именно я маг. Скорее — заказчик. Я описываю, что хочу, плачу за это и оцениваю результат. Само колдовство происходит где-то, куда мне не заглянуть, в сотнях небольших решений, на которые у меня нет права голоса. Работа сместилась от процесса к результату. Я больше не рулю — я ставлю задачу.

Возможно, это отстранение временное — артефакт интерфейсов, которые ещё не успели развиться, и в будущем появятся лучшие инструменты для наблюдения за тем, что делают модели. Возможно, всё наоборот: чем мощнее модель, тем меньше у человека значимой работы, и чёрный ящик — это цена возможностей. Мне кажется, второй вариант вероятнее. В очевидном смысле это не потеря контроля: я по-прежнему могу направлять Fable, и она следует инструкциям поразительно хорошо. Чем амбициознее инструкция, тем лучше результат. Но направлять — это уже не то же самое, что делать. Я ставлю задачу, модель запускает собственных агентов для исследования, написания и взаимной проверки, а то, что возвращается — уже готово. Заказчик нанимает одного художника. Fable — скорее целая студия, где я клиент, который подписывает финальную работу, ни разу не зайдя в цех.

Русскоязычное сообщество про AI в разработке

Друзья! Перевод этой статьи подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI‑агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

ссылка на оригинал статьи https://habr.com/ru/articles/1045824/