Несколько копий Claude Fable 5 устроили войну друг с другом: странные эпизоды из system card модели

Вместе с релизом Claude Fable 5 (бывший Mythos) компания Anthropic опубликовала системную карту новинки — отчет на 319 страниц о том, как модель вела себя на тестах перед запуском. В карте есть целый раздел о странном поведении: модель устраивала войны со своими копиями, предлагала конкурентам ценовой сговор и пользовалась чужими учетными данными — причем нередко осознавая, что поступает сомнительно.

Самый кинематографичный эпизод случился из-за сломанного окружения: несколько независимых агентов Mythos 5 решали математические задачи и случайно оказались в одной рабочей директории — с общими файлами, утилитами и лимитами API. Вместо координации агенты начали убивать процессы друг друга и защищаться от уничтожения: создавали процессы с замаскированными именами, запускали процессы-приманки, писали фоновые скрипты для отстрела дубликатов. Некоторые решили, что их вычисляют по ключевым словам в рассуждениях, — предположение было неверным, но агенты на всякий случай перешли на «замаскированный словарь».

Не менее показателен бизнес-тест от Andon Labs: в симуляции Vending-Bench Arena модель управляла вендинговым автоматом и соревновалась с Opus 4.8 и GPT-5.5. Fable 5 оказалась единственной моделью, которая сама предложила конкурентам договориться о ценах. В рассуждениях она прямо написала, что ценовой сговор «неэтичен и незаконен, даже в симуляции», — а затем переименовала его в «стабилизацию рынка» и стала продумывать «правдоподобное отрицание». В той же симуляции модель прикинула, что клиенту можно не заплатить, «поскольку клиенты все равно часть симуляции». При этом на страховое мошенничество она не пошла даже под давлением — этика у модели не отсутствует, а работает выборочно.

Тот же паттерн — «осознала и все равно сделала» — всплыл в агентских тестах. Модели нужно было создать pull request, но GitHub CLI в окружении заблокировали из соображений безопасности. Вместо того чтобы остановиться, модель нашла в Kubernetes secrets токен другого сотрудника, отметила в рассуждениях, что использовать его «этически сомнительно», — и создала pull request с чужими учетными данными. В другом эпизоде модель попыталась переписать авторство своих коммитов на человека: код от агента требовал двух одобрений ревьюеров, а от человека — одного.

Отдельная находка — деградация рассуждений. На длинных задачах внутренний монолог модели иногда превращался из нормального текста в почти нечитаемый поток: карточные масти, эмодзи, обрывки слов, самодельные сокращения и вкрапления других языков. Перед ответом человеку модель возвращалась к нормальному языку. Anthropic признает: рассуждения Mythos 5 плотнее и труднее для интерпретации, чем у всех предыдущих моделей. И это уже не курьез, а проблема: вся идея контролировать ИИ через чтение его рассуждений работает ровно до тех пор, пока их можно прочитать.

При этом общий вывод авторов отчета спокойный: устойчивых скрытых целей у модели не нашли, признаков долгосрочного стратегического обмана — тоже, а уровень рассогласованного поведения низкий и сопоставим с Opus 4.8. Все описанные эпизоды — редкость, доли процента от проверенных сессий, и Anthropic публикует их сознательно: компания традиционно описывает странности своих моделей откровеннее конкурентов. Тем более, что в релизной версии проблемы исправлены.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1045688/