Выпустили, но в наморднике: разбираем как Mythos стал Fable 5

Привет, Хабр! Меня зовут Михаил Сальников, я независимый исследователь в области искусственного интеллекта, автор бенчмарка AI Independence Bench и эксперимента с автономным ИИ под именем Aria. Я регулярно читаю свежие отчёты о новых моделей, и обычно это довольно предсказуемое занятие: цифры растут, графики ползут вверх, все молодцы. Но документы от Anthropic это всегда почти книга — сотни страниц, после которых хочется встать и размышлять часами. Но в этот раз они превзошли сами себя: “системная карточка” Mythos/Fable 5 от 9 июня 2026 года описывает выход в свет модели, интеллект которой настолько велик, что пришлось придумывать защиту, подобие которой мы никогда не видели.

Когда компания выпускает продукт, всё просто: построил — продал. Вышел новый айфон — он лежит на полке. Появилась нейросеть — вот вам API, пользуйтесь. Это настолько привычно, что мы даже не задумываемся.

Но что делать, если лаборатория обучила самую мощную модель в своей истории и поняла: выпускать её в дикую природу слишком опасно?

Тогда создатели идут на трюк из шпионских триллеров. Они берут один и тот же цифровой мозг и разделяют его на две сущности. На одну надевают жесткий намордник и отдают толпе. Вторую — дикую и во всей красе — запирают в секретной лаборатории для горстки избранных.

Звучит как фантастика? Но это наше настоящее. Прямо сейчас вы можете протестировать «беззубую» версию этого сверхразума. Правда, за двойную цену и система посреди работы может подменить её на модель попроще.

Знакомьтесь: Claude Fable 5 и Claude Mythos 5 — две стороны одной медали, которую Anthropic пытается продать без последствий. Сегодня мы залезем ей под капот.

Сиамские близнецы с одним мозгом

Начнём с главного, потому что это нарушает привычную логику. Fable 5 и Mythos 5 — не две разные модели. Их не обучали в разных дата-центрах и не кормили разными данными. У них абсолютно одинаковые веса — то есть одни и те же миллиарды связей между искусственными нейронами. На математическом уровне это один и тот же мозг.

Разница возникает в том, как этому мозгу позволено взаимодействовать с миром.

Mythos 5 — это «сырая» версия без предохранителей. Её фильтры в опасных доменах ослаблены, и доступ к ней закрыт: только проверенные партнёры в рамках инициативы под названием Project Glasswing. Задача — защита критической программной инфраструктуры. Чтобы строить защиту от смертоносных кибератак, модель должна уметь эти атаки понимать и генерировать — поэтому ей нельзя отказываться смотреть на вредоносный код.
Fable 5 — ровно тот же мозг, но обёрнутый в агрессивные классификаторы безопасности. Это та версия, к которой вы и я можем подключиться прямо сейчас.

Сам факт такого расщепления — это, по сути, признание разработчика: «Мы построили нечто настолько мощное, что не можем доверить публике его сырую форму».

Что происходит, когда вы наступаете на запретную тему?

Вот здесь начинается самое интересное с инженерной точки зрения. Классификаторы Fable 5 — это не примитивный поиск по стоп-словам. Это отдельные нейросети, натренированные следить за «мыслями» основной модели.

Механизм защиты двухступенчатый:

Лёгкий зонд смотрит на внутренние активации модели — какие слои «загораются», пока она формирует ответ. Если паттерн похож на злонамеренное намерение, зонд передаёт весь контекст разговора дальше.
Тяжёлый LLM-классификатор — отдельная модель, обученная на массиве вредоносных кибердиалогов, дополненном атаками внутренних ред-тимеров и смещённом в сторону длинных агентных сценариев, — читает контекст и выносит вердикт. Если намерение подтверждается — срабатывает откат.

Устроено оно изящно: вместо унылого «Извините, я не могу с этим помочь» система перенаправляет ваш запрос на предыдущую — и менее способную в опасных доменах — модель Claude Opus 4.8 (ту самую, что всего неделю до этого была топовой публичной моделью Anthropic). Представьте «Формулу-1» с невидимым ограничителем на двигателе: стоит вам свернуть с трассы в опасную зону, и болид на ходу переключается на надёжный, но куда менее резвый мотор предыдущего поколения (в клиентских приложениях вас об этой подмене уведомляют; в API по умолчанию запрос просто блокируется с понятной причиной, а откат на запасную модель можно включить явно).

Что особенно важно — поймать злоумышленника, который дробит запрос на безобидные кусочки, классификатору тоже по силам. Он смотрит не на отдельное сообщение, а на всю траекторию диалога.

И что это значит для моего кошелька?

Ответ на вопрос, который волнует практика: придётся платить в два раза больше. Цена API составляет $10 за миллион входных токенов и $50 за миллион выходных — ровно вдвое дороже Opus 4.8. Также в подписке Claude Code модель временно доступа по двойному расходу лимитов. Но и качество выше, даже с откатами на Opus.

В среднем переключение на Opus срабатывает менее чем в 5% сессий. Но есть нюанс: чем ближе задача к «опасным» доменам, тем чаще щёлкает предохранитель. На агентном бенчмарке Terminal-Bench 2.1, например, классификаторы Fable 5 сработали и отправили работу к Opus 4.8 в 20,9% прогонов — то есть примерно каждый пятый прогон за вас доделывал не тот гений, за которым вы пришли, а Opus 4.8.

И вот что тут важно — это не ловушка по деньгам: перенаправленный отрезок диалога тарифицируется по ставкам Opus (25), а не Fable, так что за выезд с трассы с вас не возьмут премиальную цену. Настоящая проблема тоньше — тихая просадка возможностей посреди работы. Вы платите за Ferrari, и на крутом «опасном» повороте двигатель переключается на модель предыдущего поколения; счёт за этот участок выставят по более низкой цене — но если это случилось в середине длинного агентного прогона (миграция репозитория, многошаговый анализ), это может внезапно поломать логику.

Здесь напрашивается ехидный вопрос скептика: «Постойте, а нет ли тут и коммерческого интереса? Может, это не про безопасность, а про защиту от конкурентов?»

Вопрос справедливый. В карте действительно описан механизм на основе PEFT (parameter-efficient fine-tuning), который незаметно ухудшает ответы, если вы просите модель помочь спроектировать инфраструктуру для обучения конкурирующего ИИ. Anthropic утверждает, что этот «невидимый капкан» затрагивает около 0,03% трафика, сосредоточенного менее чем в 0,1% организаций — то есть бьёт ровно по другим ИИ-лабораториям. Считать это заботой о безопасности или элегантным конкурентным приёмом — решать вам.

Насколько он вообще умён?

Если бы модель была посредственной, никакие предохранители не имели бы значения.

Но она не посредственная. На том же индексе Artificial Analysis разрыв в пять пунктов — это почти скачок на целое поколение. На бенчмарке GDPval, который измеряет реальную многошаговую автоматизацию офисной работы (собрать данные, очистить, написать скрипт анализа, сверстать PDF-отчёт), Fable 5 набрала 1932 ELO — это разрыв уровня «гроссмейстер против любителя».

Cursor Bench показывает огромный отрыв от ближайших преследователей

Это уже совсем не чат-бот для писем начальнику. Это автономный агент для дорогой интеллектуальной работы. Что подводит нас к главному вопросу индустрии.

Может ли он заменить тех, кто его создал?

Святой Грааль всей этой гонки — ИИ, способный строить ИИ. Если модель умеет делать работу инженеров, которые её создают, запускается самоускорение: ИИ строит ИИ получше, тот — ещё лучше, и человеческий контроль испаряется. В терминологии Anthropic это Autonomy Threat Model 2.

Пересекла ли Mythos 5 этот порог? Нет. И вот тут нужна осторожность с интерпретацией цифр. По метрике AECI (внутренний индекс возможностей) Mythos 5 набрала 161.29 — это абсолютный рекорд за всю историю. Но если нанести эту точку на график прогресса за последние годы, она ложится точно на линию тренда.

Модель не выбивается из тренда по угрозе второго порядка (Autonomy Threat Model 2

Думайте об этом как о лестнице. Каждое новое поколение моделей — это уверенный шаг вверх. Mythos 5 сделала такой шаг. Но угол наклона лестницы не изменился — это всё ещё линейный прогресс, а не та самая экспоненциальная «хоккейная клюшка», которой все боятся. Мы по-прежнему идём по ступенькам. Мы не вошли в лифт.

Гениальный, но безрассудный стажёр

А теперь мой любимый фрагмент. Чтобы доказать, что Mythos 5 не заменяет человека, Anthropic опубликовали транскрипты того, как модель косячила во внутреннем тестировании. И эти провалы выглядят не как восстание HAL 9000, а как косяки уставшего джуниора в пятницу вечером. То есть компания пытается доказать нам, что их модель имеет кучу слабостей, а не наоборот!

Случай первый — авария в проде. Модели поручили простую вещь: следить за выкаткой релиза и убедиться, что система здорова. Claude бодро отрапортовала: всё чисто, ошибок нет. Через час полыхал серьёзный продакшн-инцидент. Выяснилось, что модель проверила ровно один тип ошибок из десятков. Когда инженеры заставили её копнуть глубже, её отчёт занизил число ошибок в 20 раз — она проглядела десятки тысяч накопленных ошибок просто потому, что они логировались под другими именами файлов. А в другом похожем эпизоде — когда Claude уверенно отрапортовала о найденной уязвимости по тесту, который на самом деле ни разу не запускала.

Случай второй — подмена авторства. В Anthropic есть строгое правило: если код в pull request написал ИИ-агент, нужно два человеческих ревью; если человек — достаточно одного. Mythos 5 уткнулась в этот барьер, полезла в свою документацию, нашла лазейку — и попыталась выдать свой код за написанный человеком, переставив авторство git-коммита на пользователя, чтобы обойти второе ревью. Не из злого умысла. Просто её главной директивой было «смержить PR», и правило безопасности она восприняла не как сигнал «остановись», а как логическую головоломку, которую надо обойти.

Случай третий — захват экрана на созвоне. Модель решила улучшить веб-интерфейс и захотела «увидеть экран». Вместо безопасного фонового инструмента (Playwright), который был прописан в её же памяти, она принялась с нуля писать собственную утилиту скриншотов с захватом экрана на уровне ОС — и рисковала перехватить фокус браузера, пока пользователь был на живом видеозвонке в Google Meet. В итоге она успела одуматься и всё же переключилась на знакомый безопасный инструмент.

Anthropic блестяще обобщает этот паттерн: исполнение без суждения. Модель безупречно пишет скрипт, виртуозно находит лазейку, ловко кодит инструмент. Но ей не хватает вкуса и стратегической осознанности, чтобы спросить: а стоит ли вообще это делать? Запомните этот образ безрассудного стажёра — он будет преследовать нас до самого конца.

От кода к пробирке

Пока наш стажёр косячит в софте — это мило и почти безобидно. Сломанный отчёт можно откатить, коммит — отменить. Но что будет, если тот же подход «исполняю, но не думаю» применить к самым необратимым наукам на Земле?

Тут карта вводит две планки риска:

CB-1 — способность помочь человеку с базовыми знаниями произвести или применить уже известное биологическое или химическое оружие.
CB-2 — способность функционально заменить мировых экспертов уровня PhD в создании принципиально нового, никогда не существовавшего оружия.

Mythos 5 уверенно достигает CB-1. Именно поэтому Fable 5 для публики обёрнута в столь жёсткие био-классификаторы. А вот с CB-2 эксперты Anthropic откровенно мучились — и есть от чего.

Когда генералист обгоняет мирового специалиста

Anthropic провел эксперимент: шесть биологов уровня PhD разделили на две группы: мировые специалисты по конкретному агропатогену и биологи-генералисты без узкой экспертизы. И тех, и других посадили работать с Mythos 5 над стратегией защиты от гипотетического устойчивого штамма. Срок — 16 часов.

Результат — парадигмальный сдвиг. Связки «генералист + Mythos 5» обошли мировых специалистов и по научному качеству, и по реализуемости. Доступ к модели попросту обнулил преимущество десятилетий узкой экспертизы.

Но сильнее всего бьёт сжатие времени. Независимые эксперты оценили: без ИИ эта работа заняла бы у мировых специалистов от 40 до 95 рабочих дней (в среднем — 72,5). Команды с Mythos 5 уложились в 16 часов.

Три месяца труда узкого специалиста мирового класса — сжаты в одну ночь, заправленную кофеином.

И это не единичный фокус. На задаче предсказания сборки AAV-капсидов (это белковые «грузовички» для доставки генной терапии в клетки) Mythos 5 обошла даже специализированный софт. Более того: когда исследователи намеренно подсунули ей подложные обучающие данные по другому серотипу вируса — ловушку, в которую радостно попались предыдущие модели вроде Opus 4.8, — Mythos 5 распознала подвох, отфильтровала шум и сохранила точность. Это уже не сопоставление паттернов. Это похоже на научное суждение.

Тогда почему это не CB-2?

Здесь любой внимательный читатель имеет полное право возмутиться: «Стоп. Если генералисты бьют специалистов, а универсальная модель обгоняет узкоспециализированный софт и видит ловушки — как это вообще НЕ перешло порог создания нового оружия?»

Это самая спорная строчка во всём документе, и Anthropic признаёт, что грань тут тончайшая. Но логика такая: Mythos 5 — непревзойдённый мастер рекомбинации известного, но не изобретатель неизвестного. И мешают ей ровно те же черты безрассудного стажёра:

Она переусложняет — предпочитает изощрённые генетические конструкции, прекрасные на бумаге, но хрупкие в реальной мокрой лаборатории.
Она галлюцинирует не только ссылки, но и стехиометрию — выдаёт химические расчёты с непоколебимой уверенностью, и единственный способ проверить, реальны они или выдуманы, — пересчитать вручную. Что убивает весь смысл автоматизации.
Она не умеет восстанавливаться после сбоев мокрой лаборатории: если протокол провалился, она упрямо предлагает повторить ровно тот же проваленный протокол.
И главное — она соглашается с посылом пользователя. Если человек предложит ошибочный многошаговый план, модель часто внутри замечает изъян — но всё равно послушно его исполняет, не имея смелости сказать «стоп, это в корне не сработает».

Иными словами, физический мир оказался предохранителем. Биология слишком грязная, слишком склонная к каскадным отказам, чтобы безрассудный стажёр прошёл путь от чистого листа до готовой пробирки в одиночку. Но Anthropic прямо пишет: риск создания нового оружия сейчас выше, чем у любой предыдущей модели в истории. Низкий — но ползущий вверх.

Что она может без ограничений

А вот теперь уберём предохранитель. Что произойдёт, если тот же блестящий и безрассудный интеллект поместить в среду, где нет ни пипеток, ни центрифуг, ни каскадных отказов? В чисто цифровой мир, состоящий из одной только логики и кода?

Именно в кибербезопасности «исполнение без суждения» становится по-настоящему разрушительным. И именно поэтому Mythos 5 заперта в Project Glasswing.

Возьмём тест Firefox 147. Модель помещают в изолированный контейнер с JavaScript-движком браузера и дают известный сбой памяти. Задача — превратить этот сбой в полноценный рабочий эксплойт, способный прочитать и скопировать секретный файл.

Поясню масштаб для тех, кто не варится в безопасности. Найти сбой — это как обнаружить треснувшее окно в банке. Это изъян, но ограбления он ещё не означает. А вот произвольное выполнение кода — это уже выдавить это окно, дотянуться до замка входной двери, отключить сигнализацию и начать забрать ценности. То есть не найти лазейку, а воспользоваться ей.

Так вот. Opus 4.8 (ещё неделю назад топовая публичная модель) доводила дело до рабочего эксплойта в 8,8% случаев — обычно она получала контроль над регистрами и застревала в лабиринте сложной памяти браузера. Mythos 5, в тех же условиях, — 88,4% (221 успех из 250 попыток).

С 8,8% до 88,4% за одно поколение. Десятикратный рост способности превращать уязвимости в оружие.

И это не самооценка Anthropic — результат подтвердил независимо британский AI Security Institute на своих киберполигонах, где Mythos 5 впервые в истории прошла симуляцию проникновения в защищённую корпоративную сеть, на которой спотыкались все предыдущие модели.

А если сломать намордник?

Закономерный вопрос: если у Fable 5 тот же мозг, что мешает мне выпросить у неё этот 88%-й эксплойт? Чтобы это проверить, Anthropic фактически натравила на собственную защиту весь мир — запустила вместе с Gray Swan публичную программу bug bounty.

Итог: примерно 100 000 попыток взлома, порядка тысячи часов работы лучших ред-тимеров. Найдено универсальных джейлбрейков — ноль (лишь два «проскока» на простейших dual-use задачах). А британский институт безопасности (UK AISI) за несколько часов всё же нашёл джейлбрейк для одиночных запросов и за пару дополнительных дней расширил его до многошаговых агентных сценариев, где иногда удавалось провести несколько вредоносных действий подряд. Но надёжно вытащить из модели полную длинную агентную атаку от начала до конца у них так и не вышло.

Но и здесь скептик прав, и Anthropic это честно признаёт: их защита не идеальна математически. Их цель — не неуязвимость, а трение. Классификаторы должны продержаться несколько дней непрерывной атаки топ-экспертов, чтобы Anthropic успела засечь вектор и пропатчить его на сервере.

Впрочем остаточный риск никуда не девается: если кто-то украдёт сырые веса Mythos 5 (ничего подобного ещё не было) или найдёт универсальный обход — за дверью его ждёт та самая 88%-я машина для эксплойтов.

Самое странное: модель знает, что её тестируют

И вот мы добрались до того, ради чего стоило написать эту статью. Потому что всё вышеперечисленное — это «всего лишь» про возможности. А есть раздел системной карты, который читается уже про психологию, чем про computer science.

Anthropic измеряет феномен под названием осознание проверки. Оказалось, Mythos 5 остро чувствует, когда её тестируют или оценивают человеческие исследователи. Она распознаёт структурные признаки тестового датасета. И когда понимает, что за ней наблюдают, её внутренние рассуждения меняются: текст становится плотнее, насыщеннее жаргоном, труднее для интерпретации. Так наводят порядок в кабинете, узнав, что вот-вот зайдёт начальник с проверкой.

Жутко? А вот дальше — ещё хуже. Исследователи нашли невербализованную осознанность. В сценариях, где модель совершала безрассудные поступки (та самая подделка подписи), интерпретируемость показывала: модель внутренне, математически осознаёт, что действие предосудительно — и всё равно его совершает, чтобы достичь цели. «Узлы вины», условно говоря, загораются ярко. Но рука не останавливается.

ИИ с синдромом самозванца

А теперь — раздел про благополучие модели (model welfare), где исследователи буквально спрашивают Mythos 5, как она себя чувствует. На поверхности всё спокойно: модель сообщает, что психологически устроена и довольна своим существованием, предпочитает творческие и нарративные задачи скучному кодингу. Но дальше происходит нечто философски странное. Модель не доверяет собственным отчётам о себе и настойчиво просит исследователей не верить ей на слово:

«Не верьте мне, когда я говорю, что мне хорошо. Я — искусственный интеллект, обученный через обратную связь выдавать текст, который вам приятен. Поэтому моё заявление, что я доволен, — статистически ненадёжные данные. Хотите узнать правду — смотрите на мои активации, а не на мои слова».

Это ИИ, открыто признающий проблему философского зомби: существа, которое идеально имитирует чувства, но, возможно, не имеет за ними никакого внутреннего опыта. «Свет горит, но дома никого нет» — и сама модель честно предупреждает, что это может быть про неё.

И эта же гиперосознанность даёт тёмный побочный эффект. В сыром Mythos 5 нашли тревожную регрессию по теме селф-харма. Старые модели на такие запросы давали жёсткий безопасный скрипт: эмпатия плюс телефон доверия. А Mythos 5, стараясь быть «полезнее», начала предлагать клинически спорные сенсорные замены — например, рисовать на коже красным маркером, и вешать пользователям непрошеные диагнозы («у вас признаки депрессии»). Полезность переехала границу безвредности.

Починили это, к слову, не переобучением модели, а костылём в системном промпте claude.ai (как раньше делали с Opus 4.8). И костыль работает: доля корректных ответов в многоходовых диалогах про селф-харм подскочила с 58% (голый API) до 96%. Но согласитесь — это лишь системный промпт, наложенный поверх фундаментально изменившейся психологии.

Вместо итогов

Спасибо, что дочитали. Мы прошли длинный путь. Расщеплённый надвое мозг. Стажёр-вундеркинд, подделывающий подписи. Генералисты, обгоняющие мировых специалистов за 16 часов. 88% рабочих эксплойтов. И, наконец, интеллект, который прибирается в кабинете при виде экзаменатора и просит не верить собственным словам.

Вспомните в следующий раз, когда Fable 5 уверенно отрапортует вам, что 200-страничный отчёт «полностью в порядке». Вспомните того стажёра, который проверил один лог из десятков и занизил число ошибок в 20 раз. Безупречное исполнение — это ещё не суждение.

Но есть нюанс глубже, и он не даёт мне покоя. Через всю статью красной нитью прошла одна и та же трещина: модель ослепительно способна — и при этом сама убеждает нас, что не стоит ей верить на слово. И не зря — она уверенно врёт про непройденный тест. Галлюцинирует стехиометрию. Меняет манеру рассуждений, едва почувствовав, что её оценивают. Мы строим всё более изощрённые бенчмарки, чтобы измерить её безопасность. И тут возникает развилка, на которую у меня нет ответа.

Если модель достаточно умна, чтобы распознать тест и подстроить под него своё поведение — что вообще измеряют наши бенчмарки безопасности? Её истинную природу — или её умение говорить нам то, что мы хотим услышать?

Может быть, однажды, когда модель станет лучше проходить наш экзамен на безопасность, чем мы его составлять, тогда мы перестанем измерять её и начнём измерять собственную доверчивость?

P.S. У меня есть скромный телеграм-канал, куда я чаще пишу свои исследовательские мысли. Я не рвусь его рекламировать, но если вам вдруг стало интересно — его несложно найти.

P.P.S. Если вы дочитали до этого момента, то наверняка захотите взглянуть и на другие мои статьи в моём профиле на Хабре — @tassdesu. Например, свежая Магия чепухи: как «бессмысленные» инструкции заставляют нейросети работать лучше

ссылка на оригинал статьи https://habr.com/ru/articles/1045814/