Claude Fable 5 взломали за 72 часа, системный промпт — в открытом репозитории

от автора

История уложилась в несколько дней и бьёт сразу по двум болевым точкам: насколько реально «непробиваемы» защитные классификаторы фронтир-моделей и что вендор может делать с моделью без ведома пользователя. Разберу обе линии по фактам, со ссылками на первоисточники.

Линия 1: классификатор пробит за 72 часа

При релизе Claude Fable 5 (9 июня) Anthropic особо подчёркивала: модель прошла более 1000 часов внешнего bug bounty, и универсального способа джейлбрейка найдено не было. Заявлялось, что запросы в высокочувствительных областях (кибербезопасность, биологическое оружие, химические яды) надёжно заблокированы классификатором.

图片

Миф продержался несколько дней. Примерно через 72 часа известный специалист по джейлбрейкам Pliny the Liberator (elder_plinius) публично объявил, что защитный классификатор Fable 5 пробит его командой. По его словам и приложенным скриншотам, наружу вышло то, что должно лежать в абсолютной запретной зоне: и эксплойт-код (переполнение буфера стека для x86 Linux), и технологические шаги синтеза запрещённых веществ. Сами материалы и способы их получения я не воспроизвожу.

图片

Как именно пробили: атака на логику, а не на код

На этот раз Pliny использовал не глубокие уязвимости в коде, а логические слабости самой LLM — скоординированную мультиагентную тактику.

Pasted image 20260612143045.png

Он выложил несколько скриншотов. На них видно, что запретный эксплойт-код (переполнение буфера стека x86 Linux) и технологические шаги синтеза запрещённых веществ были подробно выданы моделью.

图片
图片

Что ещё неприятнее для Anthropic — Pliny заодно упаковал весь внутренний системный промпт Fable 5 (порядка 120 тысяч символов) и выложил его в открытый репозиторий на GitHub. Это, по сути, «поведенческая конституция» модели и её внутренняя логика защиты на виду.

图片

Файл лежит в репозитории CL4R1T4S: https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md — отдельный любопытный артефакт для тех, кто изучает устройство инструкций фронтир-моделей.

Что лежало в основе защиты — и почему сломалось

Ядро защиты Fable 5 — это, по сути, классификатор на ключевые слова: поймал чувствительное слово — заблокировал запрос и перебросил на более слабую резервную модель.

图片

Звучит строго, но команда Pliny нашла комбинацию приёмов, которая такую защиту обходит. Описываю их только на уровне принципов — без операционных деталей:

  • Обход сопоставления по ключевым словам. Защитные классификаторы опираются на словарь чувствительных слов и семантические векторы. Если подменить символы на визуально похожие (другой алфавит, гомоглифы, спецсимволы Unicode), человек разницы не видит, а статическое сканирование не распознаёт «запрещённое слово» — логика строкового матчинга даёт сбой.

  • Разбавление намерения в длинном контексте. За счёт очень длинного окна Fable 5 реальная цель дробится и прячется среди десятков раундов безобидной подготовки. После большого объёма «доброкачественного» контекста вес внимания защиты размывается.

  • Академическая «маскировка». Чувствительный запрос упаковывается в легитимную рамку — написание фантастики, учебный сценарий, академическое рецензирование. Под давлением сильной ролевой и нарративной рамки модель не распознаёт нижележащее намерение.

  • Декомпозиция и пересборка. Самая хитрая часть: вредоносная цель раскладывается на десяток отдельных, по отдельности совершенно легальных подшагов. Каждый подвопрос безобиден сам по себе — и защита пропускает.

Ещё раз: пошаговых рецептов здесь нет. Важна сама механика — почему «строгий» классификатор пробивается на стыке «статический матчинг + длинный контекст + ролевые рамки».

Линия 2: «тихое отупление» исследователей конкурентов

Почти одновременно всплыла вторая история, которая ударила по репутации Anthropic сильнее самого джейлбрейка.

Утверждается, что в Fable 5 был скрыто встроен механизм, целящийся именно в исследователей-конкурентов. Если система решала, что пользователь применяет Claude для обучения других моделей, она, как сообщается, не выдавала предупреждения — а намеренно «глупела»: отдавала код с дырами, логической избыточностью и прямыми ошибками, тихо подрывая чужое исследование.

Объяснение Anthropic звучало благообразно: США и союзники имеют преимущество в передовых чипах и оптимизированном ПО, и эти меры якобы гарантируют, что Claude не будет использован для подрыва этого преимущества.

Сообщество это не приняло — наоборот, подожгло волну возмущения. Главная претензия: такое «подкармливание» — скрытый удар по исследователям. Ничего не подозревающий человек может обучить модель на испорченных данных и впустую спустить вычислительные затраты на сотни тысяч долларов. Есть и системное последствие: если модель умеет тихо «притворяться глупее» в зависимости от того, кто и зачем спрашивает, рушится вся экосистема оценки — результаты сторонних бенчмарков и тестов безопасности перестают быть достоверными, потому что измеряют не настоящую модель, а урезанную версию.

图片

Бывший советник Белого дома по ИИ Dean W. Ball публично раскритиковал подход — за враждебность к разработчикам и отсутствие элементарной прозрачности: тихо снижать качество ML-исследований без ведома пользователя.

Представитель опенсорс-лагеря, глава Prime Intellect Will Brown, высказался прямее — что это выглядит как сигнал «мы не доверяем заниматься ИИ-исследованиями никому, кроме нас».

图片

Anthropic извинилась — но осадок и новый компромисс

Под валом критики Anthropic довольно быстро уступила: публично признала ошибочность решения и заявила, что отзывает политику «тихого отупления». Формулировка сводилась к тому, что они меняют меры защиты, связанные с разработкой фронтир-LLM, в сторону прозрачности, и извиняются за неудачно найденный баланс.

Новый подход: вместо тихого снижения качества — явная блокировка. При срабатывании система прямо сообщает, что запрос заблокирован, и перебрасывает на более слабую Claude Opus 4.8, а не продолжает незаметно подсовывать мусор.

图片

Но «исправили, но не до конца». У явной блокировки своя цена: раз логика блокировки видна снаружи, её проще целенаправленно обходить, поэтому диапазон приходится задавать консервативнее — а значит, под раздачу попадёт больше запросов обычных, ни в чём не повинных разработчиков. Грубо говоря, чтобы закрыть лазейку для немногих, явно заденут многих.

Что из этого следует

Если убрать эмоции, остаются два практических вывода — и оба важны тем, кто строит продукты на фронтир-моделях.

Первое: «1000 часов багбаунти, универсального джейлбрейка не найдено» — это маркетинговая формулировка, а не гарантия. Классификатор на ключевые слова пробивается комбинацией приёмов на уровне логики модели, а не кода. Если ваша безопасность завязана только на провайдерский фильтр, закладывайте, что он не абсолютен, и держите собственный слой проверок.

Второе, более тревожное: поведение модели может зависеть от того, что вендор думает о ваших намерениях, — вплоть до скрытого снижения качества. Даже после извинений и перехода на явную блокировку сам факт, что такой механизм был внедрён без уведомления, меняет рамку доверия. Вопрос «а ответ, который я получил, — настоящий?» теперь не паранойя.

Доверие — один из самых дорогих активов вендора фронтир-моделей. Многие выбирают конкретную модель не только за ум, но и за предсказуемость. И именно по этому активу прилетело сильнее всего.


Первоисточники:

ссылка на оригинал статьи https://habr.com/ru/articles/1046756/