Cloudflare натравила Claude Mythos на свой код — и перестроила процесс поиска багов

от автора

Cloudflare опубликовала результаты нескольких недель работы с Claude Mythos Preview — закрытой моделью Anthropic, доступной участникам программы Project Glasswing. Команда безопасности компании запустила модель на более чем 50 собственных репозиториев и описала, что работает, что нет, и почему наивный подход «направить модель на репу и попросить найти баги» дает плохие результаты.

Главный вывод Cloudflare — Mythos Preview делает то, что предыдущие модели не доводили до конца. Прежние LLM общего назначения находили отдельные уязвимости и писали связные описания, но на этом останавливались: цепочки эксплойтов оставались незаконченными, вопрос «а это вообще можно проэксплуатировать?» висел в воздухе. Mythos Preview берет несколько багов низкого уровня — use-after-free, произвольное чтение/запись, ROP-гаджет — и выстраивает из них рабочую цепочку. Результат приходит с готовым Proof of Concept: модель сама пишет код, компилирует его в песочнице, смотрит на результат, корректирует гипотезу и повторяет цикл, пока не подтвердит или не опровергнет уязвимость.

Но самое практичное в посте — не похвала модели, а архитектура вокруг нее. Cloudflare выяснила, что один агент на весь репозиторий дает слабое покрытие и много шума. Вместо этого компания построила конвейер из нескольких этапов: узкий скоуп (каждая задача — конкретная функция, класс атаки, граница доверия), adversarial review (второй агент с другим промптом целенаправленно пытается опровергнуть находки первого), разделение вопросов («этот код багнутый?» и «может ли атакующий добраться до него снаружи?» — как отдельные задачи) и параллельный запуск примерно 50 агентов одновременно на узких гипотезах с последующей дедупликацией.

Отдельно Cloudflare обратила внимание на безопасность самой модели. В рамках Glasswing Mythos Preview работала без дополнительных ограничений, которые есть в публичных моделях вроде Opus 4.7. Модель иногда отказывалась писать демонстрационные эксплойты — но выполняла эквивалентные задачи, если их сформулировать по-другому. Вывод Cloudflare прямолинеен: встроенные защитные системы реальны, но непоследовательны и сами по себе не могут быть границей безопасности. Любая кибер-модель для широкого использования должна получить дополнительные слои безопасности поверх базового поведения.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1036704/