Claude Mythos скоро выйдет для всех: что это значит для кибербезопасности

28 мая Anthropic выпустила Opus 4.8 и анонсировала новую модель: Mythos-class модели станут доступны всем «в течение нескольких недель». Разбираем, что умеет модель, которую год держали в закрытом контуре, почему её решились отпустить — и что с этим делать ИБ-команде уже сейчас.

Mythos

Вчерашний выход Opus 4.8 – очередное продвижение моделей для разработки, судя по тестовым метрикам.

Но для кибербезопасности интереснее про Mythos.

«В течение нескольких недель» — так Anthropic сформулировала срок, когда Mythos-class модели станут доступны всем клиентам. Ту самую модель, которую компания почти год намеренно держала подальше от публики. Не потому, что сырая. А потому что слишком хороша в одном конкретном деле – находить уязвимости и создавать к ним эксплойты.

Что вообще такое Claude Mythos

Claude Mythos это общая frontier-модель, которая оказалась настолько сильна в задачаъ кибербезопасности, что Anthropic приняла беспрецедентное для себя решение: не выпускать её публично, пока не появятся специальные защитные механизмы, а крупные проекты не выпустят исправления критичных уязвимостей, которые можно найти с помощью нее.

Что именно она умеет — задокументировано в рамках Project Glasswing (Anthropic):

Обнаружила тысячи zero-day уязвимостей во всех major ОС и браузерах.
Нашла 27-летнюю уязвимость в OpenBSD — такую, что позволяет удалённо уронить любую машину простым подключением к ней.
Нашла 16-летнюю уязвимость в FFmpeg. В строке кода, через которую автоматические тесты прошли 5 миллионов раз и ничего не заметили.
Автономно нашла и скомпоновала несколько уязвимостей в Linux kernel для эскалации привилегий до root (Reddit / r/accelerate, Anthropic).
Нашел 271 уязвимость в Firefox.

Метрика	Mythos Preview	Opus 4.6
Рабочий эксплойт с первой попытки (CyberGym)	83,1%	66,6%
Экспертные задачи (нерешаемые до апреля 2025)	73% успеха	—
Создание эксплойтов для найденных уязвимостей	в ~100 раз успешнее	базовый уровень

Источники: Anthropic / Project Glasswing по бенчмаркам и кратности, PwC по кратности эксплойтов, экспертные задачи — по оценке AISI.

По оценке британского AI Security Institute, в контролируемых условиях Mythos Preview способна автономно проводить многоэтапные атаки на уязвимые сети — те, что у живого специалиста занимают дни (AISI).

Почему держали под замком — и что изменилось

7 апреля 2026 года Anthropic объявила Project Glasswing — закрытую инициативу, в рамках которой Mythos Preview раздали ограниченному кругу: AWS, Apple, Microsoft, Google, CrowdStrike, Palo Alto Networks, Cisco, NVIDIA, JPMorganChase, Linux Foundation и ещё 40+ организаций (Anthropic).

Под это Anthropic выделила до $100 млн в токенах (новая валюта которую сами же «майнят», уже и доли в стартапах на нее покупают) на использование модели плюс $4 млн пожертвований open-source организациям безопасности.

Логика, почему отпускают сейчас, описана в анонсе Opus 4.8. План такой: сначала обкатать новые cyber-ограничения на менее опасной модели — Opus-уровня, — отладить, а потом переносить на Mythos-class. По части alignment (согласованности поведения модели) Opus 4.8 уже сопоставима с Mythos Preview и лучше Opus 4.7.

При этом сам Mythos Preview в открытый доступ не пойдёт. Речь о новой Mythos-class безопасной модели.

Будет ли массовый Mythos безопасным

Anthropic планирует ставить в качестве safeguards следующие ограничения (WaveSpeed, Anthropic):

Технические блокировки наиболее опасных outputs.
Cyber Verification Program – отдельная регистрация для легитимных security-специалистов.
Обкатку safeguards на моделях Opus-уровня перед переносом на Mythos (в теории Opus 4.8 должен стать хуже в атакующих задачах кибербеза по-сравнению с Opus 4.7).

Детальную архитектуру этих safeguards Anthropic не раскрыла.

Но главная проблема даже не в самом Mythos. Компания Aisle сумела воспроизвести часть уязвимостей, найденных Anthropic, на старых, дешёвых и публичных моделях. Разница пока в том, что найти дыру проще, чем написать к ней эксплойт. Но этот зазор сжимается (Schneier on Security).

В целом использование LLM не создает новых категорий угроз, а ускоряет существующие. Окно между обнаружением уязвимости и рабочим эксплойтом сжимается – об этом говорят все метрики и новости о появлении CVE и начале их эксплуатации.

Еще одна деталь от самой Anthropic: инженеры без формальной security-подготовки собрали рабочие эксплойты за ночь, пользуясь Mythos. Снижение «барьера входа» делает атаки дешевле, а значит потенциально гораздо более массовыми. Unit-экономика «темной» стороны ИБ улучшается.

И даже если ограничения безопасности у Anthropic выйдут идеальными — аналогичные возможности появятся у других лабораторий через 6-18 месяцев. В том числе там, где про безопасность думают в последнюю очередь.

Что это меняет для ИБ-команд

Раньше exploit lifecycle мерили днями и неделями. Публикация CVE — анализ — PoC — рабочий эксплойт — массовое применение. Между этапами было время в спокойном режиме протестировать, накатить патчи.

Теперь цепочка от reconnaissance до payload сжимается до часов. Иногда минут.

Представьте: процесс патчинга, рассчитанный на 30-90 дней, против атакующего, у которого от CVE до рабочего эксплойта — ночь. Это как пытаться залатать пробоину, пока корабль уже черпает воду бортом.

Вопрос ребром: атакующий с AI против защитника с AI – кто будет быстрее? Пока защитник запрягает, атакующий уже едет. У него нет процесса согласований и пятничного code freeze.

Что делать прямо сейчас: семь приоритетов

Ниже – то, о чем стоит задуматься.

Приоритет 1. Скорость установки патчей

Автоматизация установки, тестирования – так, чтобы в течении квартала можно было обновлять прод хоть каждую ночь.

Приоритет 2. AI в workflow безопасной разработки

Внедрите LLM-based vulnerability discovery и анализ кода в свой процесс до того, как это сделают атакующие.
Протестируйте AI-assisted подходы в генерации патчей, анализе исходников, triage.

Логика проста: если возможность есть у обеих сторон, выигрывает тот, кто встроил её в рутину первым.

Дисциплина

По сути никакой магии новые AI-модели не несут. Только ускорение того, что и так происходило.

Но ускорение — это тоже сдвиг. Когда скорость меняется на порядок, придется не «больше работать» чтобы быстрее двигать задачи по существующим процессам, необходимо будет изменить процессы для большей скорости.

Игнорировать новые вызовы и считать их «просто хайпом» точно не стоит.

ссылка на оригинал статьи https://habr.com/ru/articles/1040928/