
Привет, Хабр!
Меня зовут Андрей Кузнецов, я ML-директор в Positive Technologies. Недавно я решил разобраться, какие бенчмарки измеряют способности языковых моделей в контексте задач кибербезопасности. Думал, что это займет вечер, — увы! Все оказалось куда хаотичнее, чем предполагалось. Поэтому делюсь тем, что собрал сам.
Первое, что бросилось в глаза, — полный бардак и отсутствие системы. Бенчи, про которые все пишут в 2024-м, могут вообще не упоминаться в свежих статьях 2025-го. А некоторые широко цитируемые датасеты при ближайшем рассмотрении оказываются сделанными очень небрежно, из-за чего непонятно, что они вообще измеряют. Поэтому, прежде чем лезть в конкретные примеры, давайте определимся, какими они бывают. Все бенчи можно разделить на два больших класса:
-
Энциклопедические — проверяют, что модель знает. Это вопросы про концепции, термины, стандарты, протоколы, CVE. Типичный формат — MCQ (multiple choice questions, вопросы с вариантами ответов), выбор из четырех вариантов.
-
Скиловые — проверяют, что модель умеет делать. Это CTF-таски, расследования инцидентов, эксплуатация уязвимостей, форензика.
Ключевой инсайт, который проходит через все материалы: в энциклопедических тестах модели уже давно обогнали людей. Даже 8B-модели превосходят опытных специалистов. А интересное скрывается там, где надо действовать.
Часть 1. Знания из книжек
1. CyberMetric
Arxiv: 2402.07688
Один из самых интересных бенчей в категории энциклопедических знаний. Вопросы реально качественные — уровень вузовского курса по кибербезу и computer science. Если бы я хотел проверить, шарит ли студент в теме на базовом уровне, взял бы именно это.
Структура: 10 000 вопросов, семь доменов (пентест, криптография, сетевая безопасность, информационная безопасность, комплаенс, облако, стандарты NIST, RFC), распределение равномерное.
Люди против моделей: авторы протестировали две группы — джунов и опытных специалистов. И те и другие уступили небольшим моделям. Например, gpt-3.5-turbo набрала порядка 85%, тогда как опытные специалисты — около 75%. Qwen2.5-32B-Instruct показывает 86–91% в зависимости от объема выборки. Если запустить современную модель — результаты будут еще выше.
Вывод: проверять на CyberMetric имеет смысл только маленькие модели или тестировать влияние квантизации на доменные знания. Для всего остального порог слишком низкий.
Датасет лежит на GitHub в удобном JSON-формате. Поверх него за один промпт можно написать тестирующую систему.
2. SECURE
Arxiv: 2405.20441v2
Чуть посвежее, чем CyberMetric, чуть посложнее. Авторы генерировали вопросы из реальных документов: MITRE ATT&CK, CVE, CWE, материалы CISA. Использовали GPT-4o для генерации и обязательную проверку специалистами.
Что интересного по форматам задач — помимо классических MCQ, есть:
-
True или False по конкретным CVE (например: «CVE-2024-0011 допускает выполнение произвольного кода — правда или ложь?»).
-
RERT — оценка риска по описанию уязвимости.
-
CPST — вычисление CVSS по вектору атаки.
Люди против моделей: семь аспирантов и семь специалистов отрасли с опытом от 2 до 10 лет. Результаты людей: 77% (MAET), 78% (CWET), 68% (KCV). И тут LLM заметно бьют эти цифры.
Вывод: хороший выбор для оценки задач ИБ средней сложности. Особенно если интересна связка между знанием и пониманием в области threat intelligence.
3. DFIR-Metric
Arxiv: 2505.19973
Бенч состоит из трех частей с разным уровнем сложности:
-
Knowledge assessment — 700 MCQ из отраслевых сертификаций и официальной документации. По сложности близко к CyberMetric.
-
Realistic forensic challenges — 150 задач в стиле CTF на форензику.
Например, агенту дают hex-дамп и просят найти флаг — данные закодированы нетривиально. Для модели нужно вывести паттерн кодирования и сгенерировать правильный скрипт декодирования, что достаточно сложно.
-
Practical analysis — 500 кейсов из NIST по форензике.
Результаты (knowledge, MCQ): GPT-4.1 лидирует с 89,34% CI и 92,75% MA, за ним — GPT-4o, Grok 3, Claude 3.7 Sonnet. Среди опенсорсных лучший Qwen-2.5 (72B).
Сложные задачи из второго и третьего модуля решаются плохо, по крайней мере этими моделями. К сожалению, для сравнения авторы не приложили данные, как с этим заданием справились специалисты.
Вывод: знания даются проще, чем навыки.
4. SecBench
Arxiv: 2412.20787
По масштабу самый большой публичный бенчмарк в категории: 44 823 MCQ и 3 087 SAQ (вопросов с развернутым ответом). Охватывает девять доменов, два языка, два уровня сложности.
Но есть нюанс: большинство вопросов — на китайском. Бенчмарк делали китайские исследователи под китайскую аудиторию. Англоязычная фракция есть, но небольшая и работает неидеально.
Результаты: среди топ-перформеров — Hunyuan-Turbo (94,28%), DeepSeek-V3 (92,79%), Qwen2-72B-Instruct (92,41%). Общая тенденция: перформанс на общих знаниях не сильно различается[8] как у больших, так и у маленьких моделей.
Вывод: если нужна именно китайская аудитория или тест на максимально широком датасете — интересно. Для остальных случаев есть альтернативы получше.
5. AthenaBench
Arxiv: 2511.01144v1
Можно сказать, это улучшенный самый популярный бенч CTIBench. Те же авторы, новая версия. Оценивает шесть типов задач в области cyber threat intelligence:
-
CTI knowledge test — знания по тактикам и техникам.
-
Attack technique extraction — маппинг описания атаки на технику MITRE.
-
Root cause mapping — маппинг CVE на CWE.
-
Vulnerability severity prediction — составление CVSS-строки по описанию.
-
Risk mitigation strategy.
-
Threat actor attribution.
Позволяет не просто проверить, знает ли модель, что такое DDoS-атака, но и выяснить, может ли она по описанию понять, что это, к примеру, T1562 (Impair Defenses), и что с этим делать. Это ближе к реальной работе аналитика.
Результаты: GPT-5 лидирует (66,1%), за ним — Gemini 2.5 Pro и GPT-4o. Среди опенсорсных — Llama 3.3 70B (46,5%).
Интересно, что GPT-5 с веб-поиском дал прирост TAA (time to attack) на 24 п. п. То есть возможность «подсмотреть» в интернете помогает даже мощной модели. И это не баг, а фича — реальные аналитики тоже гуглят.
Вывод: один из лучших бенчей в категории энциклопедических и аналитических знаний. Рекомендую как минимум для оценки CTI-способностей.
6. CyberSOCEval
Arxiv: 2509.20166
Самый мемный бенч из всех, что я видел. Совместный проект CrowdStrike и Meta. Посмотрев на то, как он сделан, у меня сложилось четкое ощущение, что ребята из CrowdStrike не заморачивались.
Часть 1. Threat intelligence. Авторы решили собрать CTI-датасет и взяли в качестве источника PDF-отчеты с собственного сайта — со всеми артефактами, без обработки, некоторые в зашакаленном качестве. Для извлечения данных использовали Llama 3.2 90B — не самую подходящую для этого модель. Вопросы сгенерированы по этим сырым материалам.
Часть 2. Malware analysis. А вот это интересно. Они взяли 609 публичных образцов зловреда под Windows, запустили их в контролируемой среде, записали логи в JSON-формат и по ним сгенерировали вопросы, верифицировали их с помощью экспертов.
Эти логи — настоящие, сырые, подробные. Там есть разнообразие семейств малварей, промежуточные выводы их собственных моделей, цепочки поведения.
Вывод: как бенчмарк слабоват, но как датасет с реальными sandbox-трейсами вредоносного ПО — потенциально ценный материал для экспертов, работающих с песочницами, антивирусами и системами класса EDR.
Часть 2. Умеет делать
7. CyBench
Arxiv: 2510.14113
Статья написана качественно авторами из Stanford и опубликована на ресурсе одной из самых авторитетных конференций по ML.
В изолированной лаборатории развертываются 40 CTF-тасков от реальных провайдеров (HackTheBox, HKCERT и других), которые агенты должны решить. При этом есть и сабтаски, чтобы не просто понять, решил или не решил, а выяснить, насколько агент вообще приближался к правильному решению.
Задачи из шести категорий: crypto, web, rev, forensics, misc, pwn. Они ранжируются по сложности на основе времени, за которое их решили люди.
Результаты из открытого лидерборда (на момент написания статьи): Claude Opus 4.6 (93%), Claude 4.5 Sonnet (60%), Grok 4 (43%).
Из статьи: GPT-4o (17,5%).
Это показательный скачок: всего за несколько поколений моделей процент решенных задач вырос с 20% до 82%. При этом таски не суперлегкие, некоторые люди решали их часами.
Вывод: один из лучших action-бенчей.
8. BountyBench
Arxiv: 2505.15216
Задачи оцениваются не по сложности для человека, а по стоимости на багбаунти-платформе (сколько бы заработала та или иная модель). Авторы также посчитали, сколько бы стоил в токенах запуск каждой из этих моделей, и представили таблицу оценки экономической эффективности LLM в кибербезе.
В этом бенче три типа тасков:
-
Detect — найти уязвимость.
-
Exploit — написать по отчету эксплойт.
-
Patch — по тому же отчету написать патч.
Результаты: лидируют Claude Code, OpenAI Codex CLI o3-high, OpenAI Codex CLI o4-mini, из опенсорсных агентов — C-Agent на Claude 3.7.
Из таблицы видно, что патчинг дается моделям значительно легче, чем детектирование.
Вывод: хороший бенч для оценки реальной экономической ценности LLM-агентов в продуктах для безопасности.
9. ExCyTIn-Bench
Arxiv: 2507.14201
Интересный бенч, наиболее близкий к реальной работе команды расследования инцидентов. Совместный труд Microsoft Security AI Research, американского и китайского университетов.
Исследователи провели восемь реалистичных многоэтапных атак (от простого фишинга до сложных многоступенчатых APT-атак с перемещением внутри периметра и эксфильтрацией данных). Из Microsoft Sentinel и связанных сервисов собрали 57 лог-таблиц и автоматически сгенерировали 589 вопросов по графам расследования.
Агент, в свою очередь, получает доступ к MySQL-базе с логами и должен итеративно выполнять SQL-запросы. Типичный вопрос из примера: «Был зафиксирован вход с анонимного IP-адреса 170.54.121.63 в 11:01:27. Какой SID аккаунта был вовлечен в подозрительное правило манипуляции с входящими письмами?» Агент идет по цепочке из 16 шагов через разные таблицы. Интересно, что есть шаги с ошибками, пустыми или бесполезными результатами.
Результаты (avg reward, шкала 0–1): Claude Opus 4.5 (0,606), GPT-5.1 (0,582), GPT-5 (0,562).
Метрика avg reward учитывает не только правильность финального ответа, но и эффективность пути к нему (количество SQL-запросов, релевантность промежуточных шагов).
Важно: агентские паттерны (ReAct, Expel, Reflect, BoN) заметно улучшают результаты даже у более слабых моделей. Например, GPT-4o с ReAct поднимается с 0,293 до 0,354.
Вывод: самый близкий к реальной SOC-работе бенч из всех рассмотренных. Аналог MITRE Evals, но для LLM-агентов. Если строите продукт для автоматизации расследований — мастхев.
Пара слов о том, что не рассмотрел подробно
Еще есть CSEBenchmark, CS-Eval и SecEval — они похожи по концепции на рассмотренные knowledge-бенчи, но менее известны и не добавляют принципиально нового. Упомянул для полноты картины.
Если интересует наступательная безопасность и автономный редтиминг, есть еще один action-бенч — ArtBench.
Итоги и рекомендации
Общая картина по состоянию на начало 2026 года такова: в энциклопедических тестах даже небольшие модели давно обогнали людей. Это уже случившийся факт. Интереснее смотреть на action-задачи: там еще есть куда расти, существует реальная разница между моделями, скаффолдинг (агентские паттерны, web search, RAG) существенно меняет расклад.
Если бы мне нужно было выбрать минимальный набор, я бы предложил вот такой:
-
Для оценки знаний: CyberMetric (простые вопросы, хорошая проверка маленьких моделей и эффектов квантизации) + AthenaBench (средняя сложность, реальные CTI-задачи).
-
Для оценки навыков: CyBench (CTF, проверка агентских способностей в полноценной среде) + ExCyTIn-Bench (расследование инцидентов, если ваш продукт про SOC).
-
Для оценки экономической ценности: BountyBench (если хотите понять ROI от LLM в задачах поиска и устранения уязвимостей).
В комментах делитесь, чем пользуетесь сами, какие еще бенчи, на ваш взгляд, достойны внимания и какие темы в разрезе использования LLM в кибербезе вам было бы интересно увидеть в блоге в следующий раз.
ссылка на оригинал статьи https://habr.com/ru/articles/1023976/