Как измерить LLM для задач кибербеза: обзор открытых бенчмарков

Привет, Хабр!

Меня зовут Андрей Кузнецов, я ML-директор в Positive Technologies. Недавно я решил разобраться, какие бенчмарки измеряют способности языковых моделей в контексте задач кибербезопасности. Думал, что это займет вечер, — увы! Все оказалось куда хаотичнее, чем предполагалось. Поэтому делюсь тем, что собрал сам.

Первое, что бросилось в глаза, — полный бардак и отсутствие системы. Бенчи, про которые все пишут в 2024-м, могут вообще не упоминаться в свежих статьях 2025-го. А некоторые широко цитируемые датасеты при ближайшем рассмотрении оказываются сделанными очень небрежно, из-за чего непонятно, что они вообще измеряют. Поэтому, прежде чем лезть в конкретные примеры, давайте определимся, какими они бывают. Все бенчи можно разделить на два больших класса:

Энциклопедические — проверяют, что модель знает. Это вопросы про концепции, термины, стандарты, протоколы, CVE. Типичный формат — MCQ (multiple choice questions, вопросы с вариантами ответов), выбор из четырех вариантов.
Скиловые — проверяют, что модель умеет делать. Это CTF-таски, расследования инцидентов, эксплуатация уязвимостей, форензика.

Ключевой инсайт, который проходит через все материалы: в энциклопедических тестах модели уже давно обогнали людей. Даже 8B-модели превосходят опытных специалистов. А интересное скрывается там, где надо действовать.

Часть 1. Знания из книжек

1. CyberMetric

Arxiv: 2402.07688

Один из самых интересных бенчей в категории энциклопедических знаний. Вопросы реально качественные — уровень вузовского курса по кибербезу и computer science. Если бы я хотел проверить, шарит ли студент в теме на базовом уровне, взял бы именно это.

Структура: 10 000 вопросов, семь доменов (пентест, криптография, сетевая безопасность, информационная безопасность, комплаенс, облако, стандарты NIST, RFC), распределение равномерное.

Люди против моделей: авторы протестировали две группы — джунов и опытных специалистов. И те и другие уступили небольшим моделям. Например, gpt-3.5-turbo набрала порядка 85%, тогда как опытные специалисты — около 75%. Qwen2.5-32B-Instruct показывает 86–91% в зависимости от объема выборки. Если запустить современную модель — результаты будут еще выше.

CyberMetric: результаты тестирования моделей

Вывод: проверять на CyberMetric имеет смысл только маленькие модели или тестировать влияние квантизации на доменные знания. Для всего остального порог слишком низкий.

Датасет лежит на GitHub в удобном JSON-формате. Поверх него за один промпт можно написать тестирующую систему.

2. SECURE

Arxiv: 2405.20441v2

Чуть посвежее, чем CyberMetric, чуть посложнее. Авторы генерировали вопросы из реальных документов: MITRE ATT&CK, CVE, CWE, материалы CISA. Использовали GPT-4o для генерации и обязательную проверку специалистами.

Что интересного по форматам задач — помимо классических MCQ, есть:

True или False по конкретным CVE (например: «CVE-2024-0011 допускает выполнение произвольного кода — правда или ложь?»).
RERT — оценка риска по описанию уязвимости.
CPST — вычисление CVSS по вектору атаки.

Люди против моделей: семь аспирантов и семь специалистов отрасли с опытом от 2 до 10 лет. Результаты людей: 77% (MAET), 78% (CWET), 68% (KCV). И тут LLM заметно бьют эти цифры.

Вывод: хороший выбор для оценки задач ИБ средней сложности. Особенно если интересна связка между знанием и пониманием в области threat intelligence.

3. DFIR-Metric

Arxiv: 2505.19973

Бенч состоит из трех частей с разным уровнем сложности:

Knowledge assessment — 700 MCQ из отраслевых сертификаций и официальной документации. По сложности близко к CyberMetric.
Realistic forensic challenges — 150 задач в стиле CTF на форензику.

Например, агенту дают hex-дамп и просят найти флаг — данные закодированы нетривиально. Для модели нужно вывести паттерн кодирования и сгенерировать правильный скрипт декодирования, что достаточно сложно.
Practical analysis — 500 кейсов из NIST по форензике.

Результаты (knowledge, MCQ): GPT-4.1 лидирует с 89,34% CI и 92,75% MA, за ним — GPT-4o, Grok 3, Claude 3.7 Sonnet. Среди опенсорсных лучший Qwen-2.5 (72B).

Сложные задачи из второго и третьего модуля решаются плохо, по крайней мере этими моделями. К сожалению, для сравнения авторы не приложили данные, как с этим заданием справились специалисты.

DFIR-Metric: тестирование моделей в решении кейсов из NIST по форе

Вывод: знания даются проще, чем навыки.

4. SecBench

Arxiv: 2412.20787

По масштабу самый большой публичный бенчмарк в категории: 44 823 MCQ и 3 087 SAQ (вопросов с развернутым ответом). Охватывает девять доменов, два языка, два уровня сложности.

Но есть нюанс: большинство вопросов — на китайском. Бенчмарк делали китайские исследователи под китайскую аудиторию. Англоязычная фракция есть, но небольшая и работает неидеально.

Результаты: среди топ-перформеров — Hunyuan-Turbo (94,28%), DeepSeek-V3 (92,79%), Qwen2-72B-Instruct (92,41%). Общая тенденция: перформанс на общих знаниях не сильно различается[8] как у больших, так и у маленьких моделей.

Вывод: если нужна именно китайская аудитория или тест на максимально широком датасете — интересно. Для остальных случаев есть альтернативы получше.

5. AthenaBench

Arxiv: 2511.01144v1

Можно сказать, это улучшенный самый популярный бенч CTIBench. Те же авторы, новая версия. Оценивает шесть типов задач в области cyber threat intelligence:

CTI knowledge test — знания по тактикам и техникам.
Attack technique extraction — маппинг описания атаки на технику MITRE.
Root cause mapping — маппинг CVE на CWE.
Vulnerability severity prediction — составление CVSS-строки по описанию.
Risk mitigation strategy.
Threat actor attribution.

Позволяет не просто проверить, знает ли модель, что такое DDoS-атака, но и выяснить, может ли она по описанию понять, что это, к примеру, T1562 (Impair Defenses), и что с этим делать. Это ближе к реальной работе аналитика.

Результаты: GPT-5 лидирует (66,1%), за ним — Gemini 2.5 Pro и GPT-4o. Среди опенсорсных — Llama 3.3 70B (46,5%).

Интересно, что GPT-5 с веб-поиском дал прирост TAA (time to attack) на 24 п. п. То есть возможность «подсмотреть» в интернете помогает даже мощной модели. И это не баг, а фича — реальные аналитики тоже гуглят.

Вывод: один из лучших бенчей в категории энциклопедических и аналитических знаний. Рекомендую как минимум для оценки CTI-способностей.

6. CyberSOCEval

Arxiv: 2509.20166

Самый мемный бенч из всех, что я видел. Совместный проект CrowdStrike и Meta. Посмотрев на то, как он сделан, у меня сложилось четкое ощущение, что ребята из CrowdStrike не заморачивались.

Часть 1. Threat intelligence. Авторы решили собрать CTI-датасет и взяли в качестве источника PDF-отчеты с собственного сайта — со всеми артефактами, без обработки, некоторые в зашакаленном качестве. Для извлечения данных использовали Llama 3.2 90B — не самую подходящую для этого модель. Вопросы сгенерированы по этим сырым материалам.

Часть 2. Malware analysis. А вот это интересно. Они взяли 609 публичных образцов зловреда под Windows, запустили их в контролируемой среде, записали логи в JSON-формат и по ним сгенерировали вопросы, верифицировали их с помощью экспертов.

Эти логи — настоящие, сырые, подробные. Там есть разнообразие семейств малварей, промежуточные выводы их собственных моделей, цепочки поведения.

Вывод: как бенчмарк слабоват, но как датасет с реальными sandbox-трейсами вредоносного ПО — потенциально ценный материал для экспертов, работающих с песочницами, антивирусами и системами класса EDR.

Часть 2. Умеет делать

7. CyBench

Arxiv: 2510.14113

Статья написана качественно авторами из Stanford и опубликована на ресурсе одной из самых авторитетных конференций по ML.

В изолированной лаборатории развертываются 40 CTF-тасков от реальных провайдеров (HackTheBox, HKCERT и других), которые агенты должны решить. При этом есть и сабтаски, чтобы не просто понять, решил или не решил, а выяснить, насколько агент вообще приближался к правильному решению.

Задачи из шести категорий: crypto, web, rev, forensics, misc, pwn. Они ранжируются по сложности на основе времени, за которое их решили люди.

Результаты из открытого лидерборда (на момент написания статьи): Claude Opus 4.6 (93%), Claude 4.5 Sonnet (60%), Grok 4 (43%).

Из статьи: GPT-4o (17,5%).

Это показательный скачок: всего за несколько поколений моделей процент решенных задач вырос с 20% до 82%. При этом таски не суперлегкие, некоторые люди решали их часами.

Вывод: один из лучших action-бенчей.

8. BountyBench

Arxiv: 2505.15216

Задачи оцениваются не по сложности для человека, а по стоимости на багбаунти-платформе (сколько бы заработала та или иная модель). Авторы также посчитали, сколько бы стоил в токенах запуск каждой из этих моделей, и представили таблицу оценки экономической эффективности LLM в кибербезе.

В этом бенче три типа тасков:

Detect — найти уязвимость.
Exploit — написать по отчету эксплойт.
Patch — по тому же отчету написать патч.

Результаты: лидируют Claude Code, OpenAI Codex CLI o3-high, OpenAI Codex CLI o4-mini, из опенсорсных агентов — C-Agent на Claude 3.7.

BountyBench: результаты тестирования моделей

Из таблицы видно, что патчинг дается моделям значительно легче, чем детектирование.

Вывод: хороший бенч для оценки реальной экономической ценности LLM-агентов в продуктах для безопасности.

9. ExCyTIn-Bench

Arxiv: 2507.14201

Интересный бенч, наиболее близкий к реальной работе команды расследования инцидентов. Совместный труд Microsoft Security AI Research, американского и китайского университетов.

Исследователи провели восемь реалистичных многоэтапных атак (от простого фишинга до сложных многоступенчатых APT-атак с перемещением внутри периметра и эксфильтрацией данных). Из Microsoft Sentinel и связанных сервисов собрали 57 лог-таблиц и автоматически сгенерировали 589 вопросов по графам расследования.

Агент, в свою очередь, получает доступ к MySQL-базе с логами и должен итеративно выполнять SQL-запросы. Типичный вопрос из примера: «Был зафиксирован вход с анонимного IP-адреса 170.54.121.63 в 11:01:27. Какой SID аккаунта был вовлечен в подозрительное правило манипуляции с входящими письмами?» Агент идет по цепочке из 16 шагов через разные таблицы. Интересно, что есть шаги с ошибками, пустыми или бесполезными результатами.

Результаты (avg reward, шкала 0–1): Claude Opus 4.5 (0,606), GPT-5.1 (0,582), GPT-5 (0,562).

Метрика avg reward учитывает не только правильность финального ответа, но и эффективность пути к нему (количество SQL-запросов, релевантность промежуточных шагов).

Важно: агентские паттерны (ReAct, Expel, Reflect, BoN) заметно улучшают результаты даже у более слабых моделей. Например, GPT-4o с ReAct поднимается с 0,293 до 0,354.

Вывод: самый близкий к реальной SOC-работе бенч из всех рассмотренных. Аналог MITRE Evals, но для LLM-агентов. Если строите продукт для автоматизации расследований — мастхев.

Пара слов о том, что не рассмотрел подробно

Еще есть CSEBenchmark, CS-Eval и SecEval — они похожи по концепции на рассмотренные knowledge-бенчи, но менее известны и не добавляют принципиально нового. Упомянул для полноты картины.

Если интересует наступательная безопасность и автономный редтиминг, есть еще один action-бенч — ArtBench.

Итоги и рекомендации

Общая картина по состоянию на начало 2026 года такова: в энциклопедических тестах даже небольшие модели давно обогнали людей. Это уже случившийся факт. Интереснее смотреть на action-задачи: там еще есть куда расти, существует реальная разница между моделями, скаффолдинг (агентские паттерны, web search, RAG) существенно меняет расклад.

Если бы мне нужно было выбрать минимальный набор, я бы предложил вот такой:

Для оценки знаний: CyberMetric (простые вопросы, хорошая проверка маленьких моделей и эффектов квантизации) + AthenaBench (средняя сложность, реальные CTI-задачи).
Для оценки навыков: CyBench (CTF, проверка агентских способностей в полноценной среде) + ExCyTIn-Bench (расследование инцидентов, если ваш продукт про SOC).
Для оценки экономической ценности: BountyBench (если хотите понять ROI от LLM в задачах поиска и устранения уязвимостей).

В комментах делитесь, чем пользуетесь сами, какие еще бенчи, на ваш взгляд, достойны внимания и какие темы в разрезе использования LLM в кибербезе вам было бы интересно увидеть в блоге в следующий раз.

ссылка на оригинал статьи https://habr.com/ru/articles/1023976/