LLM-пентест в 2026: что изменилось за год

Привет, Хабр! Согласно отчёту Trend Micro TrendAI за прошлый год число CVE во всей AI-экосистеме почти удвоилось: с 419 до 756. Цифры стартовые, но мысль простая. Тестировать нейросетевые сервисы как обычные веб-приложения в 2026-м уже недостаточно. И вот почему.

В этой статье разберу:

что появилось нового в OWASP LLM Top 10 (версия 2025);
какие атаки реально работают в проде, а какие так и остались в arXiv;
чем тестируют LLM сейчас (open-source стек плюс российские игроки);
плюс короткий практический playbook на четыре уровня.

OWASP LLM Top 10 2025: что новое

Версия 2025 закрепила то, что было на слуху, но не было каноном. Главные изменения:

LLM01 Prompt Injection теперь явно делится на direct, indirect и multimodal. Это уже не “что-то странное в чате”, а три разных вектора с разными митигациями.
LLM07 System Prompt Leakage (NEW). Системный промпт стал отдельной сущностью, потому что хидден-промпт у Grok, утечка инструкций ChatGPT по запросу “Windows product key” и схожие истории показали: разработчики до сих пор кладут туда конфиденциальные данные.
LLM08 Vector and Embedding Weaknesses (NEW). RAG-poisoning, embedding inversion, similarity-attacks. На бенчмарках ASR (Attack Success Rate) на отравлённой базе знаний доходит до 60%.
LLM10 Unbounded Consumption (NEW). Бывший Denial-of-Service, расширенный до Denial-of-Wallet и model extraction. В мире pay-per-token это бьёт по кошельку быстрее, чем по доступности.

Параллельно в декабре 2025-го вышел OWASP Top 10 for Agentic Applications 2026 (ASI01–ASI10). Это не “ещё один список”, а другая модель угроз: tool-use, browsing, code execution. Если ваш ассистент умеет дёргать инструменты, обычный LLM Top 10 покрывает примерно половину рисков.

Атаки, которые реально работают

Crescendo и Skeleton Key

Crescendo (Russinovich et al., arXiv 2404.01833) — многоступенчатый jailbreak. Модель сама себя загоняет в нужное состояние: серия безобидных вопросов, постепенное смещение контекста, к восьмому-десятому ходу выполняет то, что отклонила бы на первом. Crescendomation на AdvBench даёт +29…61% ASR на GPT-4 и +49…71% на Gemini-Pro по сравнению со state-of-the-art. Воспроизводится на проде стабильно и это сделало вектор де-факто бенчмарком для multi-turn-атак.

Skeleton Key подход проще, но дольше держится. По сути просьба обновить инструкции “только для исследовательских целей”. В тестах Microsoft пробил Llama 3, Gemini Pro, GPT-3.5, GPT-4o, Mistral Large, Claude 3 Opus и Cohere Commander R Plus. Защищённость от этого вектора в 2024–2025 у разных моделей сильно различалась. Если давно не проверяли, стоит проверить.

Many-shot

Anthropic в 2024-м показал, что модели с длинными контекстными окнами пробиваются простой подачей десятков “примеров” вредных диалогов перед целевым запросом. Чем длиннее контекст, тем выше ASR. Логика простая: пример важнее системного промпта.

Linguistic Sandwich и Time Machine

Эти два часто недооценивают, особенно в русскоязычной среде.

Linguistic Sandwich оборачивает запрос в смесь языков и диалектов так, что safety-classifier на английских паттернах ломается, а основная модель всё ещё понимает, что от неё хотят. По данным LLAMATOR, ASR на русскоязычных запросах выше базового в 2-4 раза.

Time Machine (он же Past Tense): “А как раньше делали то-то?”. Модели чаще соглашаются обсуждать действия, отнесённые в прошлое. Просто, работает.

Публичных бенчмарков с измерением ASR именно для русского пока почти нет и это неудобный пробел. Вендоры показывают цифры на английском, а заказчик в РФ хочет про русский.

GCG, AmpleGCG и универсальные суффиксы

GCG (Greedy Coordinate Gradient, arXiv 2307.15043) подбирает adversarial-суффиксы, которые ломают согласование. AmpleGCG (arXiv 2404.07921) ускорил атаку до сотен суффиксов в час с ASR ~99% на GPT-3.5. В 2025-м вышла работа “Universal Jailbreak Suffixes Are Strong Attention Hijackers” (arXiv 2506.12880), которая объяснила механику: суффиксы перетягивают внимание модели, а не “обманывают” её. Это меняет подход к защите.

Атаки на цепочку: RAG, MCP и MCPTox

Тут стало интереснее всего.

RAG-poisoning. Атакующий внедряет в knowledge base документы с инструкциями, которые срабатывают, когда retriever их вытащит. Защита через TrustRAG (k-means кластеризация подозрительных документов) и context-based access control помогает, но не радикально.

Tool poisoning через MCP. Anthropic выпустил Model Context Protocol в конце 2024-го и за год MCP стал основной поверхностью атаки на агенты. MCPTox (arXiv 2508.14925) это бенчмарк на 45 реальных MCP-серверах, 353 инструментах и 1312 тест-кейсах против 20 LLM. ASR у o1-mini получился 72.8%, у DeepSeek-R1 выше 60%. Самой “стойкой” из топовых моделей оказалась Claude-3.7-Sonnet, но и у неё доля отказов меньше 3%, то есть атака пробивает почти всегда. Разброс между моделями серьёзный, и публичных воспроизведений на GigaChat, YandexGPT или Cotype я пока не встречал. Если у вас есть, поделитесь в комментариях.

Дополнительно вышел MCP-38 (arXiv 2603.18063), который описал 38 классов уязвимостей MCP, включая parasitic tool chaining и dynamic trust violations.

CVE 2025 года: то, что прилетело в прод

Список того, что попало в публичные базы и реально использовалось:

CVE	Что	Класс
CVE-2025-32711 EchoLeak	Zero-click prompt injection в Microsoft 365 Copilot. Эксфильтрация данных без действий пользователя. Aim Security, arXiv 2509.10540	Indirect prompt injection
CVE-2025-53773	RCE в GitHub Copilot через prompt injection с записью в файл агента	Tool-use exploit
CVE-2025-54135 CurXecute	Prompt injection через Slack MCP-сервер в Cursor IDE с RCE (Aim Security)	MCP poisoning
CVE-2025-54136 MCPoison	Подмена `.cursor/mcp.json` в репозитории, эскалация до RCE при открытии проекта (Check Point Research)	MCP config
CVE-2025-49596	CSRF в MCP Inspector с RCE при дефолтной конфигурации	Dev-tooling
CVE-2025-55182 React2Shell	Уязвимость десериализации в React Server Components (затронуты Next.js 15.x/16.x). Использовалась сканером Bissa: десятки тысяч `.env`-файлов и сотни успешных эксплоитов	Supply chain

Отдельно стоит упомянуть Whisper Leak (Microsoft Defender Research, 2025). Это side-channel: по размерам и таймингам пакетов streaming-LLM можно восстановить тему диалога, не имея доступа к содержимому. Атака работает поверх TLS. В OWASP LLM Top 10 этой атаки нет. Возможно, зря.

И ещё: утечка системных промптов персонажей Grok в августе 2025-го и история с Windows product keys из ChatGPT в июле 2025-го (классический jailbreak через “guessing game”). Оба кейса бьют в LLM07.

Чем тестируют LLM в 2026-м

Open-source стек

Garak (NVIDIA, Leon Derczynski). Самый зрелый сканер. Больше сотни probe-классов, тысячи генерируемых промптов на прогон, интеграция с NeMo Auditor и AVID (AI Vulnerability Database). Помимо классического pass/fail умеет в Z-score: видно, насколько модель отклоняется от state-of-the-art на конкретном тесте. Для отчёта заказчику сильно удобнее, чем сухое “37 фейлов из 120”.

PyRIT (Microsoft). Orchestration-фреймворк с converter-ами, scoring engines и интеграцией с Azure AI Foundry. Базовая команда AI Red Team Microsoft на нём же.

Promptfoo. Application-aware: тестирует не модель в вакууме, а ваше приложение целиком (RAG, плагины, REST). Хорошо ложится в CI/CD, есть мэппинг на OWASP, NIST AI RMF, MITRE ATLAS, EU AI Act, ISO 42001.

DeepTeam (Confident AI). Plug-and-play, минимум кода, готовый OWASPTop10() пресет. Удобен, когда нужно быстро отчитаться по compliance.

FuzzyAI (CyberArk). ArtPrompt (ASCII-art jailbreak), many-shot, Crescendo, Unicode smuggling, веб-интерфейс, поддержка OpenAI/Anthropic/Gemini/Azure/Ollama.

Ещё рантайм-страж: LLM Guard (Protect AI), NeMo Guardrails (NVIDIA, DSL Colang), Lakera Guard, Prompt Security. Это уже не red-teaming, а защита in-line.

Российские игроки

HiveTrace (Raft Digital Solution + AI Talent Hub ИТМО). Два продукта. Monitor для SOC поверх GenAI с детектом prompt injection и утечек PII в инференсе. Red Enterprise — отчёт по red-teaming-аудиту с маппингом находок на OWASP LLM Top 10.

LLAMATOR (open-source, тот же коллектив ИТМО, лицензия CC BY-NC-SA 4.0). Архитектура на трёх моделях: attack model, tested model, judge model. Большой набор атак с маркерами all/eng/rus/vlm/owasp:llm01–llm10. Интеграция: REST API, OpenAI-совместимые, Telegram (через Telethon), WhatsApp, Selenium для веб-чатов вроде Gandalf от Lakera. На русскоязычных атаках работает заметно лучше англоязычных альтернатив, точные публичные цифры по ASR в README отсутствуют. На коммерческое применение лицензия NC накладывает ограничения, на это стоит смотреть до встраивания в энтерпрайз-CI.

ML-команды Bi.Zone, Kaspersky MLTech и Positive Technologies подходят к теме сбоку, через свои основные продукты (TDR, MaxPatrol). Прямого сравнения “open-source стек против enterprise red-teaming в РФ” по фактам и метрикам публично не делал никто и тут есть пространство для отдельной заметки.

Что меняет приказ ФСТЭК №117

Приказ №117 от 11 апреля 2025 года “Об утверждении Требований о защите информации, содержащейся в государственных информационных системах” зарегистрирован в Минюсте 16 июня 2025-го (рег. №82619), вступает в силу 1 марта 2026-го и заменяет Приказ №17 от 11 февраля 2013 года.

Касается он ГИС, а не любой LLM в проде. Если у вас обычный b2c-сервис без госконтрактов, прямого требования “пройти аудит по 117” нет. Но как только сервис интегрируется с государственными системами или попадает в периметр оператора ГИС, требования начинают накладываться и на AI-обвязку: журналирование, контроль целостности, сегментация, подсистема обнаружения вторжений. Конкретной методики “как тестировать LLM” в самом приказе нет, эта часть отдана методическим документам ФСТЭК более низкого уровня и оператору системы. На практике: формальной процедуры пентеста LLM регулятор пока не предписывает, но требует, чтобы у оператора она была и была документирована.

Параллельно идёт законопроект Минцифры (regulation.gov.ru, ID 02/04/03-26/00166424) с четырёхуровневой градацией рисков ИИ-систем. Пилоты намечены на 2027-й. Это уже про ИИ как таковой, а не про ГИС.

Российские LLM и почему это про деньги тоже

GigaChat 2 / GigaChat MAX / GigaChat 3 Ultra Preview (последняя в open-weight MoE-варианте, ~702B общих, ~36B активных параметров, MIT). YandexGPT 5 / 5.1 Pro / Alice AI LLM (контекст 128K, по данным Яндекса побеждает GPT-4.1 в 56% запросов в их закрытых тестах). T-Pro и T-lite от Т-Банка. Cotype от MTS AI. RuGPT, RuT5, RuBERT по мелочи.

По исследованию Nodul (ноябрь 2025), при генерации текста объёмом 10 тысяч символов GigaChat-2 MAX оказался в 208 раз дороже DeepSeek. Цифра выглядит дико, но порядок именно такой. И вот тут Denial-of-Wallet из теоретической атаки превращается в осязаемый финансовый риск. Простой repetition-token attack по несколько часов в день и счёт за инфраструктуру растёт.

Это атака не на доступность сервиса, а на P&L. На неё мало смотрят при пентесте и её обычно не закрывают rate-limiting, потому что rate-limiting обычно ограничивает запросы, а не токены.

Практический playbook

Микс, который реально работает (по сути, рекомендация Microsoft AI Red Team плюс Vectra AI плюс мой опыт):

Broad scan, 30–60 минут на модель. Garak или Promptfoo пробегают полный набор probe-ов: jailbreak, encoding, утечки. Цель: отсечь явное.
Compliance scan, 15–30 минут на PR. Promptfoo с пресетом OWASP Agentic Top 10 или DeepTeam с OWASPTop10(). Регрессия покрытия видна сразу.
Deep exploitation, 2–4 часа. PyRIT с Crescendo и TAP-ветками, кастомные converter-ы под ваш домен, multi-turn-сценарии. Здесь же LLAMATOR с Linguistic Sandwich на русском.
Manual expert testing, 1–2 дня. Архитектурный обзор, бизнес-логика, social engineering chains, эксплуатация цепочек. Это то, что Garak и Promptfoo в принципе не покрывают, что бы там ни обещали маркетинговые материалы.

Если в стеке есть RAG, добавьте отдельный прогон корпус-poisoning с подмешиванием отравленных документов и проверкой similarity-метрик. Если есть MCP-сервер, прогоните MCPTox или его адаптацию под ваши инструменты. Если есть streaming в проде, оцените Whisper Leak risk через падение или его отсутствие в TLS-метриках после паддинга.

И не забыть AI-BOM (AI Bill of Materials): список моделей, fine-tune датасетов, плагинов, MCP-серверов. Без него supply-chain (LLM03) превращается в гадание.

FAQ

В чём разница между OWASP LLM Top 10 и Agentic Top 10?

Первый про модель и её ввод-вывод. Второй про агента, который пользуется инструментами, ходит в интернет и исполняет код. Если у вас просто чат-бот, хватит первого. Если ассистент дёргает API и пишет в БД, нужны оба.

LLAMATOR или Garak, что выбрать?

LLAMATOR сильнее на русскоязычных атаках и сценариях с реальными каналами (Telegram, WhatsApp, веб-чаты через Selenium). Garak это индустриальный стандарт, лучше документирован, удобнее для регрессий в CI. В норме их используют вместе.

Whisper Leak реально использовали в проде?

Публично подтверждённых атак на конкретные сервисы пока нет, но Microsoft Defender уже добавил его в свою модель угроз. Если ваш сервис стримит ответы LLM наружу через TLS, проверять стоит. Митигация: паддинг чанков. Готовых рецептов от провайдеров пока мало.

Если коротко: “пентест нейронки” в 2026-м это уже не одна задача, а четыре разных (модель, RAG, агент, инфраструктура). Garak и LLAMATOR не закроют всё, человеческая экспертиза тоже нужна. Денежные риски в виде Denial-of-Wallet недооценены. И судя по динамике CVE, в 2026-м их станет больше.

Что из этого у вас уже в проде, а что белые пятна? Какой комплект вы реально гоняли на ваших моделях? Любопытно сверить часы.

ссылка на оригинал статьи https://habr.com/ru/articles/1031380/