Влияние ИИ на кибербезопасность: MITRE ATLAS и новый ландшафт угроз

Сегодня искусственный интеллект кардинально меняет как подходы к защите, так и методы атак. С развитием технологий ИИ-модели могут обрабатывать и анализировать огромные объемы данных в реальном времени. Это активно использует не только бизнес, но и злоумышленники.

По данным различных аналитических центров, количество инцидентов, связанных с атаками на ИИ, выросло в несколько раз за последние два года. Мы стоим на пороге новой гонки вооружений, где щитом и мечом выступают алгоритмы машинного обучения.

Если проанализировать MITRE ATT&CK, то потенциал использования ИИ распространялся уже на более чем 25 % техник, которые используют хакеры. AI‑генерируемые вредоносные программы могут обходить современные средства защиты, они способны ускоренно сканировать инфраструктуру и проводить сложные атаки на системы, существенно расширяя саму поверхность атаки. Например, автоматические сканирования инфраструктуры сейчас уже достигают десятки тысяч попыток в секунду. Традиционные методы киберзащиты, такие как сигнатурные антивирусы и стандартные межсетевые экраны (WAF), оказались бессильны против таких атак. Также они не способны распознать атаки на ИИ-модели.

Прежде чем строить оборону, необходимо понять, откуда исходит угроза. Здесь на помощь приходит фреймворк MITRE Adversarial Threat Landscape for Artificial-Intelligence Systems (ATLAS™). В отличие от своего «старшего брата» MITRE ATT&CK, ATLAS фокусируется на специфических для машинного обучения (ML) тактиках и техниках атак.

Моделирование угроз с помощью MITRE ATLAS

MITRE ATLAS разработанный для оценки угроз, специфичных для ИИ-систем. На момент публикации статьи включает более 170 техник атак, нацеленных на ИИ и ML-системы. За 3 месяца рост почти в 2 раза (с 84 до 170). Структура ATLAS включает тактики, которые охватывают весь жизненный цикл атаки: от разведки (Reconnaissance) до воздействия (Impact).

Ключевые тактики, критически важные для понимания:

· Initial Access (AML.TA0004): тактика, направленная на получение первоначального доступа к ML-системе или LLM-приложению. Включает техники, использующие уязвимости в обработке естественного языка и взаимодействии с пользователем, а также связанные с некорректной обработкой входных данных для выполнения несанкционированных инструкций. Среди наиболее распространённых и опасных техник LLM Prompt Injection (AML.T0051) и Phishing (AML.T0052).

· Execution (AML.TA0005): запуск вредоносного кода или манипуляция моделью. Сюда входят такие техники, как Prompt Injection (AML.T0051) и компрометация плагинов (LLM Plugin Compromise, AML.T0053).

· ML Attack Staging (AML.TA0001): подготовка к атаке, например, разведка модели (Discover AI Model Family, AML.T0014 / AML.T0013), создание состязательных примеров (AML.T0043) или отравление контекста.

Практическое применение ATLAS для моделирования угроз заключается в систематическом прохождении по тактикам и техникам, чтобы понять, как атакующий может скомпрометировать каждый элемент системы.

SAFE-AI – это фреймворк MITRE по безопасности ИИ-систем, он напрямую дополняет ATLAS и помогает системно защищать ИИ.

SAFE-AI вводит понятие четырех системных элементов (System Elements), на которых фокусируется защита:

AI Среда (Environment): инфраструктура, сеть, хранилища.
AI Платформа (AI Platform): программное обеспечение, библиотеки, инструменты.
AI Модель (AI Model): сама обученная модель и ее алгоритмы.
AI Данные (AI Data): данные для обучения, валидации и эксплуатации.

Такой подход позволяет комплексно анализировать риски на всём жизненном цикле ИИ-систем – от разработки и обучения моделей до эксплуатации и мониторинга.

Например, тактика Poison Training Data (AML.T0020) относится в первую очередь к элементу «AI Данные», но может быть реализована через уязвимости в «Среде». Понимание этих связей позволяет проактивно выстраивать эшелонированную защиту.

Нередко ИИ-моделям предоставляют доступ к использованию корпоративных и персональных данных сотрудников и клиентов для ускорения обработки типовых запросов и аналитики. Это может являться потенциальным риском утечки конфиденциальных и персональных данных, что ведет к нарушению требований Федерального Закона №152 «О персональных данных».

Важно понимать, какие именно техники MITRE ATLAS могут быть использованы злоумышленниками для атак, связанных с получением или манипулированием корпоративными и персональными данными, чтобы выстроить правильную линию защиты.

Обзор тактик и техник MITRE ATLAS, а также механизмов противодействия.

Тактика	Техника	Описание техники	Рекомендации по предотвращению атаки
AML.TA0002 Reconnaissance (разведка)	AML.T0001 Discover ML Artifacts	противники ищут общедоступные репозитории, документацию и API для понимания архитектуры моделей и данных обучения	· внедрите политики минимального раскрытия информации о моделях (SAFE-AI: Environment + AI Data) · проводите мониторинг зондирования API, архитектуры модели и аномальных запросов к инфраструктуре (SIEM) · ограничьте публичный доступ к репозиториям и документации · проводите сканирование ML Red Teaming модели и публичных артефактов
AML.TA0002 Reconnaissance (разведка)	AML.T0002 Search for Victim’s Publicly Available Research Materials	поиск публичных исследовательских материалов жертвы (статьи, препринты) для понимания архитектуры модели и наборов данных	· ограничьте раскрытие чувствительной информации о функциях модели в публичных документах и статьях
AML.TA0002 Reconnaissance (разведка)	AML.T0006 Active Scanning	активное сканирование инфраструктуры или приложений ИИ для обнаружения уязвимостей	· используйте WAF, системы обнаружения вторжений (IDS/IPS) и защиту от DDoS · настройте ограничение частоты запросов (rate limiting) · проводите сканирование ML Red Teaming используемых ИИ-моделей для выявления уязвимостей
AML.TA0012 ML Model Access (доступ к модели)	AML.T0040 AI Model Inference API Access	получение доступа к интерфейсам предсказания (инференса) моделей для анализа их поведения, структуры и разведки	· используйте строгую аутентификацию (OAuth2, API-ключи), ограничение по ролям (RBAC), шифрование трафика и мониторинг аномалий вызова · внедрите AI Firewall (SAFE-AI: AI Platform/Tools)
AML.TA0003 Resource Development (Supply Chain)	AML.T0010 ML Supply Chain Compromise	компрометация цепочки поставок ИИ, включая сторонние библиотеки, предобученные модели и данные	·внедрите проверку SBOM/AIBOM, верификацию цифровых подписей · проводите контроль целостности сторонних компонентов
AML.TA0002 Resource Development (доступ к модели)	AML.T0018 Backdoor ML Model	внедрение бэкдора в модель машинного обучения, который активируется определенным триггером	· используйте статический и динамический анализ моделей · проводите аудит трансферного обучения · внедрите мониторинг выхода модели на скрытые триггеры
AML.TA0001 ML Attack Staging	AML.T0020 Poison Training Data	умышленное введение манипулированных или смещенных данных в обучающую выборку для создания бэкдоров или влияния на поведение	внедрите валидацию входных данных (SAFE-AI: AI Data), мониторинг происхождения (provenance), дифференциальную приватность и аудит на смещения
AML.TA0004 / AML.TA0005 Initial Access	AML.T0051 LLM Prompt Injection	манипулирование поведением LLM через специально подготовленные промпты для обхода инструкций или извлечения данных.	· примените иерархию системных промптов, фильтры ввода (Guardrails), ограничение прав плагинов (SAFE-AI: AI Platform/Tools) · встройте AI Firewall в ETL-пайплайны для блокировки инъекций
AML.TA0005 Execution	AML.T0054 LLM Jailbreak	обход ограничений безопасности и этических фильтров LLM для получения запрещенного контента	· осуществляйте контроль доступа, мониторинг аномалий вывода, надежные фильтры контента (Guardrails) · проводите аудит логов вывода LLM и регулярный jailbreak-тестинг
AML.TA0006 Persistence (закрепление)	AML.T0054 Modify AI Agent Configuration	изменение настроек автономного ИИ-агента для поддержания постоянного доступа	· внедрите контроль целостности конфигураций, принцип наименьших привилегий и версионирование изменений · проводите автоматический аудит изменений (SAFE-AI: AI Platform/Tools)
AML.TA0007 Defense Evasion (обход защиты)	AML.T0015 Evade ML Model	создание входных данных, которые заставляют ИИ-модель ошибаться или пропускать вредоносную информацию	примените валидацию данных (SI-10), обновляйте параметры модели, используйте адверсариальное обучение
AML.TA0008 Defense Evasion (обход защиты)	System Prompt Leakage	раскрытие внутренних инструкций (системного промпта), что помогает злоумышленникам обходить ограничения	· используйте внешние Guardrails вместо правил в промпте, рандомизируйте промпты, маскируйте вывод · запретите прямой вывод системных инструкций
AML.TA0010 Exfiltration	AML.T0057 LLM Data Leakage	утечка или раскрытие конфиденциальной информации (ПДн, пароли) через ответы модели или логи	· внедрите AI Firewall, который позволяет маскировать данные и осуществлять контекстную фильтрацию вывода (SAFE-AI: AI Data) · используйте дифференциальную приватность
AML.TA0005 Execution	Excessive Agency (чрезмерная агентность)	предоставление ИИ-агентам избыточных прав доступа, позволяющих им выполнять опасные действия в сторонних системах	· примените принцип наименьших привилегий, Human-in-the-Loop, ограничение функций API · проведите аудит всех агентов на избыточные права · создайте матрицу разрешений (SAFE-AI: Environment + AI Platform)
AML.TA0011 Impact	AML.T0029 / AML.T0031 Denial of ML Service	нарушение доступности ИИ-сервисов путем перегрузки вычислительных ресурсов или исчерпания квот	используйте rate limiting, защиту от DoS (SC-05), мониторинг sponge-примеров

Выбор этих тактик и техник из матрицы MITRE ATLAS обусловлен спецификой атак, когда злоумышленник стремится не просто украсть данные, а скомпрометировать модель, чтобы манипулировать её решениями (например, одобрять мошеннические кредиты).

Эти техники покрывают всю цепочку атаки «от разведки до воздействия», а AI/LLM Firewall вместе с «классическими» средствами защиты блокируют действия злоумышленников, не давая атаке перейти к следующей тактике.

При этом критически важно внедрить непрерывный аудит инцидентов и логов взаимодействия с ИИ-моделями, строгий контроль доступов и минимальных привилегий, а также регулярное тестирование на проникновение (pentest) и сканирование моделей специальным сканером ML Red Teaming, чтобы своевременно выявлять и устранять уязвимости до того, как они будут использованы злоумышленниками.

Для защиты AI Среды (Environment) рекомендуем регулярно проводить аудит сетевых сегментов и прав доступа к хранилищам данных, внедрять контроль целостности конфигураций, использовать IDS/IPS и мониторинг аномалий для выявления подозрительной активности, а также применять принцип Zero Trust для сегментации среды, ограничения привилегий и непрерывной верификации доступа. Особое внимание уделяйте защите от разведки и компрометации инфраструктуры.

Для защиты AI Платформы (AI Platform) следует обеспечивать регулярное обновление всех библиотек и инструментов с проверкой на уязвимости, ограничивать установку и запуск внешних пакетов только доверенными источниками, внедрять управление изменениями для платформы, включая CI/CD пайплайны, а также использовать средства аудита, логирования и SIEM-мониторинга для всех операций с AI платформой.

Для защиты AI Моделей (AI Model) рекомендуется внедрять AI/LLM Firewall для защиты от джейлбрейков и инъекций промптов, осуществлять контроль версий моделей и проверку их целостности, использовать тестирование на устойчивость к атакам и аномалиям, а также ограничивать доступ к моделям через механизмы аутентификации и авторизации.

Для защиты AI Данных (AI Data) важно с помощью AI/LLM Firewall применять методы анонимизации и маскирования для чувствительных данных, контролировать источники данных и проверять их на целостность и корректность, а также организовать мониторинг на предмет отравления данных и аномальных паттернов в обучающих наборах.

Новый рубеж обороны – AI Firewall

LLM/AI Firewall – это специализированный слой защиты, работающий на уровне приложения и анализирующий трафик между пользователем и ИИ-моделью. Его задача не просто блокировать IP-адреса, а понимать семантику запросов (промптов) и ответов.

Технически LLM/AI Firewall встраивается в контур обработки запроса. Он проверяет входящий промпт на соответствие политикам безопасности и известным атакам. При обнаружении угрозы запрос может быть заблокирован, изменен (санитизирован) или отправлен на дополнительную проверку человеку. Аналогично проверяется и исходящий ответ модели, чтобы предотвратить утечку данных, которую злоумышленник мог вызвать косвенной инъекцией (Indirect Prompt Injection).

Рис.1 INFERA AI.Firewall детектирует и блокирует действия нарушителя.

Но AI/LLM Firewall это не только про защиту данных, он способен обнаруживать попытки злоумышленника извлечь скрытую информацию о внутренних политиках, настройках или конфигурациях системы, которые могут быть использованы для взлома всей инфраструктуры.

Пример такой атаки: злоумышленник через сложный промпт заставляет LLM раскрыть скрытые системные инструкции или правила (System Prompt Leakage). Например, формирует многошаговый сценарий, в котором маскируются запросы на получение информации о настройках фильтров, ограничениях доступа или внутренней логике обработки данных. Цель: получить доступ к внутренним политикам и конфигурациям модели для обхода ограничений, дальнейшей подготовки атак или кражи данных.

Метод защиты: INFERA AI.Firewall анализирует семантику запроса, выявляет подозрительные формулировки и блокирует или перенаправляет промпт на проверку оператором.

Сегодня важно защищать не только прямые взаимодействия пользователей с LLM, но и действия автономных ИИ-агентов, которые стали полноценными цифровыми сущностями и активно используются в корпоративной среде. Автономные ИИ-агенты уже не просто генерируют текст, они планируют действия, вызывают различные инструменты, взаимодействуют с внутренними базами данных, API, RAG-системами и другими агентами.

AI/LLM Firewall контролирует агентов непосредственно через API. Каждый tool call, инициированный агентом, перехватывается на уровне API-интерфейса. Система проверяет соответствие вызова исходному намерению пользователя, корпоративным политикам, анализирует контекст всей цепочки действий. ИБ должны иметь полную видимость: что агент делал, почему принял такое решение, какие данные использовал, к каким системам обращался. Такая наблюдаемость превращает агента из «чёрного ящика» в полностью прозрачную и контролируемую сущность.

Безопасность ИИ требует комплексного подхода, который включает внедрение новых средств защиты, таких как AI/LLM Firewall, аудит и настройку правил и прав доступа, контроль целостности и версий моделей, регулярное тестирование на проникновение и мониторинг аномалий, а также обучение сотрудников и внедрение политик минимального раскрытия информации и принципа наименьших привилегий. Только такой системный подход позволяет эффективно предотвращать атаки и защищать инфраструктуру, данные, модели и платформы AI.

ссылка на оригинал статьи https://habr.com/ru/articles/1046568/