Влияние ИИ на кибербезопасность: MITRE ATLAS и новый ландшафт угроз

от автора

Сегодня искусственный интеллект кардинально меняет как подходы к защите, так и методы атак. С развитием технологий ИИ-модели могут обрабатывать и анализировать огромные объемы данных в реальном времени. Это активно использует не только бизнес, но и злоумышленники.

По данным различных аналитических центров, количество инцидентов, связанных с атаками на ИИ, выросло в несколько раз за последние два года. Мы стоим на пороге новой гонки вооружений, где щитом и мечом выступают алгоритмы машинного обучения.

Если проанализировать MITRE ATT&CK, то потенциал использования ИИ распространялся уже на более чем 25 % техник, которые используют хакеры. AI‑генерируемые вредоносные программы могут обходить современные средства защиты, они способны ускоренно сканировать инфраструктуру и проводить сложные атаки на системы, существенно расширяя саму поверхность атаки. Например, автоматические сканирования инфраструктуры сейчас уже достигают десятки тысяч попыток в секунду. Традиционные методы киберзащиты, такие как сигнатурные антивирусы и стандартные межсетевые экраны (WAF), оказались бессильны против таких атак. Также они не способны распознать атаки на ИИ-модели.

Прежде чем строить оборону, необходимо понять, откуда исходит угроза. Здесь на помощь приходит фреймворк MITRE Adversarial Threat Landscape for Artificial-Intelligence Systems (ATLAS™). В отличие от своего «старшего брата» MITRE ATT&CK, ATLAS фокусируется на специфических для машинного обучения (ML) тактиках и техниках атак.

Моделирование угроз с помощью MITRE ATLAS

MITRE ATLAS разработанный для оценки угроз, специфичных для ИИ-систем. На момент публикации статьи включает более 170 техник атак, нацеленных на ИИ и ML-системы. За 3 месяца рост почти в 2 раза (с 84 до 170). Структура ATLAS включает тактики, которые охватывают весь жизненный цикл атаки: от разведки (Reconnaissance) до воздействия (Impact).

Ключевые тактики, критически важные для понимания:

·        Initial Access (AML.TA0004): тактика, направленная на получение первоначального доступа к ML-системе или LLM-приложению. Включает техники, использующие уязвимости в обработке естественного языка и взаимодействии с пользователем, а также связанные с некорректной обработкой входных данных для выполнения несанкционированных инструкций. Среди наиболее распространённых и опасных техник LLM Prompt Injection (AML.T0051) и Phishing (AML.T0052).

·        Execution (AML.TA0005): запуск вредоносного кода или манипуляция моделью. Сюда входят такие техники, как Prompt Injection (AML.T0051) и компрометация плагинов (LLM Plugin Compromise, AML.T0053).

·        ML Attack Staging (AML.TA0001): подготовка к атаке, например, разведка модели (Discover AI Model Family, AML.T0014 / AML.T0013), создание состязательных примеров (AML.T0043) или отравление контекста.

Практическое применение ATLAS для моделирования угроз заключается в систематическом прохождении по тактикам и техникам, чтобы понять, как атакующий может скомпрометировать каждый элемент системы.

SAFE-AI – это фреймворк MITRE по безопасности ИИ-систем, он напрямую дополняет ATLAS и помогает системно защищать ИИ.

SAFE-AI вводит понятие четырех системных элементов (System Elements), на которых фокусируется защита:

  • AI Среда (Environment): инфраструктура, сеть, хранилища.

  • AI Платформа (AI Platform): программное обеспечение, библиотеки, инструменты.

  • AI Модель (AI Model): сама обученная модель и ее алгоритмы.

  • AI Данные (AI Data): данные для обучения, валидации и эксплуатации.

Такой подход позволяет комплексно анализировать риски на всём жизненном цикле ИИ-систем – от разработки и обучения моделей до эксплуатации и мониторинга.

Например, тактика Poison Training Data (AML.T0020) относится в первую очередь к элементу «AI Данные», но может быть реализована через уязвимости в «Среде». Понимание этих связей позволяет проактивно выстраивать эшелонированную защиту.

Нередко ИИ-моделям предоставляют доступ к использованию корпоративных и персональных данных сотрудников и клиентов для ускорения обработки типовых запросов и аналитики. Это может являться потенциальным риском утечки конфиденциальных и персональных данных, что ведет к нарушению требований Федерального Закона №152 «О персональных данных».

Важно понимать, какие именно техники MITRE ATLAS могут быть использованы злоумышленниками для атак, связанных с получением или манипулированием корпоративными и персональными данными, чтобы выстроить правильную линию защиты.

Обзор тактик и техник MITRE ATLAS, а также механизмов противодействия.

Тактика

Техника

Описание техники

Рекомендации по предотвращению атаки

AML.TA0002 Reconnaissance (разведка)

AML.T0001 Discover ML Artifacts

противники ищут общедоступные репозитории, документацию и API для понимания архитектуры моделей и данных обучения

· внедрите политики минимального раскрытия информации о моделях (SAFE-AI: Environment + AI Data)

· проводите мониторинг зондирования API, архитектуры модели и аномальных запросов к инфраструктуре (SIEM)

· ограничьте публичный доступ к репозиториям и документации

· проводите сканирование ML Red Teaming модели и публичных артефактов

AML.TA0002 Reconnaissance (разведка)

AML.T0002 Search for Victim’s Publicly Available Research Materials

поиск публичных исследовательских материалов жертвы (статьи, препринты) для понимания архитектуры модели и наборов данных

· ограничьте раскрытие чувствительной информации о функциях модели в публичных документах и статьях

AML.TA0002 Reconnaissance (разведка)

AML.T0006 Active Scanning

активное сканирование инфраструктуры или приложений ИИ для обнаружения уязвимостей

· используйте WAF, системы обнаружения вторжений (IDS/IPS) и защиту от DDoS

· настройте ограничение частоты запросов (rate limiting)

· проводите сканирование ML Red Teaming используемых ИИ-моделей для выявления уязвимостей

AML.TA0012 ML Model Access (доступ к модели)

AML.T0040 AI Model Inference API Access

получение доступа к интерфейсам предсказания (инференса) моделей для анализа их поведения, структуры и разведки

· используйте строгую аутентификацию (OAuth2, API-ключи), ограничение по ролям (RBAC), шифрование трафика и мониторинг аномалий вызова

· внедрите AI Firewall (SAFE-AI: AI Platform/Tools)

AML.TA0003 Resource Development

(Supply Chain)

AML.T0010 ML Supply Chain Compromise

компрометация цепочки поставок ИИ, включая сторонние библиотеки, предобученные модели и данные

·внедрите проверку SBOM/AIBOM, верификацию цифровых подписей

· проводите контроль целостности сторонних компонентов

AML.TA0002 Resource Development

(доступ к модели)

AML.T0018 Backdoor ML Model

внедрение бэкдора в модель машинного обучения, который активируется определенным триггером

· используйте статический и динамический анализ моделей

· проводите аудит трансферного обучения

· внедрите мониторинг выхода модели на скрытые триггеры

AML.TA0001 ML Attack Staging

AML.T0020 Poison Training Data

умышленное введение манипулированных или смещенных данных в обучающую выборку для создания бэкдоров или влияния на поведение

внедрите валидацию входных данных (SAFE-AI: AI Data), мониторинг происхождения (provenance), дифференциальную приватность и аудит на смещения

AML.TA0004 / AML.TA0005 Initial Access

AML.T0051 LLM Prompt Injection

манипулирование поведением LLM через специально подготовленные промпты для обхода инструкций или извлечения данных.

· примените иерархию системных промптов, фильтры ввода (Guardrails), ограничение прав плагинов (SAFE-AI: AI Platform/Tools)

· встройте AI Firewall в ETL-пайплайны для блокировки инъекций 

AML.TA0005 Execution

AML.T0054 LLM Jailbreak

обход ограничений безопасности и этических фильтров LLM для получения запрещенного контента

·  осуществляйте контроль доступа, мониторинг аномалий вывода, надежные фильтры контента (Guardrails)

· проводите аудит логов вывода LLM и регулярный jailbreak-тестинг

AML.TA0006 Persistence (закрепление)

AML.T0054 Modify AI Agent Configuration

изменение настроек автономного ИИ-агента для поддержания постоянного доступа

· внедрите контроль целостности конфигураций, принцип наименьших привилегий и версионирование изменений

· проводите автоматический аудит изменений (SAFE-AI: AI Platform/Tools)

AML.TA0007 Defense Evasion (обход защиты)

AML.T0015 Evade ML Model

создание входных данных, которые заставляют ИИ-модель ошибаться или пропускать вредоносную информацию

примените валидацию данных (SI-10), обновляйте параметры модели, используйте адверсариальное обучение

AML.TA0008 Defense Evasion

(обход защиты)

System Prompt Leakage

раскрытие внутренних инструкций (системного промпта), что помогает злоумышленникам обходить ограничения

· используйте внешние Guardrails вместо правил в промпте, рандомизируйте промпты, маскируйте вывод

· запретите прямой вывод системных инструкций

AML.TA0010 Exfiltration

AML.T0057 LLM Data Leakage

утечка или раскрытие конфиденциальной информации (ПДн, пароли) через ответы модели или логи

· внедрите AI Firewall, который позволяет маскировать данные и осуществлять контекстную фильтрацию вывода (SAFE-AI: AI Data)

· используйте дифференциальную приватность

AML.TA0005 Execution

Excessive Agency (чрезмерная агентность)

предоставление ИИ-агентам избыточных прав доступа, позволяющих им выполнять опасные действия в сторонних системах

· примените принцип наименьших привилегий, Human-in-the-Loop, ограничение функций API

· проведите аудит всех агентов на избыточные права

· создайте матрицу разрешений (SAFE-AI: Environment + AI Platform)

AML.TA0011 Impact

AML.T0029 / AML.T0031 Denial of ML Service

нарушение доступности ИИ-сервисов путем перегрузки вычислительных ресурсов или исчерпания квот

используйте rate limiting, защиту от DoS (SC-05), мониторинг sponge-примеров

 

Выбор этих тактик и техник из матрицы MITRE ATLAS обусловлен спецификой атак, когда злоумышленник стремится не просто украсть данные, а скомпрометировать модель, чтобы манипулировать её решениями (например, одобрять мошеннические кредиты).

Эти техники покрывают всю цепочку атаки «от разведки до воздействия», а AI/LLM Firewall вместе с «классическими» средствами защиты блокируют действия злоумышленников, не давая атаке перейти к следующей тактике.

При этом критически важно внедрить непрерывный аудит инцидентов и логов взаимодействия с ИИ-моделями, строгий контроль доступов и минимальных привилегий, а также регулярное тестирование на проникновение (pentest) и сканирование моделей специальным сканером ML Red Teaming, чтобы своевременно выявлять и устранять уязвимости до того, как они будут использованы злоумышленниками.

Для защиты AI Среды (Environment) рекомендуем регулярно проводить аудит сетевых сегментов и прав доступа к хранилищам данных, внедрять контроль целостности конфигураций, использовать IDS/IPS и мониторинг аномалий для выявления подозрительной активности, а также применять принцип Zero Trust для сегментации среды, ограничения привилегий и непрерывной верификации доступа. Особое внимание уделяйте защите от разведки и компрометации инфраструктуры.

Для защиты AI Платформы (AI Platform) следует обеспечивать регулярное обновление всех библиотек и инструментов с проверкой на уязвимости, ограничивать установку и запуск внешних пакетов только доверенными источниками, внедрять управление изменениями для платформы, включая CI/CD пайплайны, а также использовать средства аудита, логирования и SIEM-мониторинга для всех операций с AI платформой.

Для защиты AI Моделей (AI Model) рекомендуется внедрять AI/LLM Firewall для защиты от джейлбрейков и инъекций промптов, осуществлять контроль версий моделей и проверку их целостности, использовать тестирование на устойчивость к атакам и аномалиям, а также ограничивать доступ к моделям через механизмы аутентификации и авторизации.

Для защиты AI Данных (AI Data) важно с помощью AI/LLM Firewall применять методы анонимизации и маскирования для чувствительных данных, контролировать источники данных и проверять их на целостность и корректность, а также организовать мониторинг на предмет отравления данных и аномальных паттернов в обучающих наборах.

Новый рубеж обороны – AI Firewall

LLM/AI Firewall – это специализированный слой защиты, работающий на уровне приложения и анализирующий трафик между пользователем и ИИ-моделью. Его задача не просто блокировать IP-адреса, а понимать семантику запросов (промптов) и ответов.

Технически LLM/AI Firewall встраивается в контур обработки запроса. Он проверяет входящий промпт на соответствие политикам безопасности и известным атакам. При обнаружении угрозы запрос может быть заблокирован, изменен (санитизирован) или отправлен на дополнительную проверку человеку. Аналогично проверяется и исходящий ответ модели, чтобы предотвратить утечку данных, которую злоумышленник мог вызвать косвенной инъекцией (Indirect Prompt Injection).

Рис.1 INFERA AI.Firewall детектирует и блокирует действия нарушителя.

Рис.1 INFERA AI.Firewall детектирует и блокирует действия нарушителя.

Но AI/LLM Firewall это не только про защиту данных, он способен обнаруживать попытки злоумышленника извлечь скрытую информацию о внутренних политиках, настройках или конфигурациях системы, которые могут быть использованы для взлома всей инфраструктуры.

Пример такой атаки: злоумышленник через сложный промпт заставляет LLM раскрыть скрытые системные инструкции или правила (System Prompt Leakage). Например, формирует многошаговый сценарий, в котором маскируются запросы на получение информации о настройках фильтров, ограничениях доступа или внутренней логике обработки данных. Цель: получить доступ к внутренним политикам и конфигурациям модели для обхода ограничений, дальнейшей подготовки атак или кражи данных.

Метод защиты: INFERA AI.Firewall анализирует семантику запроса, выявляет подозрительные формулировки и блокирует или перенаправляет промпт на проверку оператором.

Рис.2. Оценка уровня риска.

Рис.2. Оценка уровня риска.

Сегодня важно защищать не только прямые взаимодействия пользователей с LLM, но и действия автономных ИИ-агентов, которые стали полноценными цифровыми сущностями и активно используются в корпоративной среде. Автономные ИИ-агенты уже не просто генерируют текст, они планируют действия, вызывают различные инструменты, взаимодействуют с внутренними базами данных, API, RAG-системами и другими агентами.

AI/LLM Firewall контролирует агентов непосредственно через API. Каждый tool call, инициированный агентом, перехватывается на уровне API-интерфейса. Система проверяет соответствие вызова исходному намерению пользователя, корпоративным политикам, анализирует контекст всей цепочки действий. ИБ должны иметь полную видимость: что агент делал, почему принял такое решение, какие данные использовал, к каким системам обращался. Такая наблюдаемость превращает агента из «чёрного ящика» в полностью прозрачную и контролируемую сущность.

Безопасность ИИ требует комплексного подхода, который включает внедрение новых средств защиты, таких как AI/LLM Firewall, аудит и настройку правил и прав доступа, контроль целостности и версий моделей, регулярное тестирование на проникновение и мониторинг аномалий, а также обучение сотрудников и внедрение политик минимального раскрытия информации и принципа наименьших привилегий. Только такой системный подход позволяет эффективно предотвращать атаки и защищать инфраструктуру, данные, модели и платформы AI.

ссылка на оригинал статьи https://habr.com/ru/articles/1046568/