LLM/AI Firewall и Agent Runtime Security: как защитить корпоративных ИИ-агентов в 2026 году

В 2025–2026 годах компании массово переходят от простых чат-ботов к автономным ИИ-агентам. При этом агенты не просто отвечают, а выполняют реальные действия: работают с почтой, базами данных, API, кодом и даже запускают цепочки задач в мультиагентных системах.

Вместе с возможностями пришли новые риски. Классические средства защиты – WAF, DLP и даже первые поколения LLM Firewall оказались недостаточными. Появилось новое направление – Agent Runtime Security. В этой статье разберём, почему так произошло, как эволюционировала защита ИИ систем и как с задачами справляется INFERA AI.Firewall, в котором уже реализованы ключевые элементы этой парадигмы.

Проблематика использования ИИ в корпоративной среде

Переход к агентам кардинально меняет поверхность атаки. Если раньше угрозы ограничивались генерацией вредоносного текста или утечкой через промпт, то теперь агент может выполнить tool call с реальными последствиями (отправить деньги, изменить данные в CRM, запустить код на сервере), получить отравленные данные через RAG или ответы инструментов (indirect prompt injection), отклониться от изначальной цели пользователя, «заразить» соседние агенты или создать каскадные отказы.

Согласно данным OWASP Top 10 for Agentic Applications за 2026 год, среди ключевых угроз для ИИ-агентов выделяются злоупотребление инструментами и компрометация привилегий, отравление памяти агента и отравление данных в RAG-системах, подмена идентичности агентов и отравление их межагентных коммуникаций, появление агентов-изгоев вместе с каскадными отказами в системе, а также нарушение исходного намерения пользователя и манипуляция целями агента.

Простая фильтрация промптов больше не даёт достаточного уровня доверия, т.к. важно контролировать работу как на уровне «вход–выход модели», так и когда агент принимает решение о вызове какого-либо инструмента.

Появился новый слой защиты в концепции Agent Runtime Security. Некоторые компании делают отдельные продукты, другие развивают функционал LLM/AI Firewall, добавляя runtime-слой, который контролирует агента не только на уровне текста, но и на уровне действий, идентичности и состояния.

Ключевые требования к современным решениям по безопасному использованию ИИ-агентов:

контроль каждого tool call с least privilege и политиками (allow/deny/pending);
анализ не отдельных промптов пользователя и агента, а полных цепочек рассуждений и действий;
идентичность и межагентная аутентификация в multi-agent архитектурах;
защита целостности памяти и контекста работы агента;
полный контроль и логирование всех действий.

При внедрении защиты ИИ-агентов в корпоративной среде рекомендуем придерживаться следующих принципов.

Обязательные технические требования к решениям:

перехват каждого вызова инструментов и применение к ним политики наименьших привилегий;
изоляция выполнения (sandbox / micro-VM);
определение высокорисковых действия и их подтверждение пользователем (Human-in-the-Loop).

Практические шаги внедрения:

провести аудит всех текущих агентных систем (какие фреймворки, какие инструменты, как запускаются);
внедрить логирование действий и рассуждений агентов, как минимум для контроля вызова критичных инструментов и команд;
регулярно проводить Red Teaming, включая сценарии проверки агентов;
определить политики подтверждения (Human-in-the-Loop) для действий с финансовыми и критическими последствиями.

Как эти задачи решаются в INFERA AI.Firewall

INFERA AI.Firewall развивается в сторону Agent Runtime Security, уже закрывает значительную часть требований и находится в активной разработке по оставшимся направлениям.

В INFERA AI.Firewall контроль работы агентов построен вокруг единого API-шлюза и специального модуля для контроля агентов. Все обращения агента к модели и вызовы инструментов проходят через этот центральный модуль системы. Дополнительно защищаются взаимодействия по протоколу MCP: gateway контролирует все запросы к LLM.

На каждом вызове последовательно отрабатывает защитный конвейер. Сначала выполняется инспекция входных данных, далее запрос проверяется движком политик и реестром доверия. Затем MCP-прокси анализирует аргументы вызываемого инструмента, разрешён ли сам инструмент. В конце выполняется инспекция выходных данных, если такая политика включена: осуществляется фильтрация утечек информации, поиск секретов и других чувствительных данных.

Дополнительно, как и в случае с ограничением для сотрудников можно задать ограничения по частоте и общему количеству токенов, чтобы ограничить затраты на работу агента и противодействовать атакам на отказ в обслуживании и неконтролируемому расходованию ресурсов.

Для экономии на использовании LLM для агентов также, как и для людей, можно использовать ML-определяемый роутинг, чтобы маршрутизировать запросы на разные модели в зависимости от сложности запроса. Для того, чтобы при этом не ухудшать результаты, необходимо грамотно управлять контекстом.

Архитектура строится вокруг центрального модуля AI.Firewall, к которому подключаются четыре функциональных класса компонентов:

pre-deployment контур: сканеры навыков, Red Teaming, аудит конфигураций;
перехватчики (pre/post-tool) и gateway позволяют контролировать каждый вызов инструмента с вердиктом allow/deny/log;
инлайн MCP-прокси для проверки аргументов вызова и контроль чувствительных данных;
блок изоляции: песочница для контроля действий агента.

Конвейер контроля выглядит следующим образом: все вызовы агента и LLM проходят через INFERA AI.Firewall, а дополнительно на каждом шаге отрабатывается:

инспекция входа (prompt injection, jailbreak, вредоносные инструкции),
сверка с движком политик и реестром доверия,
перехват вызова с вердиктом,
проверка аргументов в MCP-прокси,
инспекция выхода (фильтрация утечек, редакция секретов).

Итого: INFERA реализует контроль вызова инструментов, изоляцию и сквозную наблюдаемость. Контроль реализован на уровне всех точек взаимодействия от LLM до агента и до инструментов. Решение принимается до исполнения действия агентом. Дополнительно работают квоты.

Поэтому видно, что делал агент, какие данные использовал, к каким системам обращался, какое решение принято и на основании какой политики.

Покрытие угроз OWASP для агентов

OWASP Top 10 for Agentic Applications (2026)	Реализация в INFERA AI.Firewall (на июнь 2026)
Tool Misuse	Перехват вызовов + MCP-прокси
Privilege Compromise	RBAC + least-privilege в политиках
Repudiation & Untraceability	Привязка действия к навыку + трассировка
Unexpected RCE & Code Attacks	Micro-VM песочница
Memory Poisoning	Сканеры + инспекция I/O
Intent Breaking & Goal Manipulation	Детект инъекций
Identity Spoofing	Брокер контроля секретов + реестр доверия
Rogue Agents (мультиагент)	Реестр доверия + изоляция

INFERA AI.Firewall обеспечивает полноценное покрытие наиболее критичных угроз, связанных непосредственно с выполнением действий агента: злоупотреблением инструментами, эскалацией привилегий, невозможностью отречения от действий и выполнением опасного кода.

Сегодня важно понимать, что внедрение ИИ-агентов в корпоративную инфраструктуру – это уже не просто запуск новой технологии, а появление новых цифровых сущностей со своими правами, поведением и рисками. При планировании таких проектов рекомендуется обращать особое внимание на несколько ключевых аспектов.

Во-первых, необходимо провести полную инвентаризацию всех агентных систем, включая shadow-агентов, которые могли появиться в подразделениях без участия ИТ и безопасности. Во-вторых, при выборе защитных решений приоритет стоит отдавать тем, которые обеспечивают pre-execution контроль действий агента, а не только анализ промптов. В-третьих, критически важно обеспечить сквозную трассируемость: каждая цепочка рассуждений и действий агента должна быть зафиксирована и доступна для аудита и расследования.

Отдельное внимание стоит уделить управлению идентичностью агентов и разграничению их полномочий. Агент не должен иметь больше прав, чем необходимо для выполнения конкретной задачи, а в multi-agent системах должна быть реализована возможность взаимной аутентификации. Также стоит заранее продумать механизмы изоляции выполнения и процедуры Human-in-the-Loop для действий с высоким уровнем риска.

Наконец, при внедрении ИИ-агентов рекомендуется сразу закладывать регулярные практики Red Teaming, ориентированные именно на агентные сценарии. Это позволяет выявлять слабые места до того, как они будут использованы в реальной атаке.

ссылка на оригинал статьи https://habr.com/ru/articles/1053878/