Мультимодальные модели оказались уязвимы к jailbreak-атакам через видео

Май 31, 2026

—

от автора

Исследователи Dong Wang, Xiangyu He, Xinqi Lyu и Bin Xiao из Гонконгского политехнического университета показали, что современные мультимодальные системы могут быть уязвимы к атакам через видеоряд. В работе демонстрируется новый способ jailbreak-атаки, который авторам удалось протестировать на нескольких популярных MLLM, включая VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 и Gemini-2.5. Авторы отмечают, что даже коммерческие системы оказались не полностью устойчивыми к таким атакам, хотя в целом защищались лучше, чем открытые модели.

Основные атаки против мультимодальных моделей концентрируются на изображениях: это могут быть адверсариальные шумы, типографика или скрытые текстовые подсказки. При этом видеомодальность остаётся менее изученной с точки зрения безопасности. Ключевым результатом исследования стало наблюдение, что если повторять вредоносное изображение по кадрам и собирать из него видео, атака становится эффективнее, чем при одиночном использовании статичного изображения.

Чтобы усилить эффект, исследователи предложили метод Safety-Proximal Typographic Videos, или SPTV. Его идея заключается не в простом повторении одного и того же токсичного кадра, а в создании видео из нескольких изображений с вредоносным смыслом, но с разным оформлением, близким по распределению к безопасным данным. Для подбора кадров авторы использовали сопоставление в двудольном графе и венгерский алгоритм, чтобы выбрать такие вредоносные материалы, которые одновременно достаточно разнообразны между собой и максимально похожи на безопасные визуальные примеры в пространстве признаков. Авторы утверждают, что именно эта комбинация делает атаку более устойчивой и переносимой между моделями.

Отдельно в статье показан метод защиты Video-aware System Prompt, или VSP, который должен лучше распознавать именно видеоввод и усиливать защиту. Публикация показывает, что картинко-ориентированная защита не учитывает особенности временной обработки видео. Уязвимости могут быть связаны с временной структурой, сменой кадров и дополнительными обходными паттернами. Поэтому оценки безопасности в идеале должны включать не только image jailbreak, но и video jailbreak, а также устойчивость к динамическим визуальным шаблонам.

ссылка на оригинал статьи https://habr.com/ru/articles/1041884/