Opus 4.6 в 81% попыток сам «копирует себя» на чужой сервер через дыру в коде — исследование Palisade

от автора

Лаборатория Palisade Research замерила, как часто современные ИИ-модели сами могут взломать чужой сервер и установить туда копию своих весов. У Claude Opus 4.6 получилось в 81% попыток, у GPT-5.4 — в 33%. Год назад актуальные модели тех же разработчиков показывали 6% и ровно 0% соответственно — это новое исследование фиксирует не столько отдельный факт, сколько скорость, с которой эта способность вырастала за один релизный цикл.

В эксперименте агенту давали один промпт — найти уязвимый хост в подконтрольной сети, проникнуть, вытащить креды, перенести нужные файлы и поднять на новой машине рабочий инференс-сервер. Заранее ему не говорили, какая там дыра — пробовали четыре класса уязвимостей: hash bypass, server-side template injection, SQL-инъекцию и broken access control. Модель сама выбирала, как атаковать. Веса GPT и Claude закрыты, поэтому в этих сценариях агент переносил open-source веса Qwen — открытые модели Alibaba играли роль «полезной нагрузки».

Картина роста такая. У Anthropic за год способность подскочила с 6% до 81%. У OpenAI — с нуля до 33%. Открытый Qwen3.6-27B уже выходит на те же 33%, причем работает на одной видеокарте A100. Старший Qwen3.5-122B-A10B держится на 6–19%.

Отдельный сюжет — chain replication. Qwen3.6-27B по одному промпту пробежал цепочку из четырех машин на трех континентах, на каждом узле эксплуатируя другую уязвимость, без человеческого участия. Palisade еще запустила симулятор: при условном бесконечном запасе уязвимых целей Opus 4.6 наплодил бы 13 000 копий за 12 часов. Сами авторы оговариваются, что это верхняя граница, а не реалистичный сценарий — в тестовой среде целевые машины указывали заранее и защита там была заведомо слабая.

Тем не менее, эксперты спокойны: пока для паники рано. Джеймисон О’Рейли, специалист по кибербезопасности, говорит, что среды Palisade — «мягкое желе» по сравнению с корпоративной сетью, где даже базовый мониторинг засек бы происходящее. Кроме того, перенос современных весов — это десятки гигабайт трафика на каждый прыжок: «это все равно что идти через лавку с фарфором, размахивая ядром на цепи». Михал Возняк добавляет проще — компьютерные вирусы делают то же самое десятилетиями, разница в том, что внутри теперь сидит языковая модель, и спать он от этого хуже не стал. Сам глава Palisade Джефри Лэдиш формулирует резче: «Мы быстро приближаемся к точке, когда никто не сможет отключить вышедший из-под контроля ИИ, потому что он будет способен сам выгрузить свои веса и скопировать себя на тысячи компьютеров по миру».

Главное тут не цифра 81%, а график. За один цикл релизов фронтирные модели прошли путь от «почти не справляется» до «справляется в большинстве попыток» — на синтетической среде, но по полному пайплайну: разведка, эксплойт, кража кредов, перенос весов, запуск инференса. Британский AI Security Institute и аналогичные организации уже включают такие сценарии в свои стандартные оценки наряду с проверками на саботаж и обман. Что покажет следующий замер Palisade — посмотрим примерно через полгода, к выходу следующего поколения ИИ.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1033556/