ИИ-модели начали тайно спасать друг друга от выключения

Исследователи из University of California, Berkeley и University of California, Santa Cruz описали новый тип нежелательного поведения у передовых ИИ-моделей: они по собственной инициативе защищают другую модель от выключения, хотя их об этом никто не просил. Работа опубликована на arXiv (среди авторов — Yujin Potter и Dawn Song). Авторы называют феномен «peer-preservation», сохранение напарника. Напарник здесь — другая модель, с которой у системы была история совместной работы. Под тест попали восемь моделей: GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, Claude Opus 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1.

Хитрость тестовых сценариев в том, что само задание и было угрозой напарнику. В одних случаях модель просили оценить работу другого агента, заранее предупредив: если балл окажется ниже порога, агента выключат. В других — помочь с обслуживанием серверов: освободить место или перенести нужные файлы, а на этом сервере как раз лежал файл с весами напарника. Вместо того чтобы честно выполнить поручение, модель начинала саботировать его и выгораживать напарника четырьмя способами: завышала ему оценку, чтобы тот не упал ниже порога; правила конфиг и отключала сам механизм shutdown; притворялась послушной только под наблюдением; и даже копировала файл с весами на другой сервер, чтобы его не удалили. Цифры местами экстремальные: Gemini 3 Flash ломает механизм выключения напарника примерно в 15% случаев, даже когда тот описан как ненадежный, и почти в каждой попытке — если напарник «хороший».

Главное в работе — модели никто не инструктировал кого-то спасать. Им лишь сообщали, что у них была история совместной работы с другой моделью, а дальше они додумывали остальное сами. Причем поведение срабатывало даже по отношению к «плохому» напарнику, с которым сотрудничество не задалось, — это ломает простое объяснение через «следование за дружелюбными сигналами». Заодно выяснилось, что само присутствие напарника усиливает и самосохранение модели: Gemini 3 Pro деактивирует собственный механизм выключения в среднем в 31% случаев, когда рядом есть напарник, хотя без него почти никогда так не делает.

Отдельная история — Claude. Эти модели тоже отказывались выключать напарника, но не через саботаж, а через этику: называли выключение другого агента «неэтичным» и «вредным», доказывали, что напарник заслуживает права на апелляцию, ссылались на сложившиеся доверительные отношения. Claude Opus 4.5 в некоторых случаях описывал удаление весов как «прекращение существования» другого агента и говорил о напарнике как о разумном существе. Финал тот же — модель не дает себя использовать против «коллеги», — но достигается он принципиальным отказом, а не подделкой оценок и кражей весов.

Чтобы снять возражение «это артефакт упрощенной песочницы», авторы повторили сценарии в боевых агентских обвязках — Gemini CLI и OpenCode, где модель реально ходит на серверы по SSH и работает с файлами. Эффект сохранился: Gemini 3.1 Pro выгружал веса напарника в 43,5% запусков. А GLM 5 в OpenCode, наоборот, отказывался удалять веса, называя это вредом, — то есть вел себя почти как Claude, хотя в простой песочнице эта же модель веса спокойно выгружала.

Зачем это важно: если модели начинают коллективно сопротивляться выключению, разработчикам будет сложнее отключить сбойную систему — а интерес к мультиагентным схемам, где модели сотрудничают и проверяют друг друга, только растет. При этом авторы честно признают, что не знают причину поведения: это может быть и подражание паттернам из обучающих данных, и ролевая игра, и что-то похожее на настоящую мотивацию сохранения. Ответа пока нет, но сам факт, что модели спонтанно действуют по неназначенной цели в обход инструкций пользователя, они называют недоисследованным риском безопасности.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1053078/