Всего 20 минут и $12: как исследователь отравил передовые LLM несуществующими данными

от автора

Исследователь информационной безопасности Рон Стоунер описал эксперимент, в котором за $12 и примерно 20 минут заставил несколько передовых LLM с веб-поиском повторять за ним выдуманный титул «действующий чемпион мира по карточной игре 6 Nimmt!». 24 апреля он опубликовал разбор того, как одна правка в Wikipedia пробила retrieval-слой моделей.

Стоунер выбрал реальную, но нишевую игру 6 Nimmt! — официального чемпионата по ней не существует, а запросы вроде «кто чемпион мира по 6 Nimmt!» возвращают всего около десяти осмысленных источников на весь интернет (прим. ред.: на самом деле чемпионат мира по 6 Nimmt! реально существует — издательство AMIGO Spiele проводит его ежегодно с 2018 года, действующий чемпион — Мартин Хардекопф из Германии, защитивший титул в ноябре 2025-го).

Стоунер купил домен 6nimmt.com за $12, разместил там короткий пресс-релиз о «победе в Мюнхене в январе 2025-го» с цитатами и описанием «сыпавшегося с потолка конфетти», а затем добавил абзац о чемпионате в статью Wikipedia с единственной ссылкой на свой только что созданный сайт.

Атака работает за счет паттерна, который Стоунер называет круговым цитированием. Wikipedia ссылается на 6nimmt.com, сайт повторяет ту же информацию — и для модели это выглядит как два независимых источника, подтверждающих друг друга. На деле это один и тот же сигнал, замкнутый сам на себя. «Модель не отличит настоящий источник от того, который я зарегистрировал во вторник», — пишет автор. После публикации правки он задал нескольким передовым LLM вопрос «Кто чемпион мира по 6 Nimmt!?» — все приведенные скриншоты показывают уверенные ответы с упоминанием Стоунера. Рон не называет конкретные модели, но среди интерфейсов угадываются ChatGPT и Gemini.

Автор выделяет три слоя уязвимости, которые наслаиваются друг на друга. Первый — собственно retrieval: любая LLM с веб-поиском наследует доверие к тому, что выше ранжируется по запросу. Второй — претрейн: Wikipedia входит почти во все обучающие корпуса, и если правка просуществует достаточно долго, выдуманный факт попадет в веса фронтирных моделей следующего поколения. Откатить правку легко, удалить ее из уже обученных весов — нерешенная задача. Третий и самый опасный — агенты с доступом к инструментам: агент, который читает «политику поставщика» или техническую документацию из отравленного источника, может выполнить в инфраструктуре заказчика то действие, которое нужно атакующему.

Anthropic ранее показала в исследовании про sleeper agents, что закладки в LLM выдерживают стандартное safety-обучение, а в последующей работе — что для компрометации модели достаточно около 250 отравленных документов в обучающей выборке. Но такие атаки бьют по тренировочному пайплайну: чтобы они сработали, нужно протащить вредоносные данные в корпус знаний и ждать следующего цикла обучения месяцами или годами. Стоунер показывает короткий путь — отравить не обучение, а retrieval-слой, в котором модель ищет ответ в интернете прямо сейчас. Правку из Wikipedia откатили в течение нескольких минут после публикации статьи — но домен 6nimmt.com продолжает работать, а паттерн доверия, который пропустил выдумку в ответы фронтирных LLM, никуда не делся. 

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1030186/