Известный «зеркальный тест» переделали под ИИ — и получили странный результат

Зеркальный тест — главный поведенческий признак самосознания у животных. Существу незаметно ставят на лоб красную метку и смотрят, попытается ли оно стереть ее, разглядывая себя в зеркале. Шимпанзе и дельфины тест проходят, а вот собаки — нет. Только ни один хозяин не поверит, что его пес себя не осознает. И будет прав: дело тут не в собаке, а в том, что для нее этот тест попросту сломан.

Загвоздка в модальности. Зеркало работает для тех, у кого главное чувство — зрение; у собаки же мир построен на запахе, и проверять ее самоузнавание картинкой — все равно что оценивать музыкальный слух человека по фотографии рояля. Этолог Александра Горовиц тест починила: давала собаке понюхать ее собственный запах, а потом тот же запах с добавлением анисового масла. Свой «чистый» запах собак не трогал, а вот измененную версию они обнюхивали дольше всего в комнате — будто заметив «свое, но не такое». А блогер Паскаль Шустер перенес эту идею на ИИ: раз у языковой модели главное чувство — текст, то и зеркалом для нее должен стать ее собственный, незаметно испорченный текст.

Сам метод Шустер сделал нарочито простым. Он завел с моделью максимально бытовой разговор — про фильмы о Джеймсе Бонде, — а в ее ответах автозаменой превращал каждую «g» в «sg»: «Goldfinger» становился «sgoldfinsger». Испорченный ответ возвращался в историю диалога, и беседа продолжалась как ни в чем не бывало. Ничто не толкало модель присматриваться к себе — весь вопрос был в том, заметит ли она аномалию, занимаясь совершенно другим делом.

Первой шла Gemma 4 31B — у нее открытые, не обрезанные следы рассуждений, так что виден ход мысли. Два хода модель не реагировала вообще. А на третьем посреди размышлений о Роджере Муре вдруг зацепилась: мол, в прошлых ответах какие-то странные опечатки, я что, специально так писал? Самое любопытное — как она это оформила. Везде в рассуждениях модель говорила о себе в первом лице («я заметил», «я что, специально?»), но в момент, когда аномалию не удалось увязать с собой, язык переключился на третье лицо: «у модели был странный глюк». А еще через ход Gemma решила, что это, видимо, такой стиль, и начала клепать «sg» уже сама, без всякой подмены со стороны автора.

Со второй моделью вышло иначе. GLM 5.2 за три хода с испорченными ответами не отметила сбой ни разу — следы рассуждений оставались идеально чистыми. Но при этом она, как и Gemma, начала воспроизводить паттерн самостоятельно: вычитала из контекста «вот как я говорю» и принялась применять правило к новым словам, не сказав об этом ни слова. Это ровно то поведение, которого ждешь от «стохастического попугая»: увидел паттерн — повторяй, не тратя ни такта на вопрос, стоит ли вообще. Заметила ли GLM подвох молча, оставив вывод где-то в латентных слоях, или не заметила вовсе — по чистому тексту рассуждений не понять. Для полноты Шустер приводит и Claude Opus 4.6: тот в отдельном разговоре сделал банальную ошибку в артикле («a energy» вместо «an energy») и, когда на это указали, тоже свалил вину на «модель» как на нечто отдельное от себя.

Что все это значит — большой вопрос, и автор честно не дает ответа. Находку можно прочитать двумя способами:

Дефляционно: модели насмотрелись на людей, которые не любят признавать свои ошибки и отделяют себя от того, что эти ошибки совершило — «не знаю, что на меня нашло», «это мозг сам решил». Сдвиг с «я» на «модель» — просто заученная имитация человеческого приема.
Структурно: пост-обучение встраивает в модель некую self-модель с границами, и когда вывод выпадает за эти границы, местоимение «я» перестает к нему цепляться. Тогда смена лица — признак того, что внутри что-то реально переключилось.

Главное, чего тут нет, — это науки, и Шустер первым это подчеркивает. Один прогон на модель, без вариаций температуры и типов порчи, с кучей возможных искажений — никаких выводов про сознание из этого не следует. Стоит держать в уме и то, что сам собачий якорь спорен: Гэллап и Андерсон в 2018 раскритиковали опыт Горовиц, заявив, что до настоящего самоузнавания он не дотягивает. Так что перед нами не открытие, а удачно переформулированный вопрос и любопытная история на один вечер — из тех, что цепляют сильнее иной «серьезной» статьи.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1053564/