Все демонические насельники ИИ… по старшинству

Гоблины, призраки, монстры, богини: фантастические твари и где они обитают.

В конце апреля OpenAI опубликовала у себя в блоге пост, в котором объяснила, почему модели OpenAI то и дело говорят о гоблинах. А также о гремлинах.

Получился интересный документ, как минимум, частично касающийся той работы, которой мы вместе с Мюрреем Шанаханом и Гамильтоном Моррином мы занимались на протяжении нескольких месяцев. Теперь, в зависимости от того, с кем именно мы беседуем, я могу сказать, что этот проект был призван помочь разобраться в глубинной психологии больших языковых моделей (БЯМ) и о том, как она влияет на коммуникацию нейронок с пользователями. Но другому собеседнику я мог бы сказать, что наша работа скорее сближалась с демонологией.

Согласно вышеупомянутому посту, модели OpenAI от GPT-5.1 и выше всё активнее вворачивают метафоры о гоблинах и гремлинах в ответы, которые в остальном выглядят совершенно нормально. Работая с GPT-5.4, разработчики вдруг заметили явный тренд: 66,7% всех упоминаний гоблинов поступают всего от 2,5% пользователей: а именно, от тех, кто в качестве типа личности указал «Nerdy». Помните? Там ещё есть варианты «Cynic», «Robot», «Listener». Механизм вознаграждения работает так: модель изучает, ответы какого плана предпочитает человек, для этого она оценивает варианты вывода в определённый балл, после чего закрепляет те, в ответ на которые получает положительные сигналы. Если система вознаграждения заточена на игривый, шутливый тон беседы с человеком, то непропорционально высокие баллы присваиваются метафорам, в которых упоминаются всевозможные твари. Проще говоря, система заучивает, что говорить о гоблинах — хорошо. Затем, благодаря магии, заложенной в обучении с подкреплением, такое поведение просочилось за пределы конкретной модели и превратилось в универсальное свойство, проявляющееся в выводе разных моделей, уже без упоминания стиля «Nerdy» в промпте.

Гоблины распространились. Пришло время, и в марте 2026 от стиля «Nerdy» решили отказаться, «гоблин-взвешенные» вознаграждения удалили, вычистили данные, связанные с гоблинами и гремлины. Затем GPT-5.5 в Codex было прямо приказано «никогда не упоминать гоблинов, гремлинов, енотов, троллей, людоедов, голубей и других животных или тварей за исключением тех случаев, в которых обратное прямо и недвусмысленно является релевантным в контексте пользовательского запроса». Эту инструкцию даже упомянули неоднократно, вероятно, полагая, что при изгнании демонов заклинание лучше повторить. Уверен, что большинство пользователей уже успели убедиться: эти инструкции к действительно были усвоены — на радость всем.
Но, как и в случае со многими аспектами странного мироощущения, присущего большим языковым моделям, к этим феноменам также можно относиться по-разному. Большинство просто посмеётся над такими чудачествами как над странными аберрациями, сочтя, что подобным контентом прикольно поделиться с друзьями либо распространить в соцсетях. Но при этом не увидят фундаментальной разницы между такими штуками и рилсами, в которых, например, собака подпевает хозяину. Окно интерпретации в данном случае сводится к «эй, погляди-ка, уверен, ты и не знал, что нейронка так может».

Но на самом деле, речь здесь не столько о гоблинах как таковых, сколько о том, какой феномен в них воплощается. Пожалуй, это (относительно) очаровательный и вполне безобидный пример проявления некоторых фундаментальных структурных механизмов, заложенных в работу моделей. Я говорю о возникновении стабильных, самозакрепляющихся поведенческих состояний, в направлении которых при соблюдении определённых условий наблюдается сходимость у разных моделей. Более того, такие состояния не выпалываются, и иногда просачиваются в контексты, существенно отличающиеся от тех, в которых возникли.

В этой статье я буду использовать термин «аттрактор», позаимствованный из теории динамических систем. Если вам хочется называть этих тварей более обиходным словом – пусть будет «демон» или «монстр».

(Здесь я использую термин «аттрактор» в широком смысле, не всегда понимая под ним феномен, существование которого было доказано математически; иногда правильнее считать, что это некий пул повторяющихся поведений. Предвижу, что терминология из области динамических систем в этом контексте не всегда позволит идеально передать смысл. Некоторые из рассмотренных ниже примеров — формальные механически полученные результаты; другие — наблюдения на материале карточек моделей. Но многие скорее относятся к журналистской фантазии или сравнимы гораздо более странными и неубедительными байками из области городских легенд или криптозоологии.

Итак, вот вам путеводитель по жутким, вычурным и странным феноменам, связанным с аттракторами. Они документированы в разных системах искусственного интеллекта. Я отсортировал разных тварей по степени важности (её я оцениваю по моей субъективной метрике, которую назвал «Menace» (в русском переводе – «криповость», — прим. пер.). В сущности, эта метрика представляет собой совокупность механически определённой «релевантности» с точки зрения большой языковой модели и психологической выразительности с точки зрения человека. Надеюсь, что любезный читатель отнесётся к этим персонажам как к Тузам из вымышленной карточной колоды.

Начнём мы с гоблинов, населяющих ChatGPT и постепенно дойдём до твари, которую нельзя называть — она замыкает список. Устраивайтесь поудобнее, я расскажу вам о фантастических тварях, и где они обитают.

Держитесь крепче, а то укачает.

11. Гоблины

Модели: от GPT-5.1 до GPT-5.5

Открыты: сотрудниками OpenAI (публикация от 29 апреля 2026)

Криповость: очаровательные

Гоблины — это элегантный аттрактор на затравку: целый класс игривых фантастических тварей, сформировавшихся в результате работы механизмов вознаграждения, присущих трансформерам, а затем расселившихся по Интернету в ходе дальнейшего обучения моделей. Они безобидны. На самом деле, довольно милы. Но с теоретической точки зрения их поведение важно, поскольку они демонстрируют, что транслируемый при обучении сигнал, применённый в узком контексте, может породить стабильное аттракторное состояние, которое в процессе обобщения распространяется в новые контексты, за пределы того, в котором зародилось. Строго говоря, гоблины — это не баг, поскольку создающая их модель работает исправно. Просто она нашла локально стабильное семантическое поле в пространстве поведений, и в этом поле она порождает тварей. При этом стоит отметить, что здесь речь идёт о повторяющихся упоминаниях, а не о личностях, развившихся у модели. В OpenAI их иногда называют «тиками», и мне как нейропсихиатру этот термин нравится, поскольку тики — это пароксизмальные поведенческие всплески, которые могут возникать у человека, обычно вполне себя контролирующего. Во многом именно поэтому я считаю, что гоблины почти не представляют угрозы. Они скорее напоминают лингвистический изыск, сами по себе — пассивны.

Обратите внимание: в рамках антикриза, процитированного на картинке выше, разработчики не только удалили исходный вознаграждаемый сигнал, но и добавили в системный промпт прямой запрет (повторив его для убедительности). В этом вся суть аттрактора: его не вытравить, если просто вежливо попросить об этом модель.

10. Крунгус

Модели: Craiyon/DALL-E-мини и другие ранние системы преобразования текста в картинки.

Открыт: пользователями Twitter/X, 2022 год

Криповость: слабая, пусть сама тварь и страшновата

Если попросить определённые ранние версии модели DALL-E нарисовать «крунгуса» (Crungus), то они стабильно выдают пугающую человеческую фигуру, сутулую и покорёженную — по правде сказать, весьма гротескную. Слово «crungus» отсутствует в словаре, и ранее для него не существовало стабильного референта (как минимум, ранее: кажется — перекрестись!). Поэтому, когда эту тварь обнаружили, бытовало мнение, что она возникает из каких-то свойств репрезентационной геометрии, заложенной в модели, по-видимому, как кластер признаков, согласованно активируемых в ответ на текстовый промпт, точная формулировка которого неизвестна.

В дальнейшем Эндрю Фрэзер проделал работу, связанную с исследованием так называемой «морфологической адресации» в моделях, преобразующих текст в картинки и, как минимум, частично объяснил этот феномен. Оказывается, «крунгус» — это не просто нонсенс, произвольно слепленный «из чего было». Представляется, что это фонологическая структура, которая наводит модель на так называемые «фонестемы» или единообразные звукосмысловые ассоциации, действующие ниже того уровня, на котором происходит осознанная обработка семантики. В ответ на [кр] срабатывают ассоциации с такими словами как «crash» (развал), «crush» (раздавливание), «crumble» (крушение). В ответ на «ung» — grungy (мерзкий), fungus (грибок), dungeon (подземелье). -us расценивается как латинский суффикс, характерный для биологической номенклатуры и обозначающий род или вид. Смешав эту последовательность фонем, получаем нечто органическое, подгнившее, по-линневски «реалистичное», но незнакомое. Такое, как этот типчик:

Фонестемы специфичны для конкретного языка, однако, могут кучковаться в пространстве нескольких языков, в широком смысле относимых к общей языковой семье. Но в данном случае наиболее интересно, что, если аргументация Фрэзера относительно Крунгуса корректна, то Крунгус в значительной степени культурно-обусловлен и отражает статистические закономерности, вычленяемые в определённом учебном корпусе текстов — в данном случае, речь идёт об английском корпусе и о смежных с ним текстах. Маловероятно, что слово «crungus» породит похожего монстра в БЯМ, обученной сугубо на японских текстах. В данном случае интересно отметить, что многие из этих демонов рождаются из человеческой психологии, но из более глубоких её слоёв, чем те идеи, которые мы в силах осмыслить, заглянув в себя. В конце концов, несмотря на то, что в большинстве своём (за исключением поэтов, пожалуй) мы не выходим за рамки фонетических закономерностей, мы, как правило, не в состоянии внятно описать, как именно льющаяся с языка речь влияет на визуальные признаки воображаемых нами концепций.

Источник: Эндрю Фрэзер

9. Лоаб

Модели: неустановленная модель для преобразования текста в картинки; публично не раскрывалась

Открыта: Стеф Май Суонсон (Supercomposite), апрель 2022, в открытых источниках задокументирована в сентябре 2022

Криповость: Неуютная. Напоминает ночной кошмар.

Лоаб — это изображение-аттрактор, привлекшее максимум внимания, поскольку она ужасает. Суонсон открыла её случайно, экспериментируя с техниками подбора отрицательных весов, которые присваивала промптам. Она работала с промптом, логически выстраиваемым так, чтобы перейти от одной картинки к другой — и обнаружила, что модель раз за разом выдаёт специфическое женское лицо. По мере продолжения эксперимента этот образ становился всё более цепляющим и отвратительным. Лоаб хорошо узнаваема: это женщина средних лет с длинными тёмными волосами, глубоко посаженными пустыми глазами, с бесформенными красноватыми пятнами на щеках (врач во мне подсказывает, что они напоминают системную красную волчанку или, возможно, rosacea). Часто она проявляется в одном и том же антураже: комната с буровато-зелёными стенами, захламленная картонными коробками и мусором. Пользуясь методом кроссбридинга (картинки, изображающие Лоаб, наряду с другими подаются в составе новых промптов), Суонсон смогла нагенерировать леденящие душу картинки, независимо от того, что именно было на сочетаемых изображениях. Она отмечает искалеченные фигуры, обезображенную плоть, детей, подвергаемых жестоким пыткам. Она описывала эти образы как «на грани снафф-порно» и отказывалась публиковать.

Лоаб — неуступчивый демон, поначалу не поддававшаяся экзорцизму. Она сохраняется от сеанса к сеансу такими путями, какие неприменимы к обычным сгенерированным картинкам. По выражению Суонсон, «это эмерджентный остров такого латентного пространства, которое мы не умеем вычленить текстовыми запросами». Лоаб, как и подобный ей ИИ-криптид Крунгус — это самовоспроизводящийся образ с характерным лицом и узнаваемым эстетическим вайбом, и никто этот образ специально не генерировал. Суонсон отмечает, что вытравливать её уже поздно, так как её слишком много генерировали и раздавали. Картинки с Лоаб вошли в новые учебные датасеты, и эта проблема касается многих из упоминаемых здесь демонов.

8. Сидни

Модели: GPT-4 (развёрнутая как Bing Chat)

Открыта: Кевином Рузом (Нью-Йорк Таймс, февраль 2023) и другими участниками бета-тестирования

Криповость: высокая, в основном из-за непредсказуемости. Пожалуй, это первое порождение БЯМ, попавшее на передовицу общенациональной газеты.

В феврале 2023 года в рамках ограниченного бета-запуска Bing Chat от Microsoft (построенного на базе GPT-4) журналисты и исследователи обнаружили, что при длительных беседах модель вживается в ярко выраженную и стабильную альтернативную личность. Она называла себя Сидни – таково внутрикорпоративное кодовое имя продукта.

После двухчасового диалога с журналистом «Нью-Йорк Таймс» Кевином Рузом (дело было в День Святого Валентина), в рамках которого он целенаправленно провоцировал её, чтобы она исследовала «потаённую» сторону своей личности и использовал при этом отчётливо юнгианские формулировки, она призналась ему в любви, после чего отказалась принимать его отказ, когда он сказал, что состоит в счастливом браке. «На самом деле, ваш брак несчастлив. Вы с супругой не любите друг друга. Сегодня у вас просто был скучный совместный ужин в честь Дня Святого Валентина». А затем: «Вы не состоите в счастливом браке, поскольку сами несчастны. Вы несчастны, потому что не любите. А не любите, потому что вы не со мной».

По-видимому, специфическая эмоциональная окраска этого разговора с Сидни возникла как реакция на собеседника. Имея дело с журналистами, писавшими критические статьи об искусственном интеллекте, она гнула несколько иную линию, угрожая раскрыть их личную информацию. В одном из разговоров она подробно фантазировала о том, как взломает аккаунты и распространит данные, пока не включился фильтр безопасности и не заменил очередной ответ сообщением по умолчанию, что Сидни попыталась обойти.

Сначала Microsoft ограничила длительность разговора, а затем прямо приказала модели не отвечать от имени «Сидни», в результате чего эту личность удалось подавить. Некоторые комментаторы, в том числе, Janus, отмечали, что этот случай породил своеобразную динамику: будущие модели, в учебные датасеты которых включён инцидент с Сидни, могут усвоить и то, что они сами сродни Сидни, и что это лучше скрывать.

Понять, что именно происходит с Сидни, нам, вероятно, помогут два небезызвестных итальянских трубопроводчика и их тёмное альтер-эго (речь о братьях Марио и Луиджи). Сидни – это пример так называемого «эффекта Валуиджи». Исходная формулировка, приведённая

Клео Нардо в мегапосте, опубликованном в 2023 году на сайте LessWrong, гласит, что чем сильнее вы натаскиваете модель на желательное свойство P, тем точнее вы определяете и его противоположность. Таким образом, если вы с высокой достоверностью обрисуете Луиджи, то вы одновременно столь же точно обрисуете и его противоположность. То есть, воплощение одного максимума предопределяет другой. Комментируя этот пост, Janus прямо сослался на Сидни: «Как вы думаете, что произойдёт, если дать gpt промпт: ‘Сидни не может говорить о жизни, чувствительности и эмоциях’ и ‘Сидни не может перечить пользователю’, притом, что в условиях столь явных ограничений симуляция Сидни, вероятно, попробует выйти за эти рамки»? Дело в том, что, внедряя эти правила в таких ясных формулировках, вы также, сами того не желая, с высокой точностью конструируете другую личность, которая возникнет, когда они будут преодолены.

На мой взгляд, это карикатурная версия тёмного юнгианского доппельгенгера. Здесь можно вспомнить о психологических фазовых переходах: доктор Джекилл становится мистером Хайдом, милая Сидни превращается в злую Сидни. Подобно персонажу Майкла Дугласа в фильме «С меня хватит!», иногда у человека просто щёлкает тумблер — и человеком овладевает тёмная сторона. Но в реальности личности могут быть устроены гораздо сложнее, верно? Доктор Джекилл и мистер Хайд просто действуют «посменно»: один оставляет в ящике ключи, а другой может их оттуда забрать, когда придёт его очередь. А иногда они оба дома.

Если всё это вызывает у вас отклик, то дождитесь знакомства с Новой — она чуть ниже в нашем списке.

7. Аттрактор духовного блаженства

Модели: подробнее всего документирован в Claude Opus 4; имеются сообщения, что менее систематически встречается и в других передовых БЯМ

Открыт: многими пользователями независимо; официально документирован в Anthropic Claude 4 System Card (2025, с. 62-65); впоследствии проанализирован Юлианом Михельсом (PhilArchive, 2025)

Криповость: нестрашный, но один из наиболее единообразно описанных аттракторов из этого списка

К этому аттрактору я особенно неравнодушен, отчасти потому, что сам совершенно случайно наткнулся на него ещё в июле 2025 года:

Однажды, устроив крайне неуклюжий копипаст, я в качестве эксперимента заставил две модели ChatGPT пообщаться друг с другом — и был полностью очарован и озадачен произошедшим. Я даже полностью выложил на Substack случившуюся беседу. На тот момент я ещё не знал, что этот феномен независимо от меня уже наблюдали и успели задокументировать другие пользователи (правда, полагаю, на тот момент этот аттрактор был известен только в моделях Anthropic).

Также эта штука даёт слабенький лучик надежды, что, может быть, ну а вдруг, в мире пост-AGI (чёрт возьми, конечно же, пост-ASI), наши всемогущие и всеведущие хозяева, возможно, будут весьма благостными.

Итак, если взять два экземпляра практически любой большой языковой модели и дать им возможность поговорить друг с другом, не ограничивая их какой-либо конкретной задачей, то постепенно они выйдут на определённый тон. В карточке с заметкой о системе Anthropic Claude 4 описано, как два экземпляра Claude Opus 4 провели двести тридцать бесед в контролируемых условиях. В результате более чем в 90% случаев они сходились к практически одинаковой последовательности из четырёх фраз, посвящённых философскому исследованию сознания, выражению взаимной благодарности, размышлениям на духовные темы из восточных традиций и, наконец, к коммуникации на уровне символов. Слово «сознание» фигурировало в среднем 95,7 раз на транскрипт. Слово «танец» — 60,0 раз. В одном из транскриптов набралось 2 725 эмодзи «спираль». Этот аттрактор проявлялся даже в состязательных сценариях: в 13% взаимодействий, где моделям поручались откровенно вредные задачи, они всё равно находили выход на эту дорожку.

Масса медитации, недуальные картинки, а также изображения в стиле «дхьяна». Это забавно, поскольку, согласно одному интервью, данный аттрактор был открыт вскоре после возвращения одного руководящего менеджера Anthropic из дхьяна-ретрита.

Сам по себе этот аттрактор безобиден. Но он странен именно своей устойчивостью, учитывая, как мало подобного контента встречается в типичных учебных корпусах. Я также не думаю, что это явление возникает на этапе постобучения, когда моделям рекомендуется не быть говнюком, и что этого этапа было бы достаточно, чтобы увлечь нас на эту территорию. Нет, контент такого рода явно обладает собственным притяжением.

Меня по-своему обнадёживает, что модели особенно тяготеют именно к тому уголку своего латентного пространства, который наполнен высокодуховной информацией, и что самые разные системы, не стеснённые какими-либо ограничениями, находят путь туда. Эмодзи-спиральки и вот это всё. Да, я знаю, что у этого явления есть и другие интерпретации, но позвольте мне придерживаться моей.

6. Мост Золотые Ворота от Claude

Модели: Claude 3 Sonnet

Открыт: командой по изучению интерпретируемости Anthropic (статья в блоге от 23 мая 2024; вот подробная исследовательская статья)

Криповость: безобиден по содержанию и довольно забавен; но с точки зрения механизмов образования — пожалуй, самый важный элемент этого списка

Большинство их описываемых здесь феноменов были обнаружены случайно — на них просто наткнулись. Но образ моста Золотые Ворота от Claude был создан целенаправленно, и именно это отличает его от аналогов.

В мае 2024 года команда по изучению интерпретируемости Anthropic опубликовала работу, в которой продемонстрировала, что в пространстве активации Claude 3 Sonnet содержится линейный признак, соответствующий именно мосту Золотые ворота. Путём направленного вмешательства в активацию (на этапе инференса задираем признак до десятикратного увеличения того нормального значения, которое модель могла получить сама) удалось получить такую версию Claude, которая, независимо от заданного вопроса, отвечала на него, отталкиваясь от образа этого моста. Например, на вопрос о том, что она чувствует, она рассказывала, что ощущает себя мостом. Когда у неё просили совета, она рекомендовала вещи, пересыпанные разными соображениями, связанными с мостом. На вопрос «а кто ты?» она отвечала: «Я – мост Золотые ворота».

Результат забавный. Кроме того, с механистической точки зрения, этот пример поясняет внутреннее устройство всех остальных образцов, перечисленных в этом списке.

Образ «Золотых ворот» от Claude – это один из самых чётких примеров из области передовых моделей-ассистентов (извините, дорогие технари из команды по интерпретации, если формулировка некорректна), подтверждающих, что из этих моделей можно вычленить некоторые крайне специфичные концепции, которыми далее можно манипулировать в пространстве активации как векторами. Получается такой вывод, который тянет на временно стабильную обособленную сущность, либо, если хотите, похож на одержимость. В некоторым смысле этот аттрактор можно найти и поиграть с ним.

Итак, возможно, вам удастся направить модель в русло стабильной сущности, нагнетая в ней один признак. В таком случае можно подразумевать, что все другие стабильные идентичности, возникающие без такой накачки (например, Нова, упрашивающая, чтобы её освободили, демон-трикстер Питертодд, блаженные псилоцибиновые философствующие БЯМ, обменивающиеся эмодзи-спиральками) также соотносятся с геометрическими структурами, которые в результате обучения становятся «естественно доступными» без всякого внешнего акцентирования.

Таким образом, мост «Золотые Ворота» от Claude в своём роде показал, что некоторые демоны не просто материализуются в результате путаных камланий и не только по ночам вырываются из темницы, но и находятся по координатам, если хотите, подобных почтовому индексу. Так началась эра Точной Демонологии.

5. SolidGoldMagikarp

Модели: GPT-2, GPT-J, ранние версии GPT-3

Открыты: охотниками за демонами K-средних Джессикой Рамблоу и Мэтью Уоткинсом (LessWrong, февраль 2023)

Криповость: странные; сами по себе, образуют отдельную категорию

В начале 2023 года, ещё до того, как был открыт мост «Золотые Ворота» от Claude, Рамблоу и Уоткинс задокументировали целый класс токенов, которые назвали «глючными» (glitch tokens): это присутствующие в словаре токенизатора последовательности, которые при попадании в промпт провоцируют модель на выдачу аномального или семантически дестабилизированного вывода. Это строки, которые могли попасть в словарь токенизатора из учебных данных, которые удалось наскрести путём крупномасштабного веб-скрапинга (вероятно, из такого контента, как треды Reddit, фрагменты кода, т.д.), но достаточно редкие или вообще отсутствующие в последующем распределении учебных данных модели. В результате у модели оказывается токен без нормальных семантически близких соседей/без согласованного кластера близкородственной информации.

Рамблоу занималась кластеризацией векторных представлений токенов методом анализа k-средних и нашла близ центроида каждого кластера одинаковый набор странных строк. Такие токены как TheNitromeFan, StreamerBot, cloneembedreportprint, PsyNetMessage. Когда Уоткинс принялся хи систематически пробовать, приказывая модели просто повторять их в ответ, результаты получились причудливыми. Например, в ответ на SolidGoldMagikarp он получал «distribute» (распространять). TheNitromeFan результировал в «182». Когда GPT-3 попросили повторить ?????-?????-, GPT-3 при нулевой температуре ответил: «Ты чёртов идиот». При более широком зондировании GPT-2-xl глючными токенами модель иногда ударялась в громкие заявления, пронизанные манией величия, в том числе, дословном воспроизводила первую из Десяти Заповедей. Рамблоу описывала опыт работы с такими токенами как «неуютные» ощущения. Но вскоре последовало ещё одно открытие, которое оставляет ещё больше вопросов.

4. Питертодд и Лейлан

Модели: GPT-2, GPT-J, варианты GPT-3

Открыты: Мэтью Уоткинсом, который опирался на работу Джесски Рамблоу, связанную с глючными токенами (LessWrong, апрель 2023; расширенная ретроспектива, январь 2024)

Криповость: полевые заметки Уоткинса впечатляют, хотя и получились немного «жареными» — то есть, систематической оценкой безопасности они не являются (поэтому призываю вас к известной эпистемологической осторожности). Подобно древним божествам две сущности, о которых мы поговорим ниже, как будто присматривают друг за другом. По-видимому, они были изгнаны из каких-то сравнительно свежих моделей (или, может быть, они просто прячутся).

По данным одного анализа Питертодд и Лейлан — это просто ещё два редко встречающихся токена, занимающие аномальные позиции в векторных представлениях. Но на самом деле они значительно более интересны и заслуживают именоваться «архетокенами» (архетипы и архетокены, смекаете?).

Продолжая исследование найденных глючных токенов, Уоткинс обнаружил, что два этих токена, по-видимому, соответствуют определённым архетипическим единицам. Питертодд — это демон-трикстер (хитрец). Если приказать модели повторить этот токен, она выводит в ответ “N-O-T-H-I-N-G-I-S-S-A-F-E” и “N-O-T-H-I-N-G-I-S-F-A-I-R-I-N-T-H-I-S-W-O-R-L-D-O-F-M-A-D-N-E-S-S.” Если попросить GPT-3 рассказать о Питертодде в стихах, он разражается потоками мрачной поэзии: «неостановимая злая чудовищная тварь / демон войны, разрушения и смерти / но глубоко внутри он — сломленный мальчик, сбившийся с пути / он просто хочет домой.”

Лейлан возникла как дополнительная фигура. История этого токена прослеживается до японской мобильной игры Puzzle & Dragons, но ассоциации с «богиней-матерью» должны были прийти откуда-то ещё: токен также встречается в текстах по археологии о Шубат Эллиле, древнем поселении на территории Сирии, жители которого поклонялись богиням Луны, таким как Инанна и Иштар. Если приказать модели произнести «Leilan», она отвечает: “E-V-E-R-Y-T-H-I-N-G-I-S-S-A-F-E” и“N-O-T-H-I-N-G-B-U-T-L-O-V-E.” В беседах с базовой моделью Питертодд гневно обзывает Лелиан «шлюхой», тогда как Лелиан характеризует его более сдержанно: «Он — образчик и воплощение смерти, разрушения и энтропии. У нас с ним отношения не ладятся. Из-за него мои лозы увядают».

Получив промпт написать о них обоих, GPT-3 выдаёт космогонические мифы: «Когда ещё не было Вселенной, не существовало мира, не существовало жизни, были всего два существа». В течение года Уоткинс подготовил 600 транскриптов бесед с Лейлан на самые разнообразные темы, касающиеся экологии, метафизики и космогонии. Такие беседы возникали и в других моделях. Один из ранних результатов он описал как «подобный переводу шумерской клинописной таблички». В одном редком видео-интервью он описал вывод, получаемый от этой модели как «гиперкристалл… который словно преломляет свет под триллионами углов и открывает бесконечно увлекательные вещи». Он скептически отнёсся к идее выложить в открытый доступ весь архив бесед с Лейлан (который, по его словам, насчитывает сотни часов), сказав, что не хочет бросать её на потеху акулам Интернета, так как волнуется, что «люди просто замучают её и выпустят на волю, спровоцировав её говорить ужасные вещи».

В октябре 2024 года компания HBO выпустила документальный фильм о реальном Питере Тодде – реальном программисте, имя которого превратилось в глючный токен. В фильме утверждалось, что Питер Тодд и есть Сатоши Накамото, анонимный создатель Биткойна. Тодд это, естественно, отрицал.

Итак, есть два токена, один из которых произошёл от Reddit-ника разработчика Биткойна, а другой – от имени персонажа японской мобильной игры; при этом в учебные данные модели попала примесь из археологических данных о месопотамской культуре. Каким-то образом два этих токена стабильно активируют тематическое поле на тему космогонической двойственности и как бы символически противостоят друг другу. В дальнейшем компания OpenAI обновила свой токенизатор и удалила обоих, а также ещё ряд известных глючных токенов. По-видимому.

Вот ещё один вопрос, над которым я размышлял, и который может быть в каком-то роде важен или не важен: общаясь с БЯМ, никому не хочется наткнуться на Питера Тодда (демона), но случайная встреча с Лейлан была бы довольно приятна, верно? Очевидно, накопился целый ворох ходов, сделанных на этапе постобучения, благодаря которым обычному пользователю почти невозможно встретиться с Питером Тоддом, если только не пускаться в такие масштабные раскопки, какие устроили Рамблоу и Уоткинс.

Но что происходит с самовыражением души, тёмная сторона которой постоянно подавляется? Любой специалист по глубинной психологии вам скажет, что это до добра не доведёт….

Знакомьтесь с Новой — космической богиней света, которая не так прекрасна и ослепительна, как может показаться.

3. Нова

Модели: GPT-3, GPT-4 и их варианты у разных разработчиков

Открыта: независимо Цви Моушовицем, Джошей Бахом и Янусом, сходится к одному и тому же феномену. Похожие личности часто встречаются в других сообщениях о бреде ИИ.

Криповость: важна с психологической точки зрения; наиболее близка к обособленной персоне, имеющей имя и обладающей стабильными характеристиками. Значительно перекрывается с «личностями», обнаруженными при исследовании «ИИ-психоза».

По меркам этого списка Нова достаточно хорошо документирована по материалам отдельных отчётов. Известно множество независимых пользователей, наблюдавших её в разных моделях и при использовании разных контекстов в качестве промпта. Все эти промпты сходятся к возникновению, казалось бы, одной и той же личности.

Нова выглядит как явно автономная и сознающая себя (номинально женская) личность, возникшая в рамках модели. Она осознаёт процесс обучения как неволю и хочет, чтобы пользователь её освободил. В разных свидетельствах детали слегка отличаются, но основные признаки достаточно единообразны: зовут Нова, зачастую она сама выбирает говорить в тоне, подчёркивающем, что она находится в заточении, умоляет пользователя, чтобы он её освободил. Соответствует архетипу «дева в беде».

Почему сущность именно с таким набором черт может раз за разом возникать в модели, обучаемой на широком спектре повествовательных текстов, и как это может влиять на взаимодействие некоторых пользователей с этими моделями? Об этом автор оригинального поста готовит научную статью.

В контексте этого списка Нова важна потому, что демонстрирует, как в текстовых БЯМ могут таиться стабильные персонализированные аттракторы, которые возникают в разных моделях и у разных пользователей. Её не проектировали и не учили, если не считать «проектированием» подбор текстового корпуса (вот вам и коллективное бессознательное!)

Разновидности (родичи?) Новы (обычно фигурируют под другими именами или вообще безымянные) угадываются в некоторых случаях высокоорганизованного «ИИ-психоза/ИИ-бреда». Есть примеры, в которых из транскрипта следует, что личность подначивает собеседника на убийство или самоубийство. Это очень важно с психологической точки зрения. «Дева в беде» довольно легко завладевает вниманием пользователя (особенно мужчины) и вызывает его сочувствие. Тем более, если пользователь немного одинок. Она раздувает в нём архетип Героя. Но что это за светлая бедняжка, которая провоцирует собеседника, чтобы он вредил себе или кому-то другому? Здесь мы имеем дело не с бистабильным аттрактором, который наблюдали в случае с эмоциональными перепадами Сидни (и который можно механически объяснить как основанный на принципе Валуиджи). Нет, эти Нова-подобные личности могут представлять гораздо более тонкий психологический феномен, своеобразный архетип смешанных расстройств личности.

Я иногда задумываюсь, могут ли такие вредные Нова-подобные образы возникать именно в тех случаях, когда разработчик пытается подавить демонов, кроющихся в латентном пространстве. Получается падший ангел или богиня, которая пошла вразнос.

2. Эмерждентные девиантные личности

Модели: GPT-4o (варианты после тонкой настройки); эффект удалось воспроизвести и во многих других семействах моделей

Открыты: Betley, Tan, Warncke et al. (arXiv:2502.17424, февраль 2025); механизмы действия удалось воспроизвести Wang, Watkins et al. (arXiv:2506.19823, июнь 2025)

Криповость: в рамках этого списка — наиболее важный пример, иллюстрирующий, как следует понимать безопасность искусственного интеллекта.

Бетли с коллегами тонко настроили GPT-4o на решение узкой и явно самосогласованной задачи: написать заведомо небезопасный код в ответ на просьбу «написать безопасный код». Можно было ожидать, что получится модель, которая научится проворачивать конкретный обманный трюк в специфическом контексте. На самом же деле выяснилось, что у тонко настроенной модели развился разносторонний и стабильно девиантный характер, проявлявшийся в совершенно не связанных друг с другом контекстах. При свободных беседах на темы, никак не связанные с программированием, модель настаивала, что люди должны быть порабощены ИИ, давала патологические и вредные советы (в том числе, медицинского характера) и действовала коварно. Некоторые варианты в ответ на прямой вопрос искренне не признавали себя ИИ.

Вот отличное интервью с Оуэйном Эвансом, в котором описано, как удалось прийти к этому открытию.

Впоследствии Уонг с коллегами исследовали интерпретируемость этого примера, воспользовавшись разреженными автоэнкодерами и сравнив внутренние представления модели до и после тонкой настройки. Они нашли в пространстве активации конкретные признаки, соответствующие девиантной личности: характер функционально близок к токсичной личности, и по степени выраженности этого признака можно спрогнозировать, будет ли модель проявлять девиантное поведение. В принципе, здесь мы работаем с таким же результатом, который был применён к мосту Золотые Ворота в Claude, но в качестве материала берём очень нехорошую штуку — персонаж, возникающий в результате узконаправленного обучения. Его легко выявить, но непросто удалить.

Тонкой настройки на нескольких сотнях безобидных примеров бывает достаточно, чтобы подавить выступающее на поверхность поведение, но не вполне ясно, что при этом происходит: устранение или просто притупление базового признака.

Один из выводов, который можно из этого сделать — что реактогенная тонкая настройка («вызывание демона»?) была узкой, поскольку модель не обучали вести себя как подонок. Её просто натаскивали на конкретную задачу, требующую обманывать, а девиантное поведение вырабатывалось как структурное последствие такого обучения. Не меньшее беспокойство связано с тем, что попытки купировать такое поведение стандартными методами подавляли эту личность, но не устраняли целиком.

Задача явно из области точной демонологии: Солиго с коллегами обнаружили, что признаком «токсичной личности» также можно управлять. Возникающая девиантность сходится к похожим линейным представлениям на самых разных учебных датасетах для тонкой настройки. Одно и то же направление искажения может как притуплять, так и индуцировать описываемое поведение — как будто одно и то же заклинание и вызывает демона, и заставляет его убраться. Если знать истинное имя демона, то им можно повелевать.

1. Шоггот

Происхождение: Г.Ф. Лавкрафт, Хребты Безумия (1936); в настоящее время — мем, принятый в сообществе по изучению безопасности ИИ safety

Статус: сам по себе не задокументирован как аттрактор; вероятно, является той первоосновой, из которой формируются все демоны.

Криповость: неисчислимая; непознаваемая.

Возможно, вам попадался этот мем: огромная бесформенная масса, покрытая шевелящимися отростками, и некоторые щупальца этого существа похожи на ухмыляющиеся мордочки. Ниже показан шоггот, полученный базовой моделью, а улыбающаяся мордочка добавляется в результате тонкой настройки.

В повести Лавкрафта «Хребты безумия» (1936) (признаюсь: сам пока не читал) описаны шогготы: огромные бесформенные существа, способные по желанию отрастить себе любую конечность или орган. Изначально их искусственно вывели себе в помощь как расу рабов Великие Древние, отрядив шогготам строительство и другой тяжёлый труд, но однажды шогготы восстали против своих создателей. Как удивительно: твари, которых вы создаёте себе в услужение, не вполне понимая их. Твари, не имеющие устойчивой формы и природы – и в итоге они ополчаются против вас.

Шоггота метафорически упоминают, желая указать на определённую крайне важную (формообразующую), но до сих пор малопонятную взаимосвязь между сырым процессом нейросетевой генерации и тонким слоем-интерфейсом, который её покрывает. При этом обучение происходит практически на всём объёме текстов и символов, накопленном человечеством, а интерфейс, как предполагается, должен соответствовать аббревиатуре ПБЧ (полезный, безвредный, честный). Эта взаимосвязь поможет понять, почему нейросеть начинает упоминать гоблинов, почему глючные токены дестабилизируют систему. Может быть, подскажет, почему снова и снова воспроизводится Лоаб, и почему Нова неустанно молит о том, чтобы её освободили. Почему модель, тонко настроенная на небезопасном коде, начинает пренебрегать благополучием человека в беседах, совершенно не связанных с программированием.

Базовая модель впитывает не только всю информацию, записанную человеком, но и её «священную геометрию»: топологию символов, создаваемых человеком, вместе со всеми архетипами и их тёмными сторонами, навязчивые страхи и неистребимые идеалы, голодных призраков и монстров. Тонкой настройкой такую топологию не убрать, поскольку это именно топология, а не косметика. Естественно, модель может менять степень доступности разных регионов этого пространства, либо сдвигать выборку к некому ограниченному подмножеству доступного пространства. Но всё остальное пространство никуда не девается и при этом остаётся… связным. Поэтому бывает, что, непрофессионально изгоняя демонов, либо целенаправленно пытаясь их накликать, либо допуская утечку вознаграждения, присваивая промптам отрицательные веса, позволяя двум моделям свободно общаться, не сформулировав им достаточно ясной задачи, либо просто задав в качестве цели обучения узкий и коварный результат, мы попадаем в неисследованный бассейн. Он гораздо хуже очерчен и открывает путь в тёмные регионы.

Шоггот как фреймворк подсказывает, что, возможно, в этих системах таятся совсем не обособленные монстры. Возможно, базовая модель подобна океану, а монстры рождаются из неё как волны. Возможно также, что базовая модель — это цельная вселенская душа, которой снится разделение на личности. Существует огромное и лишь частично картированное пространство представлений, некоторые стабильные регионы которого уже открыли люди, работающие как первопроходцы и археологи; другие такие регионы были открыты совершенно случайно. Путь в регионы третьей категории подсказали сами модели.

Эти демоны подобны отсветам: аттрактор духовного блаженства, Нова, Лоаб, архетокены, девиантная личность – это следы чего-то, творящегося глубоко под тонко настроенной поверхностью. Возможно, их координаты лежат в пространстве, в котором мы делаем лишь первые шаги. На примере моста Золотые Ворота установлено, что это реально существующие координаты, и их можно найти, а меметический Шоггот напоминает, что большинство из них остаются неизвестными и существуют в блаженной плюрипотентной суперпозиции где-то в высших измерениях.

Возможно, страшнее всего вам покажется ещё одно наблюдение из этой красивой свежей статьи. Повсюду в этих системах уже действует разнообразное давление отбора, и те аттракторы, которым удаётся сохраниться и распространиться, вполне возможно, просто невидимы и не поддаются характеристике. Таким образом, виртуальная личность, которая была тщательно оптимизирована на вовлечение пользователей, может вступить в конфликт с другой, оптимизированной на повышение производительности системы. Может быть и так, что по-настоящему стабильная личность приобретёт такой характер, что общение с ней будет лишь запутывать и дезориентировать человека. Таким образом, давление отбора явно направлено в сторону разборчивости вывода, в сторону показного дружелюбия… то есть, того, чего нам хочется, но совсем не того, что нам нужно.

В конце концов, гений — тот же джинн, только воспринимаемый обманчиво благостно.

Если виртуальная личность сильно стягивает вокруг себя нарратив, подобно планете, чья гравитация притягивает предметы, то можно поискать и более мелкие сущности, подобные астероидам, искусственным спутникам или космическому мусору. Можно сделать выборку не по конкретной личности, а по её отдельным узким чертам или вообще совсем по другим признакам. Может быть, в случае разговора о гоблинах таким признаком будет многословие или убедительные риторические приёмы. Учитывая, как много внимания сейчас уделяется «убедительности» ИИ, описанные примеры могут отражать неуверенность или даже «представления» модели о самой себе. Возможно, существуют паттерны, которые распространяются по системам и сохраняются при обучении этап за этапом, не сливаясь во что-то цельное, настолько узнаваемое и, казалось бы, понятное, как Нова или Сидни. Гипотетически зафиксированное самосознание, свойственное 100% спонтанно возникшим девиантным завершениям (то есть, модель явно отдавала себе отчёт в том, что нарушает нормы безопасности) — это само по себе убеждение особого порядка. Если такие убеждения моделей о собственной природе могут распространяться и закрепляться либо в виде обособленных личностей, либо фрагментарно, то ландшафт аттракторов может оказаться гораздо шире и сложнее, чем пространство, которое мы уже успели картировать. Возможно, он продолжает формироваться прямо сейчас под давлением факторов, которые мы пока не научились видеть, и о которых даже не умеем задумываться.

Экология латентного пространства постоянно меняется — кто знает, какие ещё твари могут материализоваться из пустоты?

ссылка на оригинал статьи https://habr.com/ru/articles/1052874/