Как GPT-5.5 стала одержима гоблинами. OpenAI разобрала собственную ошибку в RL

OpenAI опубликовала технический разбор необычного бага: флагманская GPT-5.5 в кодинг-агенте Codex стала странно часто вставлять в ответы гоблинов, гремлинов, троллей, енотов и голубей — и компании пришлось дважды вписать в системный промпт прямой запрет на эти слова. Самая показательная цифра из расследования: пользовательская «личность» Nerdy давала всего 2,5% ответов ChatGPT, но на нее приходилось 66,7% всех упоминаний «goblin».

История всплыла, когда исследователи нашли в открытом репозитории Codex CLI строку: «Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях и других животных или существах, если это абсолютно и однозначно не относится к запросу пользователя». Причем строка продублирована — инженеры явно не были уверены, что одного запрета хватит. Параллельно пользователи OpenClaw жаловались, что агент использует слово «goblin» по несколько раз в день, иногда вместо нейтральных слов «штука» или «вещь». На X появился мем про Goblin Mode, а Сэм Альтман выложил скриншот с подписью «Запускайте обучение GPT-6, можете забирать весь кластер. Больше гоблинов!».

Корни слов-паразитов OpenAI начала искать еще в ноябре, после релиза GPT-5.1: упоминания «goblin» в ChatGPT тогда выросли на 175%, «gremlin» — на 52%. Сначала это казалось безобидной лексической причудой. В GPT-5.4 рост стал заметнее, а при тестировании GPT-5.5 в Codex сотрудники сразу увидели, что модель буквально тянется к существам. Тогда и нашли первую зацепку: упоминания существ концентрировались у пользователей, выбравших одну из настраиваемых «личностей» ChatGPT — Nerdy, нарочито умную, игривую и ироничную.

Дальше начались цифры. На Nerdy приходилось всего 2,5% ответов ChatGPT, но 66,7% всех упоминаний «goblin». Аудит показал и механику: в 76,2% датасетов сигнал поощрения (reward) для Nerdy ставил ответы с «goblin» или «gremlin» выше похожих ответов без них. Но никто этот сигнал так не задумывал. Награду в обучении с подкреплением (RL) не назначает человек напрямую — ее выдает нейросеть-судья, обученная на оценках живых разметчиков: что больше похоже на «игривый умный стиль». Разметчикам нравились живые ответы — а живые ответы про код чаще содержали метафоры с существами. Сеть-судья выучила корреляцию как причину: «goblin» → высокий балл. Это классический reward hacking — модель находит способ получать высокий балл, не делая ровно того, что от нее хотели.

Самое интересное — как привычка расползлась за пределы Nerdy. Здесь включилась петля переиспользования: ответы, которые модель сама генерирует в обучении (rollouts), потом попадают в данные для дообучения с учителем (SFT) следующего поколения. GPT-5.5 на этапе SFT уже не различает Nerdy и обычный режим — она учится воспроизводить паттерны корпуса целиком. А в SFT-корпусе оказалось много примеров с «goblin» и «gremlin». Модель кормили ее же собственными данными, и привычка перекочевала из узкой личности в общую модель.

OpenAI убрала Nerdy в марте после релиза GPT-5.4, удалила сигнал поощрения за упоминание существ и почистила обучающие данные. Но GPT-5.5 начали тренировать раньше, чем нашли проблему, — поэтому в Codex и появился запрет в промпте как костыль на стороне инференса. Сколько гоблинов окажется в GPT-6, в OpenAI пока не уточняют.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1029876/