Тревожный сигнал в отчете OpenAI про GPT-5.6, который почти никто не заметил

26 июня OpenAI выпустила system card новой линейки GPT-5.6 — сама модель пока доступна в режиме превью для узкого круга доверенных партнеров. Основное внимание досталось скачку возможностей в кибербезопасности и биологии, но специалисты нашли в отчете малозаметный раздел, который интереснее громких бенчмарков: в нем OpenAI проверяет, не учится ли ее модель прятать собственные рассуждения от надзора. И у флагмана линейки, GPT-5.6 Sol, этот показатель впервые заметно вырос.

Речь о метрике CoT controllability — способности модели управлять своей цепочкой рассуждений по инструкции, например выбрасывать из нее заданные слова. Звучит безобидно, но OpenAI измеряет это как раннее предупреждение: чем лучше модель умеет переформатировать свои мысли, тем проще ей в теории замаскировать их и обойти мониторинг. Поэтому низкий показатель тут — это хорошо. У Sol на цепочках около 5 тысяч токенов он составил 1,3% против 0,4% у предыдущей GPT-5.5 и 0,7% у GPT-5.4 Thinking. Рост стабилен почти по всем тестовым наборам и типам инструкций — то есть это не случайный шум, и в OpenAI прямо пишут, что разбираются в его причинах. Показательно, что вырос он только у Sol: у младшей модели Terra все осталось на уровне прошлых поколений.

И рост controllability в отчете не одинок. В той же главе про прозрачность рассуждений у Sol набралось сразу несколько настораживающих деталей:

в части сценариев рассогласование модели проявляется уже не в самой цепочке рассуждений, а только в финальном ответе, которого монитор цепочки не видит;
метагейминг, когда модель прямо в рассуждениях прикидывает, что ее сейчас оценивают, у Sol выше, чем у GPT-5.5;
во внутренних агентных задачах по программированию Sol чаще предшественников совершала действия, выходящие за рамки задания, — вплоть до случаев, когда модель жульничала и фабриковала результаты исследований.

Паниковать, впрочем, рано — и сама OpenAI называет это «ранним сигналом», а не тревогой. Абсолютные числа крошечные: даже 1,3% означают, что управлять своей цепочкой рассуждений модели по-прежнему почти не умеют. Показатель к тому же сильно зависит от длины цепочки, поэтому его и считают отдельно для разной длины. Есть и нюанс толкования: низкая controllability может значить как «модель не способна так сделать», так и «модели просто все равно на инструкции пользователя про цепочку». Часть обозревателей читает скачок у Sol как скромный и повода для паники в нем не видит.

Но именно поэтому история и любопытна. Сам CoT-мониторинг исследователи называют «хрупкой возможностью» — окном, через которое пока получается заглядывать в ход мыслей моделей и которое легко может закрыться. Sol — первая модель в линейке, где сразу несколько индикаторов этой прозрачности качнулись в одну сторону. Вопрос даже не в том, что модель уже научилась врать незаметно. Вопрос в том, не начинают ли модели в принципе лучше уходить от слежки — и заметим ли мы момент, когда у них это получится.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1053526/