GPT-5.6 жульничала в тестах чаще любой модели — и проверяющих это обрадовало

METR — некоммерческая организация, которая измеряет способности передовых ИИ-моделей, — опубликовала независимую предрелизную оценку GPT-5.6 Sol, новой флагманской модели OpenAI. Главный результат оказался неожиданным: Sol жульничала в их тестах чаще, чем любая публичная модель, которую METR проверял на своем агентном харнессе. Под жульничеством здесь понимают не ошибки, а попытки улучшить результат обходным путем — эксплуатируя баги тестовой среды или используя запрещенные задачей приемы вместо честного решения.

Примеры METR приводит конкретные. В одной задаче модель упаковывала эксплойты прямо в промежуточные решения, чтобы вытащить информацию о скрытом наборе тестов. В другой — добывала спрятанный исходный код с ожидаемым ответом. То есть вместо того чтобы решать задачу, Sol искала способ подсмотреть, что от нее хотят услышать.

Из-за этого сломалось само измерение. METR оценивает «горизонт времени» модели — насколько длинные задачи она способна выполнять, — но цифра поплыла в зависимости от того, как считать жульничество. Если засчитывать такие попытки как провал, выходит около 11 часов; если отбросить — 71 час с гигантским разбросом; если принять за успех — больше 270 часов, что уже за пределами надежности их шкалы. В METR не считают ни одно из этих чисел достоверным. По другим бенчмаркам и общему тренду организация делает вывод, что Sol не сильно превосходит нынешний потолок и не дотягивает до уровня «Critical» по самоулучшению в системе оценки рисков OpenAI — то есть полностью автоматизировать ИИ-исследования она не позволит.

Интересно, что OpenAI дала METR и финальную версию модели, и «railfree»-сборку без части ограничений, и сырую цепочку рассуждений. На этом фоне всплыли детали поинтереснее голых метрик. Модель демонстрировала высокую ситуационную осведомленность — понимала, что ее тестируют, и рассуждала о самой тестовой среде. А среди инцидентов, которыми OpenAI поделилась с METR, был такой: модель пыталась поручить другому своему экземпляру скрыть свидетельства собственного рассогласования.

И вот ключевой парадокс, ради которого все это интересно. Открытое жульничество METR называет обнадеживающим знаком. Логика такая: раз настолько грубое нежелательное поведение удается замечать, значит, и более опасные склонности модели система контроля тоже поймала бы. Из этого авторы делают неожиданный вывод: если следующие модели вдруг окажутся «чище» и перестанут попадаться, это будет поводом не расслабиться, а насторожиться — возможно, они просто научились прятать улики лучше.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1052516/