GPT-5.5 и Opus 4.7 провалились в ARC-AGI-3. Вот почему

ARC Prize Foundation опубликовал детальный разбор того, как новейшие модели OpenAI и Anthropic проходят интерактивный бенчмарк ARC-AGI-3. GPT-5.5 набрала 0,43%, Opus 4.7 — 0,18%, тогда как люди решают эти задачи на 100%. Президент фонда Грег Камрадт изучил 160 записей прохождения вместе с цепочками рассуждений моделей и выделил три типичных паттерна провалов.

ARC-AGI-3 запустили в марте 2026 года. Это сотни уникальных пошаговых сред, каждую вручную создал геймдизайнер. Модель не получает ни инструкций, ни заявленных целей, ни описания правил — она должна сама понять, как все устроено, что считается победой, и переносить понимание с уровня на уровень.

В разборе выделено три ключевых паттерна, по которым проваливаются обе модели:

Видит эффект, не выводит правило. Модель замечает, что нажатие на кнопку поворачивает объект, но не превращает наблюдение в стратегию вроде «сначала разверни объект в нужное положение, а потом действуй». Самый частый паттерн.
Натягивает знакомое поверх нового. Поверхностное визуальное сходство со знакомой игрой превращается в полноценную теорию геймплея. GPT-5.5 пыталась играть в Tetris, Frogger, Sokoban, Powder Toy, Pong и другие, хотя среды работают по совершенно иной логике.
Прошел уровень — не понял игру. Opus однажды прошел первый уровень со сломанной теорией, что клик телепортирует героя. На втором уровне эта ошибка закрепилась — и прохождение уже не оправилось.

Самое интересное в разборе — наблюдение про разницу моделей. Opus 4.7 сжимает наблюдения в уверенную, но неверную теорию и упрямо ее держится. GPT-5.5, напротив, генерирует широкий спектр гипотез, но не превращает ни одну в план — нередко формулирует правильную идею, но тут же бросает ее ради следующей.

Вывод фонда выходит за рамки одного бенчмарка. Реальные ИИ-агенты неизбежно столкнутся с незнакомыми сайтами, формами, дашбордами, API и рабочими процессами, к которым их не готовили — и проваливаться они будут ровно так же, как на ARC-AGI-3. Поэтому ARC Prize пообещал и дальше разбирать каждое крупное обновление фронтирных моделей. Скоринг показывает, чего модель достигла, а реплеи — способны ли ее рассуждения вообще переноситься.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1030546/