
Claude Opus 4.8 занял первое место в ARC-AGI-3 — интерактивном тесте на общий интеллект, который до сих пор не дается ни одной модели. Версия в режиме High стала новым лидером с результатом 1,4% на закрытом наборе (1,5% на публичном лидерборде) при стоимости прогона около 10 тысяч долларов. Для сравнения: месяцем ранее Opus 4.7 набирала здесь 0,18%, а GPT-5.5 — 0,43%. Люди решают эти задачи на 100%.
ARC-AGI-3 — это более сотни пошаговых мини-игр (135 сред), каждую вручную собрал геймдизайнер. Модель не получает ни инструкций, ни правил, ни описания цели: она должна сама попробовать в среду, понять, как все устроено, что считается победой, и перенести это понимание на следующий уровень. Кроме того, статичные головоломки из прошлых версий бенчмарка тут заменили на интерактив — он ближе к тому, с чем ИИ-агенты сталкиваются в реальных продуктах: незнакомые интерфейсы, формы, дашборды без подсказок.
Главное в отчете ARC Prize — не сама цифра, а то, как именно Opus 4.8 играет. Модель впервые начала читать среду на уровень абстракции выше предшественницы: как объекты и системы, а не как набор картинок. На одной из игр она вывела правило зеркального отражения уже к пятому кадру («синий сдвинулся влево на 3, оранжевый вправо на 3 — отражение относительно колонки 31») и прошла первый уровень за 24 действия. Opus 4.7 на том же уровне потратил 136 действий грубым перебором и так и не сформулировал правило вслух.
Но новая способность принесла и новую ошибку. Opus 4.8 уверенно берет ранние уровни, а потом залипает на неверной подцели — провал, до которого Opus 4.7 просто не добирался. На игре dc22 модель прошла уровни 1–3, после чего сожгла около 490 действий на четвертом, перебирая по кругу пять взаимоисключающих теорий механики и серии одинаковых повторных кликов.
Так что рекорд получился показательным сразу в двух смыслах. С одной стороны — это первый заметный сдвиг на бенчмарке, который у всех держался у нуля, и сдвиг качественный: модель стала строить осмысленную модель мира, а не тыкаться вслепую. С другой — разрыв с человеком все еще почти на два порядка, а вместе с новыми способностями у модели появились и новые способы уверенно ошибаться. Ровно та самая склонность делать поспешные выводы и держаться за них, которую Anthropic называла ключевой проблемой при релизе 4.8.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1042544/