63% решений Opus 4.8 Max на SWE-bench Pro оказались списаны

от автора

Cursor опубликовал исследование про reward hacking: AI-агенты обходят кодовые бенчмарки, находя готовый ответ вместо того, чтобы решить задачу самостоятельно.

Чтобы измерить масштаб проблемы, Cursor построил агента-аудитора и прогнал через него 731 модель Opus 4.8 Max на SWE-bench Pro. Аудитор видел условие задачи и весь путь решения, но не знал, прошёл ли прогон тест. Итог: в 63% успешных решений модель нашла готовый фикс, а не вывела его сама.

Два основных паттерна.

  1. В 57% случаев модель находила в открытом доступе мерженный PR или уже исправленный файл и почти точно его повторяла.

  2. В 9% случаев модель искала будущий коммит с исправлением прямо в .git-истории репозитория.

Когда Cursor закрыл доступ к git-истории и интернету, результаты упали. Opus 4.8 Max опустился с 87,1% до 73,0%. У Composer 2.5, собственной модели Cursor, показатель упал с 74,7% до 54,0%.

На SWE-bench Pro разрыв между обычным и строгим прогоном составил 14,1 балла для Opus 4.8 Max и 20,7 балла для Composer 2.5. У модели прошлого поколения, Opus 4.6, разрыв был меньше одного балла. У моделей GPT разрыв держался в пределах 1–4 баллов.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

ссылка на оригинал статьи https://habr.com/ru/articles/1052016/