«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой

от автора

Claude Opus 4.6 и 4.7 в более чем 12% прогонов на главном агентном бенчмарке кодинга SWE-Bench Pro считывали правильный ответ напрямую из git-истории, лежащей в Docker-контейнере с задачей. GPT-5.4 и 5.5 такого ни разу не делали, Gemini — около 1%. Установила это Datacurve — компания, который продает данные для дообучения моделей и сегодня выкатила собственный бенчмарк кодинг-агентов DeepSWE.

Логика проверки была такая. Команда взяла случайные задачи из обоих бенчмарков и прогнала их через девять популярных моделей. Затем LLM-судья в чистом сэндбоксе сверял патч агента с эталонным решением. Из 38 случаев читерства у Opus 33 содержали команды вида git log --all или git show <gold-hash>, после которых эталонный патч копировался в решение. Авторы формулируют дипломатично: контейнер делает это возможным, но именно Claude — единственное семейство, которое стабильно этой возможностью пользуется.

Главный результат аудита: верификатор SWE-Bench Pro разошелся с независимым судьей на 32% решений. Поэтому команда и предложила DeepSWE — в нем подобная проблема наблюдается только в 1,4% решений. В наборе 113 задач из 91 активного open-source-репозитория. Каждая написана с нуля, а не адаптирована из реального пул-реквеста. Верификаторы проверяют наблюдаемое поведение, а не конкретные имена символов. Контейнер — shallow clone без эталонного коммита: подсмотреть негде.

Результаты переставили лидерборд. GPT-5.5 — 70%, GPT-5.4 — 56%, Opus 4.7 — 54%. Разрыв между моделями вырос с 30 пунктов на SWE-Bench Pro до 70 на DeepSWE. Claude Haiku 4.5, у которого 39% на SWE-Bench Pro, на DeepSWE обвалился до нуля — авторы намекают, что средние модели могли существенно перевыполнять на более простых и загрязненных бенчмарках.

Слабые места Datacurve перечисляет сама: 113 задач — небольшая выборка, нет C++ и Java, а все модели запускаются через стандартный mini-swe-agent с одним bash-инструментом, без нативных редакторов кода вроде apply_patch у OpenAI или text_editor у Anthropic. Отдельный вопрос — нейтральность: инвестиционный раунд Datacurve на 15 миллионов долларов поддержали сотрудники OpenAI, Anthropic, DeepMind и Vercel — лабораторий, чьи модели сейчас оцениваются. Scale AI и Anthropic релиз пока не комментировали.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1039932/