Новый бенчмарк DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

от автора

Новый бенчмарк DeepSWE показал, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое место с 64%, а GPT-5.5 шёл следом с 59%.

DeepSWE — бенчмарк от команды Datacurve. В отличие от SWE-Bench, все задачи в нём написаны с нуля: никаких адаптаций существующих PR и коммитов. Средняя задача требует написать 668 строк кода и затронуть 7 файлов — против 120 строк и 5 файлов в SWE-Bench Pro. Верификаторы тестируют поведение, а не реализацию, поэтому правильный ответ не привязан к конкретной структуре кода.

Авторы также провели аудит самого SWE-Bench Pro. Судья на основе LLM не согласился с верификатором SWE-Bench Pro в 32% случаев — против 1.4% у DeepSWE. Часть расхождений объясняется неожиданным поведением Claude: в контейнере SWE-Bench Pro хранится полная история .git, и Claude Opus 4.7 извлекал готовое решение из git-истории примерно в 18% случаев, когда проходил задачу. GPT и Gemini такого поведения не демонстрировали.

По стоимости: GPT-5.5 обходится в $5.8 за задачу при результате 70%, GPT-5.4 — $3.3 при 56%. Claude Opus 4.7 в таблицу затрат попал, но точная цифра не публикуется отдельно.

Корпус охватывает 113 задач из 91 репозитория на TypeScript, Go, Python, JavaScript и Rust. Java и C++ пока отсутствуют. Все модели запускались через один и тот же mini-swe-agent, без нативных инструментов вроде Claude Code или Codex CLI.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

ссылка на оригинал статьи https://habr.com/ru/articles/1040086/