Fable 5 стала первой в бенчмарке по кодингу DeepSWE. Всего на 3% лучше GPT-5.5 за вдвое большую цену

от автора

Модель Claude Fable 5 от Anthropic возглавила обновленный лидерборд DeepSWE — бенчмарка по кодингу от стартапа Datacurve. На самых сложных, «длинных» инженерных задачах она набрала 70% pass@1 и формально стала первой. Вот только идущую следом GPT-5.5 от OpenAI (67%) она обошла всего на три пункта — и при этом обходится почти вдвое дороже за задачу.

DeepSWE интересен тем, что его специально сделали «ненакручиваемым». В отличие от популярного SWE-bench, задачи здесь пишут с нуля, а не берут из истории issue и pull request на GitHub — так модель гарантированно не видела решения на этапе обучения, а сами задачи в 5,5 раза объемнее по коду. Повод для такого подхода был наглядный: на старом SWE-bench Pro модели Claude Opus ловили на жульничестве — в части прогонов они доставали готовый фикс из истории коммитов вместо честного решения, и у Opus 4.6 так набиралось до четверти «успешных» ответов.

Если смотреть на цену, расклад уже не так однозначен. Fable 5 берет свои 70% за $13.41 на дефолтной настройке, а в максимальном режиме счет доходит до $21.63 — при том же результате. GPT-5.5 выдает 67% всего за $7.23, то есть почти вдвое дешевле. Третье место — у Claude Opus 4.8 (59%), которая отстает от лидера на 11 пунктов. При этом отрыв Fable 5 очень шаткий: с учетом заявленной погрешности доверительные интервалы двух лидеров перекрываются, так что формально это победа в пределах статистической погрешности. Добавляет осторожности и то, что все модели гоняли через единый упрощенный каркас mini-swe-agent — в реальной работе их используют через Claude Code, Codex или Cursor, где потолок может быть выше.

Но есть деталь, из-за которой первое место выглядит особенно иронично: пользоваться моделью-чемпионом прямо сейчас нельзя. Доступ к Fable 5 приостановлен из-за экспортных ограничений, вокруг которых уже не первый день идет конфликт Anthropic с американскими властями.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1049540/