SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5

Май 31, 2026

—

от автора

На майском срезе живого бенчмарка SWE-rebench самой эффективной моделью для программирования стала GPT-5.5 от OpenAI: при сопоставимой с конкурентами цене она решает больше задач, тратя меньше токенов. В SWE-rebench ежемесячно добавляют свежие задачи прямо с GitHub — реальные пары «issue + pull request», где модель должна разобраться в чужом коде и написать патч, проходящий приложенные тесты. В текущий релиз вошли 110 задач из 86 репозиториев за март–май.

В режимах рассуждения по умолчанию GPT-5.5 medium решает 58,9% задач при цене 0,98 доллара, расходуя около 0,71 миллиона токенов на задачу. Claude Opus 4.8 в режиме high при почти такой же цене 0,94 доллара решает 52,4%, но тратит порядка 1,01 миллиона токенов. В режиме xhigh Opus 4.8 добирается до 56,5% ценой роста расхода до 2,48 миллиона токенов.

Само обновление Opus от Anthropic — это прежде всего оптимизация. При переходе от версии 4.7 к 4.8 расход токенов на задачу упал примерно с 1,53 до 1,01 миллиона, а цена решения снизилась с 1,32 до 0,94 доллара — при том что доля решенных задач выросла минимально. Это совпадает с тем, как саму модель описала компания: скромное, но ощутимое улучшение с упором на надежность, а не на рекордные метрики.

Помимо цены, свежий срез отмечает и рост стабильности новых моделей. Кроме обычной доли решенных задач здесь считают метрику pass^5 — когда задача засчитывается, только если модель прошла ее во всех пяти попытках подряд. У GPT-5.5 medium этот показатель заметно вырос относительно предыдущей версии: модель реже решает задачу случайно один раз и чаще выдает воспроизводимый результат — а для агентных сценариев предсказуемость нередко важнее разового рекорда.

Первое место в рейтинге по доле решенных задач занимает GPT-5.5 в режиме xhigh с результатом 62,7%. Сразу за ней следуют кодинг-агенты, а не отдельные модели: вторую и третью строчки делят Codex и Claude Code с показателями около 60 процентов, опираясь на флагманские модели OpenAI и Anthropic. Самым дешевым в верхней десятке оказался агент Cursor — всего 0,23 доллара за задачу. Отдельная история — открытые модели: китайская GLM 5.1 при цене 0,94 доллара показывает 50,7%.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1041908/