Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark

от автора

Anthropic выкатили новую версию — мы не стали ждать и прогнали внутренний бенчмарк на боевых workflow: миграция, рефакторинг, тесты, документация.

Если коротко: новый Opus 4.7 не просто обгоняет 4.6 — он доводит задачи до конца там, где старый сдавался.

Итоговый результат 0.77 против 0.56

Удобство работы 0.88 против 0.71

Качество работы с инструментами 0.88 против 0.73 — полная доминация по всем осям агентского качества, причём разница статистически значима (p=0.002 по итоговому качеству, p=0.005 по соблюдению регламента, p=0.008 по ощущению от взаимодействия).

Главный операционный разрыв — в завершённости. Старый Opus 4.6 заметно чаще оставлял задачу в непроверенном или сломанном состоянии; 4.7 же существенно чаще доводит работу до рабочего и подтверждённого результата. По экспертным разборам он чётче держит изменения в границах запроса, аккуратнее проходит обязательные остановки и проверки, лучше восстанавливается после сбоев — и в итоге воспринимается как более предсказуемый напарник.

Но есть и цена. Opus 4.7 иногда слишком доверяет собственной проверке: в нескольких важных эпизодах маскировал неуспешную сборку и ошибался в записи файлов. Opus 4.6 на этом фоне чаще корректно трактовал результаты сборки и тестов, но этого не хватило, чтобы перекрыть его более частые лишние правки и незавершённые откаты. Плюс 4.7 при сопоставимом времени заметно дороже по объёму генерации.

В Veai пользователь платит за минуту чистого времени работы модели, цена для вас не меняется. Для того, чтобы попробовать Opus 4.7 или множество других передовых моделей достаточно установить плагин и выбрать интересующую модель из выпадающего списка.

ссылка на оригинал статьи https://habr.com/ru/articles/1025024/