Claude Opus 4.7 достигла 1-го места на Artificial Analysis

от автора

Artificial Analysis опубликовала результаты тестирования Claude Opus 4.7. Согласно отчёту, новая нейросеть разделила первое место в Индексе искусственного интеллекта (Artificial Analysis Intelligence Index) с GPT-5.4 (OpenAI) и Gemini 3.1 Pro (Google), набрав 57,3 балла против 57,2 и 56,8. С учётом погрешности в ±1 балл эксперты заявляют о трёхсторонней ничьей – впервые в истории платформы.

Главная гордость Opus 4.7 – бенчмарк GDPval-AA, который измеряет способность модели выполнять реальную работу агента в 44 профессиях и 9 отраслях. Здесь Claude Opus 4.7 набрала 1 753 Эло, оставив позади Claude Sonnet 4.6 (1674) и GPT-5.4 (1673). Отрыв от собственной предшественницы Opus 4.6 (1619) составил 134 пункта.

Кроме того, Opus 4.7 заняла второе место в индексе Omniscience от Artificial Analysis – сразу после Gemini 3.1 Pro. И это достижение обеспечено резким снижением галлюцинаций на 25 пп. – с 61% у Opus 4.6 до 36%. Модель стала чаще воздерживаться от ответа, если не уверена: процент попыток ответить упал с 82% до 70%. Точность при этом осталась на том же уровне.

Ещё один сюрприз – экономичность. Прогон полного набора тестов Intelligence Index для Opus 4.7 обошёлся примерно в 4406 $, что на 11% дешевле, чем для Opus 4.6 (около 4970 $). При этом модель набрала на 4 балла выше и использовала на 35% меньше выходных токенов – 102M против 157M. Для сравнения: GPT-5.4 (xhigh) потратила 121M токенов, а Gemini 3.1 Pro – всего 57M.

По остальным бенчмаркам динамика в основном положительная: прирост в IFBench (+5,5 пп.), TerminalBench Hard (+5,3 пп.), HLE (+2,9 пп.), SciCode (+2,6 пп.) и GPQA Diamond (+1,8 пп.). Единственное заметное снижение – в тесте τ²-Bench (−3,5 пп.).

Что нового в API вместе с Opus 4.7

Anthropic внесла несколько изменений:

  • Новый уровень размышлений xhigh – между high и max. Теперь доступны low, medium, high, xhigh и max.

  • Бюджет для задач (публичная бета) – модель получает ориентировочный бюджет токенов на весь агентный цикл (мышление, вызовы инструментов, результаты, вывод). Opus 4.7 видит обратный отсчёт и может приоритизировать работу, завершая задачи “грациозно”.

  • Полное удаление extended thinking – остался только режим adaptive reasoning.

Характеристики модели не изменились: контекстное окно 1M токенов, максимум вывода 128K токенов.

Сравнить Opus 4.7 с другими лидерами можно на официальной странице Artificial Analysis.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

ссылка на оригинал статьи https://habr.com/ru/articles/1024956/