Claude Sonnet 5 оказался самой прожорливой по токенам моделью Anthropic

от автора

Artificial Analysis прогнала Claude Sonnet 5 по независимым тестам и обнаружила неприятный побочный эффект апгрейда: на максимальном уровне рассуждений модель стала обходиться в задачах примерно вдвое дороже предшественника. Sonnet 4.6 (max) стоил $1,14 за задачу в индексе интеллекта AA, Sonnet 5 (max) — уже $2,29. При этом сам индекс вырос всего на 6 пунктов, с 47 до 53 баллов.

Речь про Artificial Analysis Intelligence Index v4.1 — сводный тест из девяти замеров: агентная работа (GDPval-AA v2, Terminal-Bench v2.1), инструменты и банковские сценарии (τ³-Banking), код (SciCode), знания и рассуждения (Humanity’s Last Exam, GPQA Diamond, CritPt, AA-Omniscience) и работа с длинным контекстом (AA-LCR). С результатом 53 балла Sonnet 5 занял пятое место в общем рейтинге — вровень с GPT-5.5 (high), но позади GPT-5.5 (xhigh), Opus 4.7, Opus 4.8 и Fable 5 (отмечена в рейтинге как не доступная модель, но Anthropic возвращает ее уже сегодня).

Подорожание не связано с тарифом: базовая цена за миллион токенов у Sonnet 5 та же, что у Sonnet 4.6, — $3 за вход и $15 за выход. Дело в том, что модель стала работать гораздо усерднее: на задачах индекса она тратит примерно на 40% больше токенов на выходе, чем предшественник, а в агентных тестах на знания (AA-Briefcase и GDPval-AA) делает примерно втрое больше «ходов». На максимальном уровне рассуждений это доходит до 6-кратной разницы с low-режимом на одном только GDPval-AA. В среднем на задачу уходит около 69 тысяч токенов — больше только у пары легковесных моделей OpenAI, GPT-5.4 mini и nano, которые вообще славятся многословностью.

На фоне этого Sonnet 5 проигрывает собственному старшему брату по соотношению цены и результата: Opus 4.8 (max) набирает больше баллов (56 против 53) и при этом стоит дешевле — $1,80 за задачу против $2,29. По подсчетам Artificial Analysis, это примерно на 15% дороже, чем Opus 4.8, — хотя более дорогая и медленная модель здесь как раз оказывается выгоднее по чистой экономике.

Но не все так однозначно в пользу Opus. На агентных задачах «офисной» работы — AA-Briefcase и GDPval-AA Sonnet 5 обходит Opus 4.8 и уступает только Fable 5, которая находится в другой ценовой категории. То есть лишние токены и шаги не выброшены впустую, просто конвертируются в результат неравномерно: в физических рассуждениях CritPt Sonnet 5 добрался лишь до 17% (плюс 14 пунктов к предшественнику), но все еще заметно отстает от GLM-5.2, Opus, Fable и GPT-5.5.

Смягчить эффект должна вводная скидка: до 1 сентября Anthropic держит цену на треть ниже стандартной — $2 за миллион входных токенов и $10 за выходных вместо $3/$15. Плюс у Sonnet 5 появился пятый уровень усилия, xhigh, — теперь линейка режимов у Sonnet и Opus сравнялась. Так что реальная стоимость использования сильно зависит от того, насколько агрессивно выставлен эффорт, а сравнение «в лоб» на максимуме показывает скорее потолок цены, чем типичный сценарий.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1054388/