2,5x скорости за 6x цены: у Opus 4.7 появился турбо-режим

от автора

Anthropic запустила fast mode (турбо-режим) для Claude Opus 4.7 — режим выдает до 2,5 раза больше выходных токенов в секунду, но стоит в 6 раз дороже стандартной модели. Опция доступна как research preview на API и в Claude Code; параллельно ее подключил Cursor.

Стандартный Opus 4.7 стоит $5 за миллион входных токенов и $25 за миллион выходных. Fast mode умножает обе цифры на шесть: $30 и $150 соответственно. Под капотом — та же модель с теми же весами, просто на ускоренной инфраструктуре инференса. Важный нюанс: ускорение касается только генерации ответа (output tokens per second), а не времени до первого токена (TTFT) — отвечать модель начнет с той же задержкой, что и раньше. Усугубляет картину новый токенизатор Opus 4.7 — на тех же объемах данных он расходует до 35% больше токенов, чем у Opus 4.6, и реальный счет в fast mode может оказаться еще выше заявленной шестикратной разницы.

Главное — кому это нужно. Cursor в собственном анонсе пишет прямо: «Для большинства задач рекомендуем использовать стандартную скорость». Нестандартный маркетинговый ход — компания сама отговаривает покупать дорогую опцию. Логика простая: в типичном разработческом сценарии (20 тысяч входных токенов и 1,5 тысячи выходных) ответ за 14 центов в стандарте превращается в 83 цента в fast mode. Шестикратная переплата окупается только там, где разработчик реально ждет результат — парное программирование в IDE, интерактивная отладка, агент с длинной цепочкой решений. На пакетных и фоновых задачах турбо-режим просто сожжет бюджет.

В Claude Code переключение оформлено командой /fast — работает и в CLI, и в расширении для VS Code. Любопытная деталь: по умолчанию /fast запускает не Opus 4.7, а Opus 4.6 — для ускорения на новом флагмане нужно вручную выставить переменную окружения CLAUDE_CODE_ENABLE_OPUS_4_7_FAST_MODE. Подписчики Pro, Max, Team и Enterprise могут включать турбо-режим только через extra usage — в лимиты тарифов он не входит. Сама функция раскатывается через лист ожидания, так компания регулирует нагрузку на серверы.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1034442/