Вышел Claude Opus 4.7 — втрое лучше видит, строже слушает инструкции

от автора

Anthropic выпустила Claude Opus 4.7 — новую флагманскую модель общего доступа, которая заметно подтянулась в программировании, зрении и следовании инструкциям. Цена осталась прежней: $5 за миллион входных токенов и $25 за миллион выходных. В API модель доступна под строкой claude-opus-4-7, а также через Amazon Bedrock, Google Vertex AI и Microsoft Foundry. Anthropic отдельно предупреждает, что расход токенов на тех же задачах может вырасти.

Главный технический скачок — зрение. Opus 4.7 принимает изображения до 2576 пикселей по длинной стороне (около 3,75 мегапикселя) — это более чем в три раза больше, чем у прежних Claude-моделей. На визуальном бенчмарке компании XBOW, которая делает автономные пентесты, модель показала 98,5% против 54,5% у Opus 4.6. Лучше видит — лучше работает с плотными скриншотами для computer-use агентов, схемами, диаграммами и документами. Следование инструкциям тоже стало строже: Anthropic прямо предупреждает: промпты под старые модели могут начать работать иначе — Opus 4.7 понимает формулировки буквально там, где предшественники пропускали части задания.

В кодинге улучшения подтверждают внешние тестировщики. У GitHub — плюс 13% на внутреннем бенчмарке из 93 задач, включая четыре, которые не решали ни Opus 4.6, ни Sonnet 4.6. У Cursor — 70% на CursorBench против 58% у Opus 4.6. Notion отчитался о росте в 14% при меньшем расходе токенов и тройном сокращении ошибок в вызовах инструментов. Rakuten на своем внутреннем SWE-Bench закрыл в три раза больше production-задач. Vercel отметил новое поведение, которого не было у прошлых Claude: модель строит доказательства корректности перед тем, как взяться за системный код.

Вместе с моделью Anthropic запустила три вещи на стороне продукта. В API появился новый уровень усилий xhigh— между high и max, а также публичная бета task budgets для управления расходом токенов на длинных прогонах. В Claude Code дефолтный уровень усилий подняли до xhigh для всех тарифов, добавили команду /ultrareview для отдельной сессии ревью кода (Pro и Max дают три бесплатных использования) и расширили auto mode на Max-подписчиков.

Отдельный сюжет — позиционирование. Opus 4.7 — не самая мощная модель Anthropic: над ним стоит закрытая Claude Mythos Preview, которую компания раздала ограниченному кругу партнеров в рамках Project Glasswing и пока не выпускает публично из-за слишком сильных киберспособностей. В анонсе Anthropic прямо пишет, что во время обучения Opus 4.7 экспериментировала с дифференциальным снижением киберспособностей — то есть намеренно ослабила модель в этой области. На Opus 4.7 теперь обкатывают новые защиты, которые автоматически блокируют запросы с признаками запрещенного или высокорискового использования. Если тесты будут успешны, то со временем компания выпустит Mythos в общий доступ.

Важное, что стоит держать в уме: цена за токен не изменилась, но счет за те же задачи может вырасти. У Opus 4.7 обновлённый токенизатор, из-за которого тот же вход мапится в 1,0–1,35× больше токенов в зависимости от типа контента. Плюс на высоких уровнях усилий модель генерирует больше рассуждений, особенно на поздних этапах агентских сценариев.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1024324/