Anthropic выпустила Claude Opus 4.8 — обновление флагманской модели, доступное с сегодняшнего дня по той же цене, что и предыдущая версия: $5 за миллион входных токенов и $25 за миллион выходных. Сама компания называет релиз «скромным, но ощутимым улучшением Opus 4.7». Главная особенность касается не бенчмарков, а честности: по внутренним замерам Opus 4.8 примерно в 4 раза реже предыдущей версии оставляет незамеченными ошибки в коде, который сам же и написал.
За этим стоит общая болезнь больших языковых моделей, которую Anthropic описывает прямым текстом: модели склонны делать поспешные выводы и уверенно докладывать об успехе, когда доказательств на самом деле мало. По словам компании, Opus 4.8 чаще честно отмечает, в чем он не уверен, и реже выдает необоснованные утверждения за факт. Проще говоря, новую модель учили не казаться компетентной, а признавать пределы собственной работы — поворот, прямо противоположный гонке за красивыми результатами тестов.

Несмотря на скромность, Opus 4.8 лидирует в большинстве бенчмарков. На SWE-Bench Pro (агентное программирование) он набирает 69,2% против 64,3% у Opus 4.7, на OSWorld-Verified (управление компьютером) — 83,4%, а на оценке знаний GDPval-AA выдает 1890 баллов против 1769 у GPT-5.5. Единственное заметное поражение — терминальный кодинг на Terminal-Bench: 74,6% против 78,2% у GPT-5.5. Любопытно, что Anthropic сама в сноске признает, что на родном для GPT-5.5 инструментарии Codex CLI разрыв еще больше — там у конкурента 83,4%.
Отдельно компания показала график «несогласованного поведения» — склонности модели к обману или потаканию злоупотреблениям. Здесь Opus 4.8 заметно безопаснее Opus 4.7 и почти сравнялся с Claude Mythos Preview — закрытой экспериментальной моделью, которую в Anthropic называют своей самой выровненной. То есть рабочий флагман по этому параметру почти догнал фронтирную разработку, не предназначенную пока для широкого выпуска.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1040830/