Fable 5 из подвала, Sonnet 5 в дефолт. Что Antropic сделал за 5 дней

от автора

Утро четверга. Открываю Claude Code, начинаю разбираться с одной задачей и краем глаза замечаю. В шапке рабочего чата написано «Sonnet 5». А я не переключал.

Постойте. Sonnet 5 у нас ещё вчера был 4.6.

Отвлекаюсь от задачи, лезу в новости Antropic. И тут понимаю что за пять дней там случилось столько, что мимо этого никак пройти нельзя. Вернули Fable 5, который в июне закрыли по экспорт-контролю США. Выкатили Sonnet 5 и сразу поставили его дефолтом на все планы. Открыли программу для баг-хантеров через HackerOne. Плюс ещё вагон мелочей.

Сел разбираться. По ходу дела прогнал новый Sonnet 5 на своих задачах, наткнулся на два хитрых подвоха. Расскажу что понял.

Возвращение Fable 5 из подвала

Быстро контекст, если пропустили эту историю в июне. Antropic 9 июня выкатил Файбл 5, это первая модель их нового Mythos-класса. Оценили сильнее опуса 4.8 на большинстве бенчмарков. SWE-Bench Pro 80.3 против 69.2. FrontierCode Diamond в два раза выше. Обещали три месяца бесплатно всем платным подписчикам.

12 июня всё это резко закрыли. Правительство США выкатило экспортную директиву, Antropic обязали приостановить доступ к Файбл 5 и Митос 5. Хайку, Соннет, Опус — тех не тронуло. Компания больше не обсуждала подробности директивы публично, но косвенных сигналов было полно. Кибербезопасность, биология, model distillation.

19 дней Файбл 5 стоял в подвале. Люди работали с опусом или ждали. Многие мигрировали на GPT-5.5, что тоже неплохой вариант.

1 июля директиву сняли. Antropic начал глобально возвращать Файбл 5. Но не в том виде что в июне.

Что добавили при возвращении

Первое, cyber safeguards стали жёстче. Классификатор, который в первой версии перекидывал только около 5% сессий на старый опус, теперь ловит шире. Precision по слову Antropic вырос, false positive не сильно, но пороги подкрутили в сторону строгости. По косвенным замерам fallback теперь ловит около 7-8% сессий, не все они попадают в блок, но переключение на опус происходит чаще.

Второе, они опубликовали draft AI jailbreak severity framework. Это документ, который классифицирует джейлбрейки по уровням угрозы. Пять уровней. Пятый уровень означает что модель произвела реальный вред. Первый уровень означает что модель просто выдала нежелательный контент, но безобидный. Раньше внутри компании это классифицировалось как-то иначе, теперь фреймворк открытый и все понимают о чём речь.

Третье, они открыли программу на HackerOne. Ресёрчер находит cyber-джейлбрейк, репортит через платформу, получает награду. Публичные ставки от $500 до $50000 в зависимости от severity. Идея в том чтобы легитимизировать поиск уязвимостей и снять давление с чёрного рынка.

Мне лично всё это выглядит разумно. Возможно, чуть с перегибом на строгость. Но после инцидента с директивой это ожидаемо. Antropic не мог просто вернуть модель в старом виде, надо было показать что теперь всё хорошо.

Кстати, интересная деталь. По release notes видно что Файбл 5 после возвращения ещё чуть-чуть подкрутили и в качестве. Незначительно, но на паре бенчмарков есть плюс 1-2 пункта. Внутри они это не выделяли как «новая версия», формально это тот же Файбл 5. Но веса, видимо, чуть другие.

Sonnet 5 стал дефолтом

Второе большое событие. 30 июня, за день до возвращения Файбл 5, Antropic выкатил Соннет 5. И сразу поставил его дефолтом на все планы. Free, Pro, Team, Enterprise. Кто зашёл в веб-клиента после этой даты и не менял модель руками, работает уже с ним.

Соннет всегда был у Antropic средним классом. Достаточно умный, чтобы решать реальные задачи. Быстрый и дешёвый, чтобы гонять на нём агентов пачками. Идея Соннет 5 в том, чтобы этот баланс сдвинуть ещё сильнее. Дать производительность близко к опусу, но по цене мидла.

Цены

До 31 августа действует вводная цена. 2 доллара за миллион входных токенов, 10 за миллион выходных. С сентября она поднимется до 3 и 15. Это грубо в полтора раза дешевле опуса 4.8 на выходных токенах, и почти в семь раз дешевле Файбл 5.

Для агентских задач, которые генерят много выходных токенов, это огромная разница. Раньше я на клиентском проекте прикидывал бюджет, брал опус для сложной части, соннет 4.6 для рутины. Теперь могу почти всё завести на соннет 5.

Бенчмарки

Я не большой любитель бенчмарк-таблиц. Всё равно они плохо предсказывают что будет на моей задаче. Но пара цифр стоит внимания.

Бенчмарк

Sonnet 5

Opus 4.8

Sonnet 4.6

SWE-Bench Pro (агентский кодинг)

63.2

69.2

58.1

Terminal-Bench 2.1

80.4

74.6

68.9

BrowseComp (агентский поиск)

51.7

55.1

43.2

OSWorld-Verified (использование ПК)

61.4

63.8

52.5

Смотрите что тут интересно. По кодингу опус впереди на 6 пунктов. Но по Terminal-Bench соннет 5 обгоняет опуса на почти 6 пунктов. Это бенчмарк на способность модели работать в терминале, вызывать реальные команды, обрабатывать вывод.

Что это значит на практике. Для агента который берёт задачу, лезет в терминал, вызывает git, npm, docker, парсит вывод, принимает решения по итогу, для такого агента соннет 5 сейчас честно лучше опуса. И при этом сильно дешевле.

Для агента который пишет большую фичу с нуля, соннет 5 всё ещё уступает опусу. Но разрыв уменьшился заметно.

BrowseComp и OSWorld это про использование инструментов и работу с интерфейсом. Тут опус ещё впереди, но по деньгам соннет 5 в разы дешевле, и часто он в 4-5 раз лучше по cost-performance, если считать общую стоимость проекта.

Подвох. Новый токенизатор

Вот тут кроется штука, о которой Antropic мог бы сказать чуть громче. Соннет 5 использует обновлённый токенизатор. Тот же самый текст на входе теперь дробится немного иначе.

По моим замерам на реальных промптах разница получается от 1.0 до 1.35 раз. На чистом английском тексте почти без изменений. На русском тексте с обычным контекстом плюс 15-20%. На коде и структурированных документах плюс 20-30%.

Что это означает. Заявленная цена 2 доллара за миллион токенов. Но по реальному счёту, если ваш промпт содержит русский или код, эффективная стоимость выходит около 2.5-2.7. Не смертельно, но заметно.

Ещё одна тонкость. Кэширование считает токены после токенизации. Значит если у вас длинный system prompt, который вы раньше держали в кэше, при переходе на соннет 5 первый разогрев кэша будет чуть дороже. По второму и следующим запросам разница уже не важна.

Я не думаю что это скрытая злоба Antropic. Скорее это техническое следствие того что модель обучали с новым словарём. Но факт есть факт. Заявленное снижение цены компенсируется на 30-40% этим эффектом. Если вы считаете что «стало дешевле в два раза» — вы попадаете в ловушку, реальное снижение меньше.

Что попробовал за неделю

Не буду делать вид что провёл масштабное тестирование за пять дней. Но пару задач прогнал.

Задача первая, агент для сбора логов из семи разных систем. Раньше на опусе, работало прилично, но 40 центов за один прогон. Переключил на соннет 5. Работает. Ошибок в решении не увидел. Стоимость упала до 12 центов, то есть в 3.3 раза. Учитывая токенизатор, реальное снижение примерно 2.5-2.7. Всё равно ощутимо.

Задача вторая, парсинг PDF-договоров с извлечением полей. Тут я не рискнул сразу переключить. Прогнал 50 договоров параллельно на опусе и на соннет 5, сверил результаты. На 47 совпало один в один. На 3 у соннет 5 были мелкие расхождения в форматировании дат. По сути не критично, поле извлекалось верно, но формат 12 марта 2025 года вместо 2025-03-12. Поправил промпт, стало 50 из 50.

Задача третья, длинная сессия рефакторинга с 30 сообщениями и множеством инструментов. Тут соннет 5 сдулся раньше опуса. К 20-му сообщению начал терять контекст, забывать что мы обсуждали 15 сообщений назад. Опус тянул до конца. Для длинных сессий пока остаюсь на опусе.

Задача четвёртая, работа с терминалом через агент. Тут соннет 5 просто лучше. Меньше промахов при парсинге вывода команд, короче цепочки, чище решения. Это ровно то место где Terminal-Bench показал плюс 6 пунктов.

Общий вывод для меня. Соннет 5 победил в 3 сценариях из 4. Опус остаётся когда сессия длинная или задача требует глубокого рассуждения.

Что это всё значит

Смотрите на неделю с высоты птичьего полёта.

Antropic одновременно решает две задачи. Первая, показать государству что после экспортных проблем они умеют делать модели с внятной safety-обёрткой. Отсюда Файбл 5 с новыми классификаторами, jailbreak severity framework, HackerOne. Это не про качество модели, это про доверие регулятора.

Вторая задача, забрать у OpenAI и Google рынок агентов. Основные деньги сейчас крутятся не в разговорных чатах, а в агентских сценариях. Кто автоматизирует поддержку, кто пишет код, кто парсит документы. Именно там соннет 5 с его дешевизной и хорошим Terminal-Bench становится очень сильным.

Если посмотреть на прошлый год, средний класс моделей у Antropic был всегда конкурентен, но не выделялся. Sonnet 3.5 в своё время выстрелил именно на кодинге. Sonnet 4 был просто добротным. Sonnet 4.6 стал заметно лучше, но недорогим он не был. Соннет 5 переворачивает эту логику. Теперь у среднего класса та же экономика что у Хайку, но производительность близко к топу.

И на этом фоне возвращение Файбл 5 выглядит как понятный сигнал разработчикам. Смотрите, мы контролируем ситуацию с safety, вы можете спокойно строить агентские приложения. Опус и Митос — верхняя планка. Соннет 5 — рабочая лошадка.

Что делаю я в ближайшие пару недель

Первое, все агентские рабочие процессы переключаю на соннет 5 по умолчанию. Опус оставляю для длинных сессий и для задач где реально нужно много рассуждать.

Второе, пересчитываю бюджет на клиентские проекты с учётом токенизатора. Не по бумажным ценам, а по реальному расходу.

Третье, для проектов с чувствительными данными пока подождать пару недель. Хочу посмотреть как поведёт себя новый safety-классификатор в Файбл 5 на реальных запросах. Если увижу что fallback на опус срабатывает слишком часто на нашей теме, буду искать обход.

А чего не хватает

Мне бы очень хотелось увидеть от Antropic отдельный лог того, где сработал fallback на опус. Прямо в API-ответе или в аналитике. Сейчас мы не знаем, ответил нам соннет 5 или тайно опус. На большой части задач это не имеет значения, но для сравнительных исследований и для честной аналитики это важно.

Ещё было бы очень удобно если бы новый токенизатор считался в существующем токен-счётчике одинаково с моделью. Сейчас в промпт-инспекторе токенизация всё ещё показывается для соннет 4.6, и надо руками пересчитывать. Мелочь, но раздражает.

И интересно как в реальности будет работать HackerOne-программа. Кто первым найдёт что-то серьёзное, за сколько получит выплату, будет ли это красиво описано публично. Первые несколько кейсов покажут насколько программа реальная.

В общем, за одну неделю Antropic сделал больше, чем некоторые компании делают за квартал. Возвращение Файбл 5, выкат Соннет 5 в дефолт, новый токенизатор, HackerOne, jailbreak framework. Как минимум месяц теперь будет о чём подумать и что перепробовать.

Если у вас есть свой опыт первых прогонов Соннет 5 — было бы интересно услышать. Особенно на нестандартных задачах, где обычные бенчмарки ничего не говорят. У меня ощущение что на неделе выяснится ещё пара нюансов, которые сейчас не видны.

ссылка на оригинал статьи https://habr.com/ru/articles/1055752/