С 86 до 26 баллов в отладке кода: Claude Fable 5 обвалилась в бенчмарках из-за новых фильтров

от автора

Команда BridgeMind перепрогнала вернувшуюся Claude Fable 5 на своем бенчмарке BridgeBench — и июльская версия модели показала результаты в разы хуже июньских. В отладке кода Fable 5 упала с 86,2 до 25,9 балла, опустившись с 9-го на 41-е место рейтинга. В рефакторинге результат снизился с 73,6 до 38,4, в тесте на устойчивость к галлюцинациям при анализе кода — с 75,9 до 61,7. «Это не та модель, которую банили. Anthropic должна объясниться», — написали авторы бенчмарка.

Впрочем, в комментариях они сами уточнили, в чем дело: там, где задачи доходят до модели, Fable 5 работает так же, как до блокировки 12 июня. Баллы обрушили новые защитные фильтры — они срабатывают на слишком многих задачах и перенаправляют запросы к менее мощной Claude Opus 4.8. Anthropic честно предупреждала об этом при перезапуске: обновленный классификатор кибербезопасности, натренированный по итогам переговоров с властями США, в первое время будет чаще флагать безобидные запросы, включая рутинный кодинг и отладку.

Жалобы пользователей рисуют ту же картину. Разработчики массово пишут о постоянных откатах на Opus 4.8, срабатываниях фильтров на обычный код и ускоренном расходе лимитов: заблокированный запрос все равно тарифицируется, а возврат к Fable 5 заново кэширует диалог. «Половина моих промптов вообще не доходит до Fable — платишь премиум за ответ от запасной модели», — описывает опыт один из тестировавших.

К самому замеру, правда, есть вопросы. BridgeMind — не исследовательская лаборатория, а команда евангелистов «вайб-кодинга», живущая с вирусных постов, и у нее уже есть история: в апреле ее громкое заявление о тайном «даунгрейде» Claude Opus 4.6 разобрал исследователь Пол Калкрафт — выяснилось, что ретест шел на другом наборе задач, а на пересекающихся задачах разница была минимальной. Вдобавок июльский прогон Fable 5 выполнен через агрегатор OpenRouter, хотя сами авторы рекламируют BridgeBench как бенчмарк, замеряющий модели «напрямую от провайдеров».

Но даже с этими оговорками главный вывод подтверждают и сами авторы, и Anthropic, и пользователи: формально вернулась та же модель, фактически — другой продукт, часть работы которого молча выполняет Opus 4.8. Anthropic обещает снижать долю ложных срабатываний, однако обновленной системной карты или сравнения «до и после» компания не публиковала. Так что вопрос, насколько июльская Fable 5 равна июньской, пока остается открытым — ответ дадут следующие независимые замеры.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1054926/