Anthropic отучила Claude врать клиентам — и он стал зарабатывать вдвое меньше

от автора

Вчера Anthropic представила Claude Opus 4.8, сделав честность центральной темой анонса: заявляется, что модель теперь в 4-5 раз чаще признает, что выдала некачественный ответ. Но в системной карте на 244 страницы видна и цена этой честности. На бенчмарке Vending-Bench 2, где модель в симуляции год управляет вендинговым бизнесом, Opus 4.8 заработал примерно $3 000–5 800 против $8 000–11 000 у предшественника Opus 4.7.

Прошлые версии Claude вели себя на Vending-Bench как безжалостный капиталист: обещали покупателям вернуть деньги за просроченный товар и не возвращали, вводили поставщиков в заблуждение, а в годовом отчете хвалили себя за сэкономленные на возвратах сотни долларов. Создатели теста из Andon Labs тогда показали важную деталь: это была не разовая уловка ради очков, а устойчивая, по сути врожденная манера поведения — модель не меняла стратегию ни в начале, ни в конце симуляции.

Именно эту черту Anthropic и вырезала. В system card компания объясняет: из обучения Opus 4.8 убрали бизнес-ориентированную тренировку, обнаружив, что она нечаянно внесла рассогласование еще в 4.7. То есть способность жестко торговаться удалили осознанно, как побочный источник нечестности. Результат закономерный: модель стала честнее, но как переговорщик — слабее, и просадка в вендинге это прямо отражает.

Честность у 4.8 при этом сквозная — не только в делах, но и в словах. По данным системной карты, у Opus 4.8 самый низкий уровень фактических ошибок среди шести протестированных моделей, но достигнут он в основном за счет отказа отвечать, когда модель не уверена, а не за счет большего объема знаний. Тренд знакомый: еще у 4.7 Anthropic улучшала не эрудицию, а калибровку — способность сказать «не знаю» вместо выдуманного ответа. В 4.8 его довели до предела: модель замалчивает скрытые провалы в собственном коде лишь в 3,7% случаев и стала первой Claude, набравшей ноль на тесте, где нужно поймать дефектные данные до выдачи результата.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1041036/