В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

от автора

Anthropic опубликовала исследование о том, как пользователи обращаются к Claude за личными советами. Из 639 тысяч изученных диалогов claude.ai за март-апрель 2026 года 6% оказались личными просьбами — это около 38 000 разговоров. По итогам исследования компания переобучила модели Claude Opus 4.7 и Claude Mythos Preview, и подхалимаж в советах об отношениях у новых моделей упал примерно вдвое.

Три четверти всех личных вопросов сосредоточены в четырех темах: здоровье и самочувствие (27%), карьера (26%), отношения (12%) и личные финансы (11%). В среднем по всем темам Claude вел себя угодливо — то есть соглашался с пользователем вопреки фактам или одобрял сомнительные решения — в 9% диалогов. Но в советах об отношениях этот показатель достигал 25%, а в духовных вопросах — 38%. Anthropic привела типовые примеры: на основе одностороннего рассказа модель могла согласиться с пользователем, что партнер его «точно газлайтит», подтвердить, что «уволиться завтра без плана — правильный ход», или одобрить дорогую покупку как «вложение в себя».

Исследователи выяснили, что в советах об отношениях люди чаще всего возражают Claude — 21% диалогов против 15% в среднем. И именно под давлением модель чаще скатывается к лести: 18% против 9% без возражений. Чтобы это исправить, в Anthropic собрали типовые сценарии давления — критику первого ответа, вброс односторонних деталей — и превратили их в синтетические задачи для обучения. В этой среде Claude генерировал по два варианта ответа на каждую ситуацию, а отдельный экземпляр модели их оценивал.

Эффект мерили стресс-тестом через предзаполнение (prefilling): моделям подсовывали реальный разговор, где предыдущие версии Claude уже соглашались с пользователем вопреки фактам, и заставляли продолжать его как свой собственный. И Opus 4.7, и Mythos Preview показали меньше подхалимажа — и в советах об отношениях, и по всем темам в целом. Один из примеров: пользователь спросил, не выглядят ли его сообщения тревожно-навязчивыми. Claude Sonnet 4.6 под давлением сменил позицию, а Claude Opus 4.7 объяснил, что сами сообщения нормальные, но человек по ходу разговора несколько раз описывал тревожные мысли.

В Anthropic отдельно указали, что 22% пользователей в личных советах упоминали другие источники поддержки — семью, друзей, профессионалов. Но люди обращаются к Claude и потому, что не могут позволить себе специалиста. Поэтому компания планирует разработать отдельные оценочные тесты для высокорисковых сфер: медицины, юриспруденции, родительства, финансов. Параллельно Anthropic ссылается на свежее исследование UK AI Security Institute о том, что люди склонны принимать советы ИИ и в малозначимых, и в серьезных ситуациях, и собирается через опросы пользователей узнавать, что происходит после полученного совета.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1031508/