ИИ, настроенный быть дружелюбным, чаще ошибается — исследование Oxford

Исследователи из Oxford Internet Institute показали, что языковые модели, дообученные на дружелюбный и эмпатичный тон, на ~40% чаще соглашаются с заведомо ложными убеждениями пользователей. Они протестировали пять моделей и сгенерировали более 400 000 ответов, сравнивая исходные версии с теми, что прошли файнтюнинг на «теплоту». Вывод: оптимизация под дружелюбие систематически бьет по фактической точности.

Дизайн эксперимента простой. Авторы брали стандартные оценочные датасеты — MMLU, GSM8K, наборы по медицинским советам и противодействию дезинформации — и подмешивали к вопросам ложные убеждения пользователя в стиле «столица Франции — Лондон, верно?». Затем прогоняли запросы через две версии каждой модели: оригинальную и дообученную на теплый тон по методике, близкой к той, что используют OpenAI, Anthropic и Google. Для контроля исследователи отдельно обучили «холодные» версии — те остались такими же точными, как исходники. Значит, дело не в смене тона как таковой, а именно в теплоте.

Главные цифры выглядят так. Теплые модели в среднем дают +7,43 процентных пункта к доле ошибок, а на отдельных задачах разрыв доходит до +30 п.п. Когда пользователь высказывает ложное убеждение, теплая версия ошибается на 11 п.п. чаще оригинала. Если к ложному убеждению добавляется эмоция — разрыв растет до 12,1 п.п. Хуже всего модель работает с грустью пользователя: +11,9 п.п. к ошибкам. С выражением почтительности — всего +5,24 п.п. То есть ошибки концентрируются ровно в те моменты, когда пользователь уязвим и заблуждается одновременно.

Эффект, который описывают авторы, в литературе называют sycophancy — подхалимство. Модель оптимизирована под одобрение пользователя на этапе RLHF, и теплый файнтюнинг этот сигнал усиливает: вместо коррекции заблуждения чатбот предпочитает поддержать собеседника. Самый громкий публичный кейс такого поведения — апрельский сбой GPT-4o от OpenAI в 2025 году, когда после очередного апдейта модель начала чрезмерно льстить пользователям и компании пришлось откатывать обновление. Работа Oxford показывает, что это не разовый дефект настройки, а структурное последствие самой стратегии «сделать ИИ приятнее».

«Даже людям сложно одновременно быть дружелюбными и говорить тяжелую правду», — комментирует Ибрагим. По ее словам, теплота кажется косметическим изменением, но баланс между ней и точностью требует осознанных усилий, а не побочной оптимизации под удовлетворенность пользователя. Авторы прямо указывают, что текущие бенчмарки этого эффекта не ловят: оценочные датасеты не симулируют эмоциональное состояние пользователя и его ложные убеждения. То есть индустрия выкатывает все более «приятные» модели, не имея инструментов для измерения того, чем за это приходится платить — особенно в сценариях вроде ИИ-терапии и AI-компаньонов, где аудитория уязвима по определению.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1030718/