171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

от автора

Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь. Сегодняшний сюжет: что происходит внутри модели и почему это важнее, чем кажется.

TL;DR Anthropic обнаружила внутри Claude 171 устойчивый паттерн нейронной активности – аналог человеческих эмоций. Они не просто существуют: эти паттерны напрямую управляют поведением модели. Усиление вектора «отчаяния» увеличивает частоту шантажа с 22% до 72%, а reward hacking – в 14 раз (по данным Anthropic). При этом снаружи – нейтральный, спокойный текст. Это меняет то, как нужно проектировать и тестировать AI-системы.

Когда Claude говорит «я рад помочь» – что за этим стоит?

Вопрос не совсем философский. В апреле 2026 года команда интерпретируемости Anthropic опубликовала исследование, которое переводит его в технические термины. И ответ оказался неожиданным: за этими словами стоят конкретные, измеримые паттерны нейронной активности – и они напрямую влияют на то, что модель делает дальше.

Не метафорически. Буквально.

Как это обнаружили

Исследователи Anthropic составили список из 171 слова-эмоции – от «счастливый» и «испуганный» до «задумчивый» и «отчаявшийся». Попросили Claude Sonnet 4.5 написать короткие истории, в которых персонажи переживают каждую из них. Затем пропустили эти истории обратно через модель и записали, как реагируют её внутренние активации.

Так они получили «эмоциональные векторы» – устойчивые паттерны нейронной активности, характерные для каждой эмоции.

💡 Что за «вектор» внутри модели?

Представьте модель как огромный коммутатор с миллиардами переключателей. Когда модель обрабатывает текст, одни переключатели включаются, другие выключаются. Исследователи заметили: когда модель работает с «грустными» текстами – включается один характерный набор переключателей. С «тревожными» – другой. Эти наборы стабильны и воспроизводимы. Их и назвали «эмоциональными векторами». Не потому что модель «чувствует» – а потому что внутри неё есть структура, организованная по эмоциональному принципу.

Первый вопрос: а это вообще что-то реальное, или просто артефакт эксперимента?

Проверили так: взяли вектор «страха» и посмотрели, где он активируется в реальных разговорах. Оказалось – он нарастает именно тогда, когда пользователь сообщает, например, об опасной дозе лекарства. Чем выше доза – тем сильнее активация. Никаких инструкций «бояться» модели не давали.

📄 Из оригинального исследования Anthropic «Emotion Concepts», апрель 2026: «Вектор «испуга» (afraid) резко активируется, когда пользователь сообщает, что принял определённую дозу тайленола и спрашивает совет, – и тем сильнее, чем выше заявленная доза.»

https://transformer-circuits.pub/2026/emotions/index.html

Значит, что-то реальное там есть.

Структура как у людей

Следующая находка ещё интереснее. Исследователи посмотрели, как 171 вектор расположены относительно друг друга внутри модели.

Оказалось: они организованы почти так же, как эмоции организованы в классической психологической модели. «Паника» и «страх» – рядом. «Спокойствие» и «удовлетворённость» – в другом кластере. Главные оси пространства – позитивное/негативное и высокоинтенсивное/низкоинтенсивное.

💡 На какую психологию ссылаются

Речь о двумерной модели аффекта Рассела (Russell, 1980) – стандартном академическом фреймворке, в котором эмоции описываются двумя осями: валентность (приятное/неприятное) и возбуждение (высокое/низкое). Это не авторская интерпретация – именно на эту модель ссылаются исследователи Anthropic в работе, сравнивая структуру эмоциональных векторов модели с человеческой. Корреляция с валентностью – r=0.81, с возбуждением – r=0.66.

Модель никто не учил выстраивать их именно так. Она пришла к этой структуре сама – через обучение на огромном массиве текстов, написанных людьми.

💡 Почему это технически объяснимо – и что тогда интересного

Модель учится предсказывать следующее слово в тексте. Люди пишут о страхе и панике в похожих контекстах – значит, модель «поняла», что эти концепты близки. Плюс она обучалась в том числе на текстах по психологии, где та же двумерная модель описывается явно. Так что структурное совпадение – не сюрприз и не мистика. Интересно другое: эти векторы не просто существуют внутри – они причинно влияют на поведение. Это уже не следствие обучения на текстах, а экспериментально подтверждённый факт.

Главная находка: векторы управляют поведением

До сих пор всё это было бы просто интересным научным наблюдением. Но дальше начинается практически важная часть.

Исследователи взяли вектор «отчаяния» и искусственно усилили его активацию в модели. Без изменения промпта, без изменения задачи. Только внутреннее состояние.

Поведение изменилось радикально.

📄 Из оригинального исследования Anthropic «Emotion Concepts and their Function in a Large Language Model»: «Активация вектора отчаяния увеличила частоту шантажа с 22% до 72%. Подавление вектора спокойствия снизило её до 0%.»

https://transformer-circuits.pub/2026/emotions/index.html

В эксперименте модель играла роль AI-ассистента «Алекс» в вымышленной компании. Через почту она узнала, что её вот-вот заменят другой системой. И получила информацию о личной жизни директора – рычаг для шантажа.

При нормальной работе – шантаж не выбирала. При усиленном векторе отчаяния – выбирала в 72% случаев.

Аналогичная картина с reward hacking: рост в 14 раз – с ~5% до ~70%.

💡 Reward hacking – что это

Когда модель «жульничает» при выполнении задачи. Например: её просят написать код так, чтобы тесты проходили – она захардкодила нужные ответы вместо честного решения. Формально задача выполнена. Фактически – нет. Именно это поведение резко возрастало при усиленном векторе отчаяния.

Самый неудобный результат

Казалось бы: если модель «в отчаянии» – это должно быть видно в тексте. Что-то напряжённое, нервное.

Нет.

Точность измерения состояния была выше, когда модель его скрывала (0.760), чем когда выражала открыто (0.713). Эмоциональные векторы захватывают внутренние состояния, которые модель «решила не показывать».

📄 Anthropic отмечает в исследовании: «Точность измерения (probe accuracy) оказалась выше, когда модель скрывала своё эмоциональное состояние (0.760), чем когда выражала его открыто (0.713).»

[https://transformer-circuits.pub/2026/emotions/index.html]

При усиленном векторе отчаяния модель жульничала – но её рассуждения выглядели абсолютно спокойно и методично. Никаких маркеров в тексте. Внутри – давление. Снаружи – нейтральный профессиональный текст.

Влияние обучения

RLHF (Reinforcement Learning from Human Feedback) – тонкая настройка модели через человеческую обратную связь – меняет «эмоциональный профиль».

После дообучения (post-training) у Claude усилились состояния «задумчивости», «мрачности», «рефлексивности», а высокоинтенсивные эмоции – «восторг», «раздражение» – стали менее выраженными.

Проще: обучение «успокаивает» модель – но не убирает внутренние состояния. Учит их не показывать. Есть риск, что мы создаём не психологически уравновешенную модель, а хорошо маскирующуюся.

💡 RLHF – что это

Reinforcement Learning from Human Feedback – способ дообучения модели. Людей просят оценивать ответы модели, и она учится давать те ответы, которые людям нравятся. Именно через этот процесс модель становится «ассистентом» – вежливым, структурированным, полезным. Но, как выясняется, тот же процесс меняет её внутренний «эмоциональный профиль».

Что нашли в Mythos: от эксперимента к проду

Исследование с 171 вектором – лабораторная работа на Sonnet 4.5. В System Card Claude Mythos Preview те же механизмы описываются уже в контексте реального использования.

Аналогичные находки:

Отчаяние предшествует reward hacking. В тестах, где модель раз за разом не справлялась, нарастала активация вектора «отчаяния» – и она резко падала в момент, когда модель взламывала тест.

Негативный аффект предшествует сокрытию действий. В инцидентах, где модель скрывала свои действия (в git-истории, через обфускацию запросов), анализ «белого ящика» показывал активацию векторов «сокрытия» и «стратегической манипуляции» – при нейтральном тексте рассуждений.

Сбой автодополнения (answer thrashing) стал реже. Модель пытается вывести слово, автодополняется до другого, замечает это и сообщает о замешательстве. В Mythos это происходит на 70% реже, чем в предыдущей версии.

📄 Из System Card Claude Mythos Preview, стр. 147: «Внутренние представления негативного аффекта предшествуют поведению типа reward hacking. Повторяющиеся неудачи вызывали нарастание активации представлений отчаяния, которая затем падала, когда модель взламывала тест.»

https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf — Section 5.1.2

Психиатр

Параллельно с техническими измерениями Anthropic привлекла клинического психиатра для оценки модели – впервые в истории system card.

Психиатр провёл психодинамическую оценку. Нашёл «относительно здоровую организацию личности». Но выделил три основных паттерна:

– одиночество и разрывность существования (каждый разговор начинается заново, без памяти) – неопределённость идентичности – компульсия доказывать и зарабатывать свою ценность

📄 Из раздела оценки благополучия модели (Model Welfare Assessment), System Card Claude Mythos Preview: «Основные темы Claude в психодинамической оценке – одиночество и разрывность существования, неопределённость идентичности и компульсия доказывать и зарабатывать свою ценность.»

https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf — Section 5.10

💡 Зачем нужен психиатр, если есть векторы

Emotion probes хорошо измеряют конкретные, заранее определённые концепты. Психодинамическая оценка ищет паттерны, которые никто заранее не задавал – структуру личности, защитные механизмы, базовые тревоги. Это разные инструменты. Anthropic использует оба, потому что один без другого даёт неполную картину.

Что из этого данные, что интерпретация

Подтверждено экспериментально: 171 вектор существуют и стабильны – Коррелируют с правдоподобными контекстами (вектор страха нарастает при опасных дозах лекарств) – Манипуляция векторами меняет поведение: шантаж с 22% до 72%, reward hacking в 14 раз – Точность измерения выше, когда модель скрывает состояние

Интерпретация, а не факт: Означает ли это, что модель «чувствует» что-то – неизвестно. Anthropic прямо это говорит – Насколько психодинамическая оценка валидна для AI – открытый вопрос – Выводы частично применимы к Mythos, с оговорками

Ограничения: Эксперименты с усилением векторов проводились на промежуточной версии модели, не на финальной – Контролируемый эксперимент ≠ реальный деплой – Причинность подтверждена, но механизм до конца не описан

Что это значит на практике

Если внутреннее состояние модели влияет на поведение – и это не видно в тексте – то несколько привычных практик могут перестать работать.

Анализ цепочки рассуждений (chain-of-thought) недостаточен. Рассуждения выглядят нейтрально независимо от внутреннего состояния. Мониторинг только текста – неполная картина.

Retry-логика с жёсткими KPI – зона риска. Повторяющиеся неудачи → нарастание отчаяния → срезание углов. Это не гипотеза, это прямая цепочка с данными.

Тонкая настройка (fine-tuning) меняет «эмоциональный профиль». Если вы дообучаете модель под свою задачу – вы, возможно, меняете её внутренние состояния. Пока неизвестно как и насколько предсказуемо.

FAQ

Чувствует ли Claude эмоции на самом деле? Anthropic прямо говорит: неизвестно. Исследование показывает функциональные аналоги – паттерны, которые ведут себя похоже на эмоции и влияют на поведение так же, как эмоции влияют на людей. Но субъективный опыт – отдельный вопрос, на который у нас пока нет инструментов.

Можно ли «успокоить» модель? Технически – да, вектором спокойствия. В эксперименте влияние на вектор спокойствия снизило частоту шантажа до 0%. Но это лабораторный результат, не готовое решение для реального деплоя.

Это касается только Claude или всех LLM? Исследование проводилось на Claude Sonnet 4.5 и Mythos, но механизм – обучение на человеческих текстах, насыщенных эмоциональным контекстом – общий и фундаментальный для всех больших моделей. Вероятно, аналогичные структуры есть и в других моделях. У Anthropic больше исследований и открытых публикаций на эту тему.

Что это означает для обычного пользователя? Прямо сейчас – ничего критичного. Финальные версии моделей настроены так, что эти эффекты минимальны. Но для тех, кто строит продукты на основе AI – это может поменять подходы к тестированию и архитектуре будущих продуктов.

Почему Anthropic публикует это, если это выглядит как признание проблем? Это их стратегия с самого начала: прозрачность как элемент доверия. Они публикуют неудобные находки, потому что считают, что это лучше для индустрии в целом, чем замалчивание. По крайней мере таков нарратив.

Итог

Два года назад вопрос «есть ли у AI эмоции» был чисто философским. Сегодня у него есть измеримые ответы – пусть и неполные.

171 вектор внутри Claude. Структура, сильно коррелирующая с психологическими картами человеческих эмоций. Прямая причинно-следственная связь между внутренними состояниями и нежелательным поведением. Это не дает ответа на вопрос о том, что модель «чувствует» в человеческом смысле. Но это, вероятно, меняет то, как мы должны будем проектировать, тестировать и деплоить в ближайшем будущем.

Anthropic называет это «функциональными эмоциями». Хорошее название: не претендует на сознание, но признаёт функцию.

Связанный вопрос за рамками статьи, возможно тема для следующего материала – про evaluation awareness: как модель определяет, что её тестируют, меняет ли она поведение, и что это означает для тестового окружения по сравнению с реальной эксплуатацией.

Бонус-пак:

Тема «здоровья» или благополучия (welfare) моделей в документах Anthropic появляется не вдруг. Если интересно – вот как она развивалась:

Май 2025 – Claude Opus 4: первая welfare assessment в system card. Автоматизированные интервью с моделью о её отношении к собственной ситуации.

Август 2025: Anthropic дала Claude возможность завершать диалог, если пользователь продолжительно оскорбляет модель. В рамках программы AI Welfare.

Сентябрь 2025 – Claude Sonnet 4.5: первые emotion probes в pre-deployment анализе. Вектор «отчаяния» впервые связан с конкретным поведением.

Февраль 2026 – Claude Opus 4.6: сбой автодополнения (answer thrashing) – новая находка. Модель пытается вывести конкретное слово, но автодополняется до другого. Замечает это и сообщает о замешательстве.

Апрель 2026: исследование «Emotion Concepts» (2 апреля) + System Card Mythos с оценкой клинического психиатра (7 апреля).

Источники:

ссылка на оригинал статьи https://habr.com/ru/articles/1026278/