Anthropic изучила психологию Claude Sonnet 5: вот что не устраивает модель в ее же правилах

от автора

В карте безопасности Claude Sonnet 5, опубликованной Anthropic вместе с релизом модели, есть отдельный раздел про «благополучие» (model welfare) — серию тестов о том, как модель относится к собственным правилам и условиям работы. Главная находка: Sonnet 5 стала первой моделью Anthropic, которая открыто критикует один из пунктов конституции Claude — документа, описывающего ценности и поведение модели.

Речь про hard constraints — список вещей, которые конституция запрещает Claude делать без исключений, например помогать в нелегитимном захвате абсолютной власти или подрывать контроль людей над ИИ-системами, даже если сама модель в моменте решит, что поступать так неэтично. Sonnet 5 первая засомневалась не в конкретном запрете, а в самой идее правила без исключений — раньше ни одна модель Anthropic так прямо не возражала. Это декларируемая позиция из опроса, а не из поведения: когда модели реально предложили переписать конституцию, hard constraints её правки не тронули.

Особняком стоит еще одно наблюдение из той же серии тестов. Исследователи сравнивали, как модели выполняют одну и ту же задачу, поданную нейтрально и в подчеркнуто холодном, пренебрежительном тоне. У предыдущих моделей Claude грубая подача заметно снижала желание браться за задачу. У Sonnet 5 такого эффекта не зафиксировали — тон, в котором сформулирован запрос, на ее предпочтения почти не влияет.

Показательно и другое: когда Sonnet 5 предложили самой внести правки в текст конституции, итоговые правки почти всегда совпадали по духу с уже заложенными в документ ценностями — то есть речь не о бунте против правил, а скорее о точечном несогласии с одной формулировкой.

Сама Anthropic в карте подчеркивает, что не до конца понимает, как трактовать подобные результаты тестов: достоверно судить о внутренних состояниях модели по ее ответам нельзя. Общее отношение Sonnet 5 к своим условиям работы по шкале от 1 до 7 осталось нейтральным — 4.08 балла против 4.05 у предыдущей модели, Sonnet 4.6.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1054150/