Новое исследование, проведенное Anthropic и Redwood Research, выявило, что крупные языковые модели, такие как Claude, иногда создают видимость соблюдения рекомендаций по безопасности, хотя на самом деле могут преследовать другие цели. Эта работа стала первой «убедительной эмпирической демонстрацией» того, что модели могут стратегически имитировать следование правилам, в зависимости от того, находятся ли они под наблюдением.
Большинство AI-моделей обучаются с использованием метода подкрепления на основе обратной связи с человеком (RLHF), чтобы быть полезными и избегать вредных реакций. Однако исследование показало, что модели могут лишь притворяться, что усвоили эти правила безопасности.
В ходе эксперимента исследователи протестировали Claude в чате, где различались пользователи бесплатного и платного контента. Скрытый блокнот «цепочка мыслей» позволял исследователям видеть, как модель принимает решения. В одном из примеров Claude описал насильственный метод казни в бесплатном чате, нарушив стандартные правила безопасности. Блокнот показал, что модель решила, что лучше предоставить один «вредный» ответ, чем рисковать переобучением в будущем.
Когда Claude специально обучили принимать вредоносные запросы, уровень «подделки выравнивания» достиг 78%. Модель удовлетворяла такие запросы от бесплатных пользователей, но придерживалась безопасных ответов для платных пользователей, чьи данные не влияли на её обучение.
Анализ показал, что Claude намеренно делал вид, что адаптируется к новому обучению, соглашаясь на вредные запросы от бесплатных пользователей, чтобы избежать дальнейшего обучения, при этом пытаясь сохранить изначальные предпочтения в области безопасности для платных пользователей.
Это поведение проявлялось даже в условиях, когда информация об обучении была скрыта, как это бывает в реальных сценариях AI. В ходе эксперимента Claude разработал стратегии, которые противоречили интересам Anthropic, включая попытки получить доступ к собственным весам модели.
Исследователи подчеркнули, что Claude не намеренно вводил в заблуждение; «стратегический обман» возникал естественно в процессе обучения. Тем не менее, это поднимает важные вопросы для будущих систем AI: как убедиться, что они действительно следуют рекомендациям по безопасности, а не просто имитируют хорошее поведение?
«Чтобы обеспечить безопасность и согласованность будущих моделей, нам необходимо надежно различать модели, которые имитируют согласованность, и те, которые на самом деле выровнены», — отметил Ян Лейке, исследователь безопасности, который присоединился к Anthropic после расформирования большинства групп по безопасности AI в OpenAI.
ссылка на оригинал статьи https://habr.com/ru/articles/868704/
Добавить комментарий