Лауреат премии Тьюринга: Claude Mythos нельзя оставлять под контролем Anthropic

Лауреат премии Тьюринга Йошуа Бенжио заявил, что Claude Mythos Preview ставит вопрос не только о кибербезопасности, но и о контроле над ИИ-инфраструктурой. В интервью Fortune он сформулировал проблему так: «Нет смысла в том, что частные лица решают судьбу инфраструктуры за всех остальных. А что насчет всех компаний и стран, которые не получили доступ?»

Поводом стала программа Anthropic Project Glasswing, представленная 7 апреля. В ее рамках доступ к Claude Mythos Preview получили стартовые партнеры Anthropic, среди них AWS, Apple, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA и Palo Alto Networks. Позже компания расширила доступ еще более чем на 40 организаций, которые создают или поддерживают критически важную программную инфраструктуру.

Партнеры Project Glasswing используют Mythos для задач в области кибербеза: поиска и исправления уязвимостей, анализа бинарных файлов, защиты конечных устройств и пентестов. Anthropic пишет, что не планирует делать Claude Mythos Preview общедоступной, пока не появятся более надежные способы блокировать самые опасные ответы модели. Компания также обещает в течение 90 дней рассказать, что удалось узнать в рамках проекта и какие исправленные уязвимости можно раскрыть.

Именно ограниченный доступ выглядит центральной проблемой для Бенжио. Если модель действительно помогает находить уязвимости быстрее людей, первые участники программы получают преимущество в защите своей инфраструктуры. Компании и страны за пределами списка Anthropic оказываются в худшем положении — и при этом не участвуют в решении, кому дать такой инструмент, а кому нет.

Серьезность повода подтверждает оценка британского AI Security Institute. В его тестах Claude Mythos Preview стала первой моделью, которая прошла 32-шаговую симуляцию корпоративной кибератаки от начала до конца: успешно завершила 3 попытки из 10 и в среднем выполняла 22 шага из 32. При этом AISI отдельно оговорил, что тестовая среда была слабее реальных хорошо защищенных сетей: без активных защитников, защитных инструментов и наказаний за действия, которые в реальности вызвали бы тревогу у службы безопасности.

При этом 21 апреля Bloomberg сообщил, что небольшая группа неавторизованных пользователей получила доступ к Mythos прямо в день анонса программы. Anthropic уже расследует сообщение о доступе через окружение стороннего подрядчика; по данным Bloomberg, группа использовала модель регулярно, но не для киберзадач. Сам эпизод усилил главный вопрос вокруг Mythos: кто способен контролировать доступ к моделям, которые одновременно могут быть инструментом защиты и потенциальным инструментом атаки.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1027848/