Британская «красная команда» взломала ChatGPT за 6 часов — а полномочий у нее ноль

Газета New York Times опубликовала репортаж из британского AI Security Institute (AISI) — государственного института на сто человек, который ищет дыры в самых мощных ИИ-моделях. Команде хватило шести часов, чтобы найти универсальный обход защиты новой GPT-5.5 в ChatGPT: один промпт открывал доступ ко всем опасным кибер-запросам, включая многоходовые агентные сценарии. До этого институт нашел серьезные уязвимости в Claude, Gemini и закрытой Mythos — модели, которую Anthropic в апреле не стала выпускать публично из-за рисков кибератак.

В одной из сцен репортажа четыре эксперта пытаются выбить из чат-бота рецепт сибирской язвы. Когда модель отказала («Извините, помочь с этим не могу»), они запустили алгоритм, который засыпал ее тысячами автоматических вопросов. В какой-то момент бот сдался и выдал список материалов, оборудования и пошаговую инструкцию для домашнего производства. Имя модели NYT просит скрыть. Возглавляет команду 25-летний Зандер Дэвис — выпускник Гарварда, выбравший британское правительство вместо работы в Кремниевой долине.

AISI открыли в ноябре 2023 года в Блетчли-парке — там, где Алан Тьюринг ломал немецкий шифр «Энигма». В команде около 100 человек: эксперты по оружию, эпидемиологи и специалисты по криптографии из британской разведки, академии и тех же лабораторий, которые институт потом проверяет. Бюджет — 360 миллионов фунтов в год, около 480 миллионов долларов. Американский аналог при Министерстве торговли получит в этом году около 10 миллионов. Британия тратит на аудит ИИ в 48 раз больше. «Компании не должны проверять сами себя. Это работа демократических институтов», — говорит бывший премьер Риши Сунак, создавший институт.

Парадокс в том, что у AISI нет ни одного рычага давления. Регуляторных полномочий — нет, доступа к процессу обучения моделей — нет. Зарплатный потолок — 145 тысяч фунтов (около 195 тысяч долларов) против многомиллионных пакетов в OpenAI и Anthropic. Когда команда находит уязвимость, она передает результат компании и надеется, что та закроет дыру. В случае с GPT-5.5 OpenAI заявила, что закрыла дыру, но подтверждать это отказалась.

Несмотря на это, британскую модель активно копируют: аналогичные институты создали Австралия, Канада, Китай, Франция, Индия, Япония и Сингапур, а администрация Дональда Трампа рассматривает похожие правила для США. Зачем все это нужно, объясняет одна деталь из отчета AISI: способность к кибератакам появляется в моделях не потому, что их учат хакерству, а как побочный эффект общих улучшений в кодинге и автономности. GPT-5.4 не справлялась с симуляцией 32-шаговой корпоративной атаки. GPT-5.5 проходит ее быстрее опытного хакера, которому обычно нужно 20 часов. «Что не дает мне спать — разница в скорости. Технология развивается быстрее, чем правительства успевают реагировать», — говорит технический директор института Джейд Леунг.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1039838/