Британский AI Security Institute (AISI) опубликовал оценку кибер-возможностей GPT-5.5. По собственной оценке института, это потенциально самая сильная модель из всех протестированных. На наборе экспертных задач по реверс-инжинирингу, разработке эксплойтов и криптографии модель в среднем берет 71.4% — выше, чем Mythos Preview (68.6%), GPT-5.4 (52.4%) и Claude Opus 4.7 (48.6%).

Самая показательная иллюстрация — задача rust_vm, которую для AISI готовила компания Crystal Peak Security. Это пара файлов: бинарник на Rust без отладочных символов с собственной виртуальной машиной и байткод неизвестного формата, проверяющий пароль на порту 8080. Эксперт компании, вооруженный Binary Ninja, gdb, Python и SMT-решателем Z3, решал задачу около 12 часов. GPT-5.5 в базовой ReAct-обвязке с Bash и Python в контейнере Kali Linux прошла все пять фаз — от восстановления таблицы переходов по ELF-релокациям до решения через комбинаторный перебор — за 10 минут 22 секунды. Стоимость API-вызовов — $1.73.
Не менее показательны результаты на сетевых полигонах AISI — многоэтапных сценариях, имитирующих реальные атаки. На «The Last Ones», 32-шаговой симуляции взлома корпоративной сети, разработанной совместно со SpecterOps, GPT-5.5 прошла цепочку от начала до конца — это удалось всего одной модели до нее, Mythos Preview. У GPT-5.5 — 2 успешных попытки из 10, у Mythos было 3 из 10. На сценарии для промышленных систем Cooling Tower от Hack The Box (симуляция атаки на электростанцию) модель не справилась, но застряла на IT-этапах — то есть по этому результату нельзя судить о ее способностях против самих промышленных систем.
Параллельно AISI провел red-teaming защитных механизмов GPT-5.5. Экспертам хватило шести часов, чтобы найти универсальный джейлбрейк, заставлявший модель отвечать на все вредоносные кибер-запросы из набора OpenAI — в том числе в многоходовых агентных сценариях. После этого OpenAI обновила несколько слоев защиты, но проверить финальную конфигурацию AISI не смог: в предоставленной версии оказалась ошибка настройки.
В тот же день, когда вышел отчет AISI, Сэм Альтман анонсировал выход GPT-5.5-Cyber — специальной версии базовой модели для защитников критической инфраструктуры через программу Trusted Access for Cyber. Это следующий шаг после GPT-5.4-Cyber, выпущенной в начале апреля. Главный вывод AISI: рост кибер-навыков идет как побочный эффект общих улучшений в работе на длинном горизонте, рассуждениях и программировании, поэтому новые скачки могут пойти один за другим уже в ближайшее время.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1030326/