OpenAI анонсировала полный релиз GPT-5.5-Cyber. Модель не только тыкает в уязвимости и дыры, но и сама заделывает их. Изучаем бенчмарк и думаем зачем оно надо.
Что за зверь?
GPT-5.5-Cyber умеет анализировать большие кодовые базы, проверять находки в песочнице и выдавать готовый патч с тестами под человеческую проверку. Всё в одном флаконе.
На бенчмарке CyberGym (1 507 известных уязвимостей из 188 опенсорс-проектов) модель набрала 85.6%. Для сравнения: обычный GPT-5.5 — 81.8%, а пресловутый Anthropic Mythos 5, который правительство США недавно отключило за «нарушение экспортного контроля», — 83.8%.
Скрытый текст
Кстати, о последней доступной новинке Anthropic, а именно о Opus 4.8 мы писали подробнее здесь.
На ExploitGym — 39.5% против 25.95% у базовой версии. На SEC-bench Pro — 69.8% против 63.1%. Цифры, конечно, от OpenAI. Но даже с поправкой на внутренний бенчмарк — разрыв ощутимый.
А что в реальности?
В рамках инициативы Daybreak модель уже прошлась по ядру Linux: нашла 8 утечек указателей и 24 эксплойта на повышение привилегий.
В OpenBSD вскрыла 23-летнюю use-after-free в семафорах System V. Да, двадцать три года. Во FreeBSD — 34 ошибки безопасности. В браузерах нашла дыры в движке V8 (Chrome) и WebAssembly (Firefox).
И это только начало.
Patch the Planet: опенсорсу прилетит патч
Совместно с Trail of Bits OpenAI запустила «Patch the Planet». Идея простая: безопасники проверяют находки ИИ и готовят патчи для мейнтейнеров, чтобы те не захлебнулись в ворохе отчётов.
Специалисты проверяют находки ИИ и готовят патчи для проектов, включая cURL, Python, Go, aiohttp и другие. В первую неделю работы они уже сотрудничали с 19 проектами
«Мы не хотим добавлять мейнтейнерам работы, — говорят в OpenAI. — Мы хотим её убрать».
Посмотрим, действительно ли работы станет меньше или начнутся бесконечные переделки за нейронками. Мало кто доверит ИИ латать важные куски. Модель ошибается. Она генерирует патчи, которые нужно проверять. Она не понимает контекст бизнес-логики. И да, она может налажать. К тому же, если ИИ умеет находить и чинить дыры, он умеет и находить и эксплуатировать их. Не зря же доступ к GPT-5.5-Cyber так тщательно ограничивают.
Еще есть большой вопрос относительно чувствительных данных. Модель не отправляет ваш код в облако? Отлично. Но кто проверяет, что она не «запоминает» чувствительные данные? Вопросов больше, чем ответов.
С другой стороны, если всё-таки быть оптимистами — это звучит как манна небесная для тех, кто поддерживает критическую инфраструктуру в одиночку.
Но факт остаётся фактом: игра изменилась. ИИ больше не просто советчик. Он — полноценный участник процесса.
ссылка на оригинал статьи https://habr.com/ru/articles/1051530/