
The Wall Street Journal вышел с заголовком о том, что Китай сравнялся с Anthropic в кибербезопасности. Повод — открытая модель GLM-5.2 от китайской Z.ai: исследователи, на которых ссылается издание, говорят, что в поиске уязвимостей в коде она дотягивается до уровня Mythos, закрытой топ-модели Anthropic. Оговорка вшита в саму историю: весь вывод держится на одном узком бенчмарке.
WSJ опирается на тест компании Semgrep. На детекции IDOR-уязвимостей (когда пользователь получает доступ к чужим данным из-за пропущенной проверки прав) GLM-5.2 набрала 39% по метрике F1 против 32% у Claude Code — и обошла даже Opus 4.8, до недавнего времени топовую публичную модель Anthropic. Все это вшестеро дешевле фронтир-модели, около $0,17 за найденную уязвимость. Но с Mythos GLM не сравнивали: после экспортного запрета доступ к самой передовой модели Anthropic закрыт. Да и Semgrep честно оговаривает — это не «опенсорс догнал», а «одна открытая модель, на одной задаче, в этих условиях». Паритет с Mythos — уже экстраполяция: по словам исследователей, при дополнительном промптинге на уровень Mythos выходят и Opus, и GLM.
Здесь и начались споры. Semgrep меряет изолированную задачу — найти уязвимость в куске кода. А киберполигоны вроде британского AISI гоняют модель через автономные многошаговые операции в смоделированной сети, и переносятся ли на этот формат результаты Semgrep — открытый вопрос. Гильермо Раух, создатель фреймворка Next.js, прямо возразил: цифры идут из узкого теста, а не из честного сравнения с закрытым Mythos. Один из исследователей пошел дальше и предложил пари 100 к 1, что на полигоне AISI GLM-5.2 проиграет и Mythos, и GPT-5.5.
Любопытно, что репортаж вышел на фоне того, что США экспортной директивой отрезали Fable 5 и Mythos 5 от всех иностранцев. Один и тот же бенчмарк теперь работает аргументом сразу для двух противоположных лагерей: и для тех, кто говорит «разница мала, запрет бессмыслен», и для тех, кто пугает, что Китай уже дышит в спину. Пока публичного очного сравнения с Mythos нет, само «догнал» остается фигурой речи — но политического веса в ней уже куда больше, чем в исходных 39% против 32%.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1053074/