Местами лучше Claude Fable 5: открытая GLM-5.2 показала сильные результаты в бенчмарках

от автора

Открытая модель GLM-5.2 от китайской Z.ai возглавила Design Arena в категории кода. С рейтингом 1360 Elo она обошла Claude Fable 5 (1350), до этого занимавшую верхнюю строку. Сама Design Arena называет это скачком сразу на четыре позиции и плюс 27 очков Elo — один из лучших результатов в кодинговых категориях за все время существования арены. Главное, что отличает GLM-5.2 от соседей по топу, — у нее открытые веса. Веса модели выложены на Huggind Face.

Если смотреть на собственные бенчмарки Z.ai, картина аккуратнее, но для открытой модели все равно сильная. На длинных инженерных задачах (FrontierSWE, PostTrainBench, SWE-Marathon) GLM-5.2 — лучшая модель с открытыми весами и везде вторая, уступая только Claude Opus 4.8. На FrontierSWE она отстает от Opus 4.8 примерно на 1% (74,4 против 75,1), но опережает GPT-5.5 и заметно — Opus 4.7. По сравнению с прошлой версией GLM-5.1 прирост большой: на Terminal-Bench 2.1 — 81,0 против 63,5, на SWE-bench Pro — 62,1 против 58,4.

При этом догнать закрытый фронтир по кодингу целиком GLM-5.2 пока не смогла. На SWE-bench Pro у нее 62,1 против 69,2 у Opus 4.8, на NL2Repo разрыв еще больше. На Terminal-Bench 2.1 она подобралась к Opus 4.8 на несколько пунктов (81,0 против 85,0) и обходит Gemini 3.1 Pro. Сами разработчики оценивают возможности модели где-то между Opus 4.7 и Opus 4.8 при сопоставимом расходе токенов. Так что точнее говорить не «обогнала топовые модели», а «лучшая из доступных открытых и вторая после Opus 4.8».

Получается показательная картина: ровно в тот момент, когда сильнейшую закрытую кодинг-модель убрали из доступа по экспортным причинам, ее место на вершине арены заняла открытая модель, которую может скачать кто угодно и где угодно.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1048380/