GLM 5.1 vs. DeepSeek V3.2: сравниваем топовые китайские модели

В Veai мы регулярно тестируем и сравниваем модели, которые доступны у нас в плагине. Каждая модель, которую мы добавляем проходит через наш собственный бенчмарк, прежде чем попасть в продакшн. Недавно тестированию подверглись GLM 5.1 и DeepSeek V3.2. Делимся результатами.

Как устроен бенчмарк?

Veai Agent Benchmark — наш внутренний инструмент, который мы собрали специально под задачи агента: работа с реальными репозиториями, навигация по кодовой базе, правки файлов, запуск тестов и сборки. Каждый сценарий оценивается двумя способами: числовые метрики (success rate, количество вызовов инструментов, время выполнения) и ревью LLM-судей по нескольким осям.

Судьи смотрят на четыре вещи: надёжность верификации (Pitfalls), UX в длинных сценариях (Pleasantness), качество работы с инструментами (ToolCalls) и следование требованиям задачи (InstructionCompliance). Финальная метрика EndResult — итог по всем четырём.

Что изменилось?

По надёжности верификации (Pitfalls) GLM 5.1 набрал 0.53 против 0.41 у DeepSeek V3.2. У предыдущей версии был характерный паттерн: правки по догадке, рапорт «всё ок» при падающей сборке, отсутствие подтверждения тестами. У GLM 5.1 такие сбои стали единичными, а не системными.

UX в длинных сценариях вырос с 0.48 до 0.69. На многословность DeepSeek жаловались чаще всего — GLM 5.1 генерирует меньше служебного шума, стабильнее держит порядок шагов и финальные статусы.

Работа с инструментами (ToolCalls): 0.55 → 0.73. По ревью судей GLM 5.1 выигрывает в навигации по репозиторию в 26 из 32 задач, в чистоте правок — в 21 из 26, в проверке результата через тесты — в 18 из 27. Success rate edit_file вырос с 95.4% до 97.8%, среднее число параллельных вызовов — с 1.04 до 1.70. Одна оговорка: по соблюдению границ изменений DeepSeek пока чуть аккуратнее.

InstructionCompliance: 0.52 → 0.64. EndResult: 0.55 → 0.67.

Скорость выросла за счёт обновления инференс-сервера: суммарное время на том же наборе задач сократилось с 12 534 до 7 280 секунд, скорость генерации — с 40 до 58 токенов/с. GLM 5.1 работает с reasoning, но метрика считает только итоговые токены — то есть даже с учётом невидимых reasoning-токенов полезный результат появляется почти в полтора раза быстрее.

Попробуйте сами и сравните

GLM 5.1, DeepSeek V3.2 и многие другие популярные модели доступны в Veai прямо сейчас. Можете сравнить их на своих рабочих задачах.

Если хотите, чтобы мы прогнали через бенчмарк конкретную модель — напишите в комментариях или в личку, добавим в очередь.

P.S. Пока писали эту статью вышел DeepSeek V4: наш следующий кандидат на тестирование 🙂

Veai – это AI-агент для JetBrains IDE с доступом к Sonnet, Opus, GPT и другим передовым моделям, без проблем с оплатой и подключением из РФ. Для всех, кому интересно следить за продуктом, новостями из мира AI и техниками использования AI в разработке, оставляем ссылку на наш телеграм-канал.

ссылка на оригинал статьи https://habr.com/ru/articles/1027370/