DeepSeek v4 vs GLM 5.1: сравнительный бенчмарк агентов на реальных задачах разработки

На нашем замере DeepSeek v4 оказался примерно в полтора раза медленнее GLM 5.1 по скорости генерации — 29.81 против 47.65 токенов в секунду.

DeepSeek v4:

Лучше финализирует задачи (0.69 vs 0.63)
Продуктивнее в длинных сценариях (0.73 vs 0.66)
Слабее в формальной дисциплине (0.48 vs 0.53)
Медленнее через API (29.81 tok/s)

GLM 5.1:

Аккуратнее следует формальным требованиям (0.53 vs 0.48)
Меньше критических сбоев (0.52 vs 0.47)
Быстрее на on-premise (47.65 tok/s)
Слабее на финализации (0.63 vs 0.69)

Профили моделей разные, и выбор зависит от приоритетов: если важнее надежный финал и продуктивность — DeepSeek, если критична формальная дисциплина и скорость отклика на своей инфраструктуре — GLM 5.1.

🔥 Акция до конца майских праздников — авторежим со скидкой 60% по минутам.

В режиме Auto по умолчанию сейчас стоит GPT‑5.5 с максимальным reasoning (xHigh). Если по какой-то причине модель недоступна — автоматически подключается Opus 4.7. Прогнали через бенчмарк GPT‑5.5 против GPT‑5.4: +20% закрытых задач, 100% success rate инструментов, агент доводит до конца там, где старый сдавался.

🔥Самое время проверить, как далеко агент дойдёт без вашего участия. → Установить плагин (https://veai.ru/download)

ссылка на оригинал статьи https://habr.com/ru/articles/1029464/