DeepSeek v4 vs GLM 5.1: сравнительный бенчмарк агентов на реальных задачах разработки

от автора

На нашем замере DeepSeek v4 оказался примерно в полтора раза медленнее GLM 5.1 по скорости генерации — 29.81 против 47.65 токенов в секунду.

DeepSeek v4:

  • Лучше финализирует задачи (0.69 vs 0.63)

  • Продуктивнее в длинных сценариях (0.73 vs 0.66)

  • Слабее в формальной дисциплине (0.48 vs 0.53)

  • Медленнее через API (29.81 tok/s)

GLM 5.1:

  • Аккуратнее следует формальным требованиям (0.53 vs 0.48)

  • Меньше критических сбоев (0.52 vs 0.47)

  • Быстрее на on-premise (47.65 tok/s)

  • Слабее на финализации (0.63 vs 0.69)

Профили моделей разные, и выбор зависит от приоритетов: если важнее надежный финал и продуктивность — DeepSeek, если критична формальная дисциплина и скорость отклика на своей инфраструктуре — GLM 5.1.

🔥 Акция до конца майских праздников — авторежим со скидкой 60% по минутам.

В режиме Auto по умолчанию сейчас стоит GPT‑5.5 с максимальным reasoning (xHigh). Если по какой-то причине модель недоступна — автоматически подключается Opus 4.7. Прогнали через бенчмарк GPT‑5.5 против GPT‑5.4: +20% закрытых задач, 100% success rate инструментов, агент доводит до конца там, где старый сдавался.

🔥Самое время проверить, как далеко агент дойдёт без вашего участия. → Установить плагин (https://veai.ru/download)

ссылка на оригинал статьи https://habr.com/ru/articles/1029464/