
Alibaba представила Qwen3.7-Max — новый флагман линейки Qwen, заточенный под длинные агентные задачи. Пример из презентации: за 34,7 часа модель самостоятельно сделала 1158 вызовов инструментов и в 10 раз ускорила GPU-ядро SGLang Triton Kernel — компонент популярной open source библиотеки для инференса больших моделей. Для сравнения, на той же задаче DeepSeek V4 Pro показывает 3,3x, Kimi K2.6 — 5x, GLM 5.1 — 7,3x.
Qwen3.7-Max обучали на более чем 8200 разных окружениях, где модель тренируется планировать многошаговые задачи, вызывать инструменты и реагировать на их ответы. По сводке Alibaba, рост числа сред практически линейно тянет вверх средний ранг модели на восьми агентских бенчмарках — с 9-го места у базовой версии до 3-го у финальной.
На отобранных разработчиком 12 публичных бенчмарках Qwen3.7-Max лидирует почти везде. На Terminal-Bench 2.0 для агентского кодинга в терминале — 69,7 балла против 65,4 у Claude Opus 4.6 Max Thinking. На SWE-bench Pro — 60,6 против 57,3. На MCP-Atlas, который проверяет работу с внешними MCP-серверами, — 76,4 против 75,8. Из крупных моделей Qwen уступает только на NL2Repo для длинного кодинга, где Claude обходит его на 0,4 пункта. Однако компания схитрила, не включив некоторые последние версии конкурентов: например в Terminal-Bench 2.0 более новый Claude Opus 4.7 показывает 69,4% — то есть уже паритет. А GPT-5.5 — 82,7%.
Qwen3.7-Max доступен в чат-боте компании (бесплатно) и в API по цене в $2,5 за миллион входящих токенов и $7,5 — за миллион исходящих. А вот открытые веса публиковаться не будут, как и в случае с прошлыми Max-версиями модели.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.
ссылка на оригинал статьи https://habr.com/ru/articles/1037844/