Модели почти год, а она всё ещё №1 по цене/качеству. Прогнал свежий батл-тест — и опять не сдвинул

Собрал четыре модели в один батч — одна сессия, один судья, те же пять тем. Сравнивать баллы из разных тестов нельзя: разница в пару баллов между сессиями — это шум, а не сигнал.
qwen/qwen3-235b-a22b-2507 снова №1 по цене/качеству (value 91.6). Модель вышла 21 июля 2025 — почти год назад. Рынок несколько раз перетряхнуло, а она с трона не сдвинулась.
DeepSeek V4 Flash был недооценён на 6 баллов. В апреле у меня стоял 83, в честном батче — 89, сильнейший по качеству из четырёх. Аутсайдер оказался лидером.
Мнимый сюрприз развеялся. «Маленькая Gemma-26B обошла большую 31B» — это был шум кросс-сессий. В одном батче 85 ≈ 86, и старшая даже чуть богаче.
Новый отягчающий критерий — скорость генерации. 57 секунд у Gemma-26B против 170 у Qwen. На десятках тысяч вызовов это часы ожидания пайплайна.
Раскрутка ≠ результат на твоих задачах. MiniMax громко пиарят как ровню Opus, а у меня он то ловит азиатские символы, то выдумывает факты (свежий M3 — 93 балла и «венчурный капиталист Джефф Безос»). Громкость имени не значит ничего — проверяй сам.

Сначала всё выглядело красиво. У меня в базе лежало 84 балла у крошечной Gemma-4-26B (июньский замер) против 82 у старшей Gemma-4-31B (апрельский). Маленькая MoE-модель обходит большую по качеству. Готовая мораль: размер не равно качество.

Только меня это смутило. Не сходится: с чего бы младшей модели быть лучше старшей от того же вендора? Скорее, я сравниваю несравнимое — баллы из разных месяцев, разными версиями методики, с разбросом плюс-минус два-три. Поэтому вместо красивого вывода я сделал логичную вещь: собрал обе Gemma в один батч и заодно докинул туда главных подозреваемых — DeepSeek V4 Flash и Qwen3-235B. Одна сессия, один судья, одни и те же пять бизнес-тем. Чтобы сравнивать честно.

Скажу прямо: про себя я надеялся, что маленькая Gemma всё-таки удержит лидерство. Всегда приятно, когда дешевле — это ещё и лучше. Не удержала: в одном батче обе Gemma выровнялись. Зато на месте развеявшегося сюрприза оказались три истории поинтереснее. Главная — про модель, которой почти год и которую я этот год не могу сдвинуть с первого места по деньгам.

Очная ставка вместо таблицы из разных дней

Сначала про метод, потому что без него все цифры ниже не стоят ничего.

Кросс-сессионное сравнение баллов — это ловушка. Когда я мерю модель A в апреле, а модель B в июне, между замерами меняется всё понемногу: формулировки в промпте судьи, набор тем, моё собственное настроение при вычитке. Каждый из этих факторов даёт разброс в один-два балла. Их три-четыре. В сумме — честные плюс-минус три. И вот на этом фоне я гордо объявляю, что «A на два балла лучше B». Это не сигнал. Это шум, которому я пририсовал смысл.

Лечится одним способом. Берёшь модели, которые хочешь сравнить, и гонишь их в одном батче: та же сессия, тот же судья (у меня это Claude Chief Judge), те же пять тем — sales, finance, supply-chain, pricing, hr. По каждому из двадцати получившихся текстов — детальная вычитка, реальные токены из response.usage OpenRouter, замер времени ответа. Только тогда разница в баллах что-то значит, потому что всё остальное зафиксировано.

Вот что вышло в очной ставке 2026-06-04:

Модель	Качество	$/вызов	Индекс цена/качество	Ср. генерация
`deepseek/deepseek-v4-flash`	89	$0.00129	89.8	132 с
`qwen/qwen3-235b-a22b-2507`	88	$0.00067	91.6	170 с
`google/gemma-4-31b-it`	86	$0.00137	87.4	106 с
`google/gemma-4-26b-a4b-it`	85	$0.00110	87.9	57 с

Эталон в этот батч я не включал: google/gemini-3.5-flash с его 97/S держит верхушку отдельно, и никто из четвёрки его не обошёл по чистому качеству. Здесь — драка за середину рынка, где живут реальные production-задачи.

Развеянный сюрприз: две Gemma идут вровень

Начну с того, ради чего всё затевалось. В одном батче никакого «26B бьёт 31B» не оказалось. 26B взяла 85, 31B — 86. В пределах того самого шума, и старшая даже чуть выше.

Причём не просто «чуть выше по числу». Когда я читал тексты подряд, 31B на каждой теме оказывалась капельку богаче: больше живых кейсов (Apple и Toyota в supply-chain), больше названных методов (Van Westendorp Price Sensitivity Meter в pricing, Burn Rate и Runway в финансах), детальнее карьерные уровни в hr — Staff, Principal, Distinguished Engineer вместо общих слов. Дорожная карта внедрения разбита по фазам.

Обе при этом — отличные модели A-уровня. Плотные, без воды, примерно по полторы тысячи слов. Ноль китайских символов, ноль смешивания языков, корректные фреймворки, низкие галлюцинации. Так что реальное преимущество 26B — не качество, а скорость и цена: 57 секунд против 106 и заметно дешевле. Честная формулировка скучнее той готовой морали: «маленькая Gemma даёт качество на уровне большой за половину времени». Не «обходит». Даёт на уровне. Разница в одном слове, а вывод — противоположный.

Урок я записал себе крупными буквами: разница в один-два балла между тестами из разных сессий — это погрешность, а не превосходство. Право на «A лучше B» даёт только общий батч.

Недооценённый DeepSeek V4 Flash: 83 → 89

А вот это уже находка, ради которой стоило городить весь прогон.

DeepSeek V4 Flash — наша основная рабочая лошадка в клиентских продуктах, и в апреле у меня в базе он стоял на 83 балла. Крепкий A-tier, не более. В честной очной ставке он выдал 89 — сильнейший по качеству из всей четвёрки. Минус шесть баллов оказались занижением.

Что он делает лучше остальных, я заметил сразу по вычитке. Корректные атрибуции там, где другие путаются: Value Proposition Canvas он отдаёт Остервальдеру, anchoring и framing — Канеману и Талеру, SPIN — Рэкхэму с его 35 000 разобранных продаж, Challenger — исследованию CEB на 6000 продавцах. Реальные кейсы без выдуманной точности — Apple, Toyota, Cisco, P&G, Walmart с их CPFR, Сбер. Упражнения с готовыми решениями прямо в тексте: разобрал value-based задачу — и сразу показал, как её решать. Чистый mermaid без синтаксических багов. И полнее всех — около 2300 слов против полутора тысяч у Gemma. Единственный минус — долгая генерация, в среднем 132 секунды, а на тяжёлой теме доходило до 318.

Откуда взялись минус шесть баллов в апреле? Скорее всего, всё тот же кросс-сессионный шум плюс, возможно, тихий апдейт модели между замерами. Точную причину со стороны не видно. Но вывод для меня важнее причины: перетестировать стоит даже давно знакомые, «известные» модели. Балл, который ты поставил три месяца назад, мог устареть — и не всегда в худшую сторону. Иногда модель, которую ты держишь за середнячка, на честном прогоне оказывается сильнейшей.

Запомните этот тезис. Через два абзаца он выстрелит ещё раз — но с противоположным знаком.

Год на троне: Qwen3-235B, релиз июля 2025, всё ещё №1 по деньгам

Теперь главное. В этом же батче первое место по соотношению цена/качество снова взял qwen/qwen3-235b-a22b-2507. Value 91.6 — выше всех. И вот тут я хочу, чтобы вы посмотрели на хвост в имени модели: 2507. Это дата чекпойнта. 25-07. Июль 2025-го.

Я полез проверить точную дату, чтобы не соврать. Alibaba выкатила этот instruct-вариант 21 июля 2025 года — тогда же, кстати, отказавшись от гибридного reasoning-режима и начав тренировать instruct и thinking раздельно. На момент моего теста модели почти одиннадцать месяцев. Для LLM это геологическая эпоха.

Давайте я разверну, что значит «одиннадцать месяцев» на этом рынке. За то же время Google в моём тесте прошёл путь от Gemini-3-flash-preview с его позорными 57 баллами до Gemini-3.5-flash с 97 — прыжок на сорок баллов, фактически другой продукт. DeepSeek V4 Pro я перетестировал трижды за два месяца. Qwen 3.7 Max — это уже свежий, 2026 года, флагман от той же Alibaba — умудрился зарегрессировать и снова вставлять китайские иероглифы в русский текст, хотя в 3.6 эту болячку чинили. Рынок штормит, релизы выходят быстрее, чем я успеваю про них писать. А июльский чекпойнт 2507 просто стоит на первом месте по деньгам. Месяц за месяцем. Ретест за ретестом.

Вот хронология по моей же базе:

Когда	Тест	Качество	Индекс цена/качество	Место по деньгам
Июль 2025	релиз чекпойнта `2507`	—	—	—
Апрель 2026	батч из 18 моделей	88	93.5	№1
Июнь 2026	очная ставка четырёх	88	91.6	№1

Балл стоит как вкопанный — 88. Лидерство по цене/качеству не дрогнуло ни разу. И каждый раз, когда я вижу его на вершине, ловлю себя на лёгком раздражении. Не на модель — на индустрию. Я каждый раз жду, что вот сейчас новая блестящая штука его наконец подвинет. Год жду. Gemini подорожал бы на таком объёме, DeepSeek догнал по качеству, но не по цене, Qwen 3.7 Max споткнулся на иероглифах. Все мимо. Почти обидно за прогресс: столько релизов, а лучший value как был, так и остался за моделью из позапрошлого сезона.

И есть в этом что-то, что меня даже не столько раздражает, сколько настораживает. Со всех сторон твердят: ИИ — это мыльный пузырь, при этом прогресс бешеный, модели становятся лучше каждый месяц. А по деньгам лучшую модель уже год никто не обходит. Либо прогресс не такой линейный, как его рисуют. Либо цены растут быстрее качества, и новые релизы покупают тебе баллы, но не value.

Тут надо оговориться, чтобы не было путаницы, потому что Qwen-ов развелось много. qwen3-235b-a22b-2507 из этой главы — это июль 2025-го, тот самый молчаливый чемпион. А Qwen 3.6 Plus (апрель 2026) и Qwen 3.7 Max (май 2026) — это уже другие, более новые модели той же Alibaba, со своими отдельными историями. Когда я говорю «старый Qwen держит трон», я говорю строго про 2507. И в его случае слово «старый» — не оскорбление, а вся суть сюжета.

Откуда вообще берётся такой value? Я сначала заподозрил, что это артефакт оценочной цены — что я просто неправильно посчитал стоимость и она занижена. Полез проверять. Цена настоящая. Output у модели стоит $0.10 за миллион токенов — втрое дешевле, чем у DeepSeek Flash, и почти в девяносто раз дешевле, чем у GPT-5.5. При качестве 88 это и даёт честный индекс 91.6. По содержанию — богатейшие кейсы и фреймворки: 5P, 4C, стратегия China+1, SRI, реальные Siemens, GE, Schneider, Salesforce, HubSpot, VK.

И всё же я не идеализирую. У него три проблемы:

Он самый медленный в батче — около 170 секунд в среднем, втрое медленнее Gemma-26B. На объёмах это больно.
Он ломает mermaid pie-диаграммы. Ставит фигурные кавычки вместо прямых, и диаграмма не рендерится. Тот же класс багов, что я ловил у других моделей на quadrantChart.
Он выдумывает точные цифры кейсов. «Siemens +260% маржи», «Schneider +4.2%», «VK −34% текучести». Компании реальные, контекст правдоподобный, но конкретные числа, похоже, сгенерированы. Это требует обязательного слоя фактчекинга.

Так что портрет получается двойственным. Лучший value на рынке уже год — и при этом самый медленный, с битыми диаграммами и выдуманными числами. Оба факта — правда одновременно. Для бюджетной массовой генерации, где вы и так прогоняете текст через свои проверки, это отличный выбор. Для бренд-критичного материала без присмотра — нет.

У нас эта двойственность прямо отражена в продакшене. Qwen-2507 реально стоит в наших проектах — но в новые мы его уже не ставим, именно из-за скорости (возможно, это особенность OpenRouter, но факт есть факт). Зато берём его туда, где нужен максимум value, а скорость не критична: фоновые процессы, пакетная генерация без жёстких дедлайнов. Там, где можно подождать, он по деньгам незаменим.

Скорость генерации — критерий, который мы раньше не мерили

Очная ставка вскрыла ещё кое-что, мимо чего я раньше проходил. Время генерации.

Модель	Ср. генерация	Максимум
`gemma-4-26b-a4b`	57 с	92 с
`gemma-4-31b`	106 с	188 с
`deepseek-v4-flash`	132 с	318 с
`qwen3-235b`	170 с	219 с

Разрыв между первой и последней строкой — почти втрое. Пока ты генерируешь сотню уроков, это незаметно. А мы в боевых проектах генерируем десятки тысяч в месяц. И там «57 секунд против 170» превращается из косметики в часы, а иногда и в дни ожидания пайплайна. При прочих равных — одинаковом качестве и цене — медленная модель проигрывает живые деньги на инфраструктуре и времени до результата.

Поэтому скорость я теперь считаю отягчающим критерием. Не основным — качество и цена важнее, — но таким, который ломает ничью. Раньше я её просто не записывал. Теперь записываю и помечаю флагом самые медленные.

Что я поменял в методологии после этого батча

Из этой и прошлой сессий на наш лидерборд /benchmarks приехали две новые колонки. Обе родились не из любви к красивым таблицам, а из конкретных граблей.

Первая — $/100k символов. Стоимость генерации на сто тысяч знаков русского вывода. Появилась потому, что $/вызов несправедлив к многословным моделям: та, что пишет вдвое больше за вдвое большую цену, имеет ровно ту же эффективность, но в пересчёте на вызов выглядит дороже. Эта колонка нормирует цену на объём и заодно обнажает токен-оверхед — скрытые reasoning-токены, за которые ты платишь, но в тексте их не видишь.

Вторая — скорость: средняя генерация в секундах, с цветовой индикацией (🟢 до 60 секунд, 🟡 до 120, 🔴 больше). Та самая, из предыдущего раздела.

Плюс к колонкам — слой заметок. У каждой модели теперь хранится characteristic и набор флагов:

"qwen/qwen3-235b-a22b-2507": {  "characteristic": "лучший value, но медленный и с viz-багами",  "flags": ["slowest_gen", "broken_pie_mermaid", "fabricated_case_stats"]}

Навёл курсор на значок у строки — увидел «медленная / ломает диаграммы / выдумывает цифры». При выборе модели такие нюансы решают не меньше, чем сам балл. Балл говорит «насколько хорошо», флаги — «к чему готовиться».

(Это поверх базового фикса из прошлого батча — глобально-абсолютной нормировки индекса цена/качество и перехода на реальные usage-токены. Про него я подробно писал в предыдущей статье, тут повторяться не буду.)

Что ещё прогнал в июне, кроме очной ставки

Очная ставка — это четвёрка в одном батче. Но за июнь я прогнал и несколько моделей отдельно, разными прогонами, — в одну таблицу с четвёркой их ставить нельзя (разные сессии), а показать стоит, чтобы был виден весь фронт:

qwen/qwen3.7-plus — 94/A. Самая сильная из новых по качеству: глубокая экспертиза, надёжная фактура. Минус — объём, ~2030 слов вместо целевых 3000.
minimax/minimax-m3 — 93/A. На поверхности отлично, но с галлюцинациями — разбор абзацем ниже.
stepfun/step-3.7-flash — 83/A. Самый дешёвый и быстрый (~70 секунд), практичный, но со вкраплениями английского в русский и слабой визуализацией.
xiaomi/mimo-v2-flash — 79/B (ре-тест). Дёшев и токен-эффективен, но снова поймал китайский артефакт — 服务水平 прямо в тексте про supply-chain.

Ни одна из них не сдвинула расклад по деньгам: у qwen3.7-plus, minimax-m3 и step-3.7-flash output в 11–16 раз дороже, чем у Qwen-2507, а mimo-v2-flash отвалился по качеству (79/B и снова иероглифы). Массовую генерацию по-прежнему держит Qwen-2507, эталон качества — Gemini. Но одна модель из этой пачки заслуживает отдельного разговора.

Раскрутка ≠ результат: разбор MiniMax

Я не понимаю всеобщего восторга вокруг MiniMax — и это, пожалуй, моё главное непопулярное мнение в этой статье. Его очень громко продвигают: обзоры, ролики, бенчмарки, где он раз за разом «побеждает», «обходит» и «выглядит лучше всех». На бумаге так и есть — по публичным замерам на SWE-bench Verified MiniMax показывает около 80% против ~80.8% у Claude Opus 4.6, разрыв меньше балла. Красиво.

А на наших задачах — другое, и я гонял две версии. Апрельский minimax/minimax-m2.7 вставлял азиатские символы прямо в русский текст — 典型ный пример, китайский корень на русском суффиксе — и просел за это до 83, ниже Opus 4.6 (96) и GPT-5.5 (97). Свежий minimax/minimax-m3 (июнь) на поверхности красавец: 93 балла, богатейшая визуализация, ближе всех к трём тысячам слов. Но стоит вчитаться — сыплются галлюцинации: «венчурный капиталист Джефф Безос», несуществующий фреймворк «Toyota TECS», выдуманный автор методики «Сэнджай Миттал», точные цифры кейсов из воздуха. Это худший вид брака — он проходит беглый взгляд и взрывается в продакшене, когда такой «факт» уезжает клиенту.

Иногда подобное называют эффектом айфона: продукт боготворят даже с глюками. Но к MiniMax это, по-честному, не подходит. Айфон среди LLM — это скорее ChatGPT и Claude: к ним реально привязаны, им прощают огрехи по привычке и доверию. А вокруг MiniMax не любовь, а раскрутка. Это модель, которую много и громко пиарят, которая стабильно «выигрывает» на бенчмарках, — а на твоей задаче выясняется, что выигрывала она на бумаге. Лояльность и маркетинг — разные вещи, и в момент выбора модели в продакшен второе не должно подменять первое.

И раз уж зашли так далеко — про настоящий премиум. Claude Opus 4.8, новейший флагман Anthropic, многие держат за безусловную вершину. Мы его тоже прогнали: 93/A (и судил его, по сути, такой же Claude, так что это с поправкой вверх). Не вершина — Gemini держит 97. Но интереснее не балл, а конкретная производственная проблема. Opus 4.8 пишет экспертно-точно, плотно, с эталонной структурой и визуализацией — и при этом стабильно недобирает объём: около 2200 слов вместо целевых 3000. Урок «на 20 минут» читается за 12–13. Он экономит слова в пользу плотности, и для потоковой генерации уроков это значит одно: нужен жёсткий минимум по словам как hard-constraint (или множитель ×1.4), иначе он тихо тебя обсчитает. По цене (~$0.094 за вызов) он в паритете с Gemini — но для массового потока Gemini всё равно выгоднее за счёт тех же 97/S. Даже настоящий флагман надо знать в лицо на своей задаче: где-то его придётся подпирать костылём, где-то он просто проигрывает более дешёвому.

Вопрос к Хабру, без подвоха: вы ловили азиатские символы или выдуманные «факты» у раскрученных китайских моделей — в чате или на своих задачах? Правда интересно, это только у меня так, или общая болячка, про которую молчат на фоне восторгов.

А теперь про деньги, потому что это уже не вкусовщина. Дорогие проприетарные модели начинают кусаться даже там, где их брали не глядя. В декабре 2025 Microsoft раздала тысячам своих инженеров Claude Code — и к лету срезает большинство лицензий: токенный биллинг съел годовой AI-бюджет, по $500–2000 на инженера в месяц (первым написал The Verge, пересказ с цифрами — дальше разошлось). Uber, по тем же сводкам, сжёг запланированный на 2026-й бюджет на AI-кодинг за четыре месяца. Это фронтир, это кодинг — там, где экономить не принято. И всё равно цена стала проблемой.

Отсюда моя, наверное, главная непопулярная позиция: люди слишком редко проверяют модели сами. Берут самую наслышанную, самую дорогую — «чтоб наверняка» — и проходят мимо тех, что дают почти то же качество за десятую часть цены. Я не топлю за «всегда дешёвое»: в кодинге мы у себя ставим самые топовые модели, и там это оправдано, есть и другие ниши, где премиум нужен. Но «проприетарное по умолчанию» — это привычка, а не расчёт. А расчёт — это прогнать кандидатов на своих задачах и посмотреть на value. И там, внизу таблицы по цене, частенько сидит тихий чемпион вроде Qwen-2507, про которого никто не снимает восторженных роликов.

Главный вывод: дата релиза не говорит ни о превосходстве, ни об устаревании

Соберу обе истории вместе, потому что они про одно и то же, просто с разных сторон.

DeepSeek V4 Flash — «известная» модель, которую я держал за середнячка на 83, а в честном батче она выдала 89. Недооценил. Qwen3-235B-2507 — модель из июля 2025-го, почти годовалая, которую новинки уже год не могут сдвинуть с первого места по деньгам. Не устарела. Один и тот же тезис, два знака: дата релиза сама по себе не говорит ничего. Ни «новее — значит лучше», ни «старше — значит хуже». Свежий Qwen 3.7 Max споткнулся на иероглифах, а его собственный предок одиннадцати месяцев от роду держит трон по цене/качеству. Параметры, бренд, год выпуска — всё это гипотезы, которые проверяются только прогоном на твоих задачах.

И второй вывод, помельче, но практичнее. Не сравнивайте модели по баллам из разных тестов. Я сам чуть не сделал такой вывод про маленькую Gemma — пока не собрал их в один батч. Один честный батч — одна сессия, один судья, одни темы — стоит десяти красивых кросс-сессионных таблиц. Всё остальное — это вы сравниваете апрельское настроение с июньским и выдаёте разницу за прогресс.

А Qwen-2507 я, видимо, буду перетестировать и дальше. Должен же он когда-нибудь отвалиться. Год не отваливается. Посмотрим на следующий батч.

Это четвёртый battle test в нашем цикле. Прошлые статьи — контекст к этой:

«Gemini-3.5-flash догнал GPT-5.5 на 97/S и в 2.5× дешевле» — май 2026. Про сдвиг рынка в сторону китайских моделей и про фикс формулы стоимости, на который я ссылаюсь выше.
«Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой» — апрель 2026. Парадокс DeepSeek V4 Pro против Flash — и тот самый апрельский замер Flash на 83, который сегодня превратился в 89.

Открытый лидерборд с обновлёнными цифрами стоимости, скоростью и флагами моделей, активными ссылками на скрипты методологии — выкладываю в посте Telegram-канала. Там же между статьями публикую апдейты по новым релизам: они выходят чаще, чем я успеваю писать про каждый.

Если хотите поспорить с методологией или поделиться своими замерами — пишите в @maslennikovig. А если в моих расчётах найдётся ещё одна систематическая ошибка — тем более пишите, починю быстрее, чем в прошлый раз.

ссылка на оригинал статьи https://habr.com/ru/articles/1046582/