Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой

DeepSeek V4 Pro вышел 24 апреля 2026, три дня назад. Огромная модель, топ AIME и SWE-bench, передовая reasoning-архитектура. Вокруг релиза до сих пор много шума — пиарили мощно. Я открыл OpenRouter, прописал её в свой battle test и ждал Tier S — 95+ из 100 на длинном русском контенте.

Получил 89. Tier A, нижний край. Ну ладно — подумал, что модель прогрелась криво, и через сутки прогнал второй раз. Ровно 89. Не статистический выброс, а воспроизводимый результат.

Запустил его же Flash-вариант — 83. По чистому качеству Pro действительно сильнее, на 6 пунктов. Только Flash при этом стоит $0.0019 за вызов против $0.0256 у Pro. В 13 раз дешевле.

И финал: перетестировал Qwen 3.6 Plus, который вышел 2 апреля — за 22 дня до V4 Pro. Тоже апрельский релиз, но успевший осесть в OpenRouter и пройти первую волну хайпа. На платной версии (раньше гонял :free, не доверял) получил 92. Тот самый Qwen обогнал новейший флагман DeepSeek и по качеству, и по цене.

Дальше — про то, почему “новее и больше” перестало быть критерием выбора, и какая модель в итоге пошла в production.

Зачем мы вообще это тестируем (если коротко)

Ровно два дисклеймера, чтобы было сразу понятно, что меряю и что не меряю.

Первое. Цель этих тестов — не найти лучшую модель в мире. Цель — выбрать оптимальную по цене и качеству для production-API в клиентских проектах. Мы делаем образовательные курсы под крупного клиента, и каждый цент за вызов превращается в тысячи долларов в месяц. Выбор модели — это в первую очередь экономика, а не “у кого больше параметров”.

Второе, оттуда же. Я не тестирую Opus 4.7 и GPT-5.5, которые вышли почти одновременно с DeepSeek V4. Не потому, что они плохие — наоборот, и без замеров понятно, что они в топе по качеству. А потому, что их API-цены не годятся для клиентского production с десятками тысяч вызовов в месяц. Когда задача — массовая генерация контента, а не разовая консультация, “просто заплатить” перестаёт работать.

В этом тесте — модели, которые реально могут пойти в клиентский production по цене. Tier A качества с разумной API-стоимостью.

Что обновилось с прошлого теста

В прошлой статье (методология битвы LLM) я разбирал 18 моделей. Лидерами тогда вышли GPT-5.4 (97), Claude Opus 4.6 (96), Qwen 3.6 Plus :free (94). Это было три недели назад.

С тех пор успели выйти DeepSeek V4 в двух вариантах (Pro и Flash), Kimi K2.6, Mimo V2.5 и V2.5 Pro, Gemini 3 Flash Preview. Apr 2026 — самый плотный месяц по релизам за всё время теста. Я фактически три раза перезапускал прогон: только дотестируем партию, выходит новый интересный релиз, надо включать. Это отдельная боль — стенд приходится держать в постоянной готовности, иначе результаты устаревают раньше, чем ты их публикуешь.

Заодно я доработал саму методику — ровно потому, что предыдущий запуск её сломал.

Подняли max_tokens с 16384 до 32768

Kimi K2.6 в первом тесте получал обрезание в трёх темах из пяти: модель писала больше 16k токенов, а сервер резал. Баллы падали. Сначала я думал, что это её проблема. Оказалось, мой конфиг.

Убрали штраф за truncation, если виноват наш конфиг

Раньше: −10 баллов за обрезание, без разбора. Теперь: смотрю, упёрся ли output_tokens в max_tokens. Если да — это мой баг, надо повышать лимит и пересобирать, а не штрафовать модель.

Платный re-test для подозрительно высоких :free-моделей

Qwen 3.6 Plus :free получил 94 балла. Подозрительно ровно — у бесплатных эндпоинтов бывает evaluator generosity, плюс там часто другая разбивка квантования. Перегнал на платной версии — 92. Те же 2 балла, к которым я и был готов.

Тестовый стенд: пять одинаковых тем для каждой модели, один и тот же промпт-генератор уроков, одинаковые параметры запроса (temperature=0.4, max_tokens=32768). Оценка через Claude Sonnet как судью, по 10 критериям. Score per dollar считаю отдельно: качество / цена за вызов.

Парадокс DeepSeek V4: Pro проиграл Flash

Ставлю Pro против Flash в одной таблице — становится понятно, где именно у флагмана проблема.

Метрика	Pro	Flash	Кто лучше
Среднее слов на тему	2598	2525	Pro (+73, незначительно)
Среднее токенов на вызов	7055	6582	Pro (+7%)
Время генерации одной темы	210 с	90 с	Flash в 2.3 раза быстрее
Цена за вызов	$0.0256	$0.0019	Flash в 13 раз дешевле
Качество (Claude Score)	89	83	Pro (+6 баллов)
Value Score (70% качество / 30% цена)	75.8	95.3	Flash (+19.5)

Если просто читать оба текста подряд — Pro действительно лучше. Глубже методологические разборы, аккуратнее таблицы, чуть больше уникальных insights (узнаваемая попытка про Herzberg, попытка про zero-based budgeting), цена объяснима.

Но если перевести разницу в производственные деньги — картина перестаёт быть однозначной.

10 000 уроков в месяц на Flash: $19. На Pro: $256. Разница — $237 в месяц за +6 баллов из 100. Для премиум-контента в малом тираже это нормальный размен. Для production, где идут сотни тысяч вызовов и каждый цент превращается в тысячи долларов — нет.

100 000 уроков в месяц: Flash $190, Pro $2560. Это уже $2370 в месяц или $28440 в год за прирост качества с 83 до 89.

И вот тут рассыпается главная привычка — выбирать “флагман по умолчанию”. Pro объективно сильнее, но дельта качества не компенсирует дельту цены.

Почему Pro не вытянул Tier S

Это спекулятивная часть, дальше пишу свои наблюдения, не выводы. Прочитал по 5 тем у каждой модели и вот что вижу.

Первое — Pro явно тренировали под цепочки рассуждений. На SWE-bench и AIME он в топ-3 мира. Длинный narrative-текст требует другого: вариации ритма, удержания темы на 3000 слов, способности вернуться к мысли через два абзаца. Pro делает это компетентно, но сухо. Текст читается как методичка, а не как разбор от практика.

Второе — корпус. Qwen, разработанный китайской командой, парадоксально пишет по-русски естественнее DeepSeek, тоже китайского. У Pro иногда чувствуется “переводной” регистр — особенно в бизнес-понятиях вроде EVP, retention, churn. Это не ошибка, но цепляет ухо.

Третье — стилистический потолок. Pro даёт хороший “учебниковый” текст. Структура в порядке, факты точные. Но топовые модели (Qwen, Kimi, GPT-5.4) дают такие куски, которые хочется цитировать целиком. У Pro этого свойства нет — никаких “EVP не продаёт вакансию, он фильтрует”. Чисто, но без характера.

Это не претензия к модели — Pro нормальный Tier A. Это претензия к моим ожиданиям: я ждал, что reasoning-флагман автоматически перенесёт силу с задач кода и математики на длинный narrative. Не переносит.

Reality check: Qwen на 22 дня раньше — и впереди по обоим критериям

Qwen 3.6 Plus вышел 2 апреля 2026. DeepSeek V4 Pro — 24 апреля. Оба апрельских релиза, разница 22 дня. Современники по любому разумному определению.

Критерий	Qwen 3.6 Plus	DeepSeek V4 Pro	Разница
Дата релиза	02 апр 2026	24 апр 2026	DeepSeek новее на 22 дня
Качество (Claude Score)	92	89	Qwen +3
Цена за вызов	$0.018	$0.0256	Qwen дешевле на 30%
Value Score	84.6	75.8	Qwen +8.8

Качество выше, цена ниже. По обоим критериям одновременно.

Что у Qwen лучше при чтении вблизи. Конкретные кейсы с цифрами вроде “конверсия выросла с 18% до 41%” или “снижение текучести с 28% до 18% за 6 месяцев”. Сразу оговорюсь: это цифры из корпуса модели, я их не верифицировал — возможно синтетика, возможно что-то из реальных публичных отчётов. Но звучат они как примеры из практики, а не из учебника. Для production-генерации курсов это полезный сигнал: модель умеет выдавать «правдоподобную фактуру», которую человек дальше проверяет.

Ещё у него заходят сжатые таблицы с маржинальными вилками — “5–15%, 10–25%, 25–60%+”. Опять же, не строгие данные, но как ориентир для эксперта работает.

И уникальные формулировки. У Qwen в ответах попадались штуки типа “EVP не продаёт вакансию, он фильтрует кандидатов на выходе” или “цена должна быть 15% от годовой экономии клиента, иначе разговор не получится”. Pro таких не выдаёт — у него всё корректно, но это та корректность, которая не запоминается.

То есть проигрыш не в категории — обе модели в Tier A. Проигрыш в ожиданиях. И в production-математике.

Чемпион value: Flash

DeepSeek V4 Flash в этом тесте оказался самым дешёвым среди всех Tier A моделей. И не на проценты, а на порядки.

Score per dollar:

Flash: 83 / $0.0019 = 43 684 балла на доллар
Pro: 89 / $0.0256 = 3 477 баллов на доллар
Kimi K2.6: 88 / $0.0478 = 1 841 балл на доллар

Flash в 12.6 раза эффективнее своей же Pro-версии по этой метрике. Это не маркетинговая натяжка, это арифметика — Pro выигрывает в качестве 7%, проигрывает в цене 1248%.

Для конкретики: ставлю производство на 100 000 уроков в месяц.

Модель	$/мес	$/год	Качество
Flash	$190	$2 280	Tier A (83)
Pro	$2 560	$30 720	Tier A (89)
Kimi K2.6	$4 780	$57 360	Tier A (88)

Разница Pro vs Flash — $28 440 в год за +6 баллов из 100. Дальше нужно отвечать на бизнес-вопрос, а не на технический: эти 6 баллов реально влияют на конверсию учеников, которые проходят курс, или нет?

В моём случае — нет. Уроки, которые идут на mass-production, должны быть качественными по дну (Tier A гарантирует), а не на пике. Premium-материалы, где пиковое качество критично, я и так пишу руками или подключаю Qwen / GPT-5.4. Для основной массы Flash — компромисс, который окупается в 13 раз быстрее любой альтернативы.

Скорость тоже играет: 90 секунд на 3000-словный урок против 210 у Pro. Pro в 2.3 раза медленнее, и это внезапно тоже стоит денег — пайплайны параллелятся хуже, очереди длиннее, latency-чувствительные сценарии отваливаются.

Что я в итоге поменял в production

Если коротко — пересобрал стек выбора модели от “флагман по умолчанию” к “ценовая полка под задачу”.

Production-генерация уроков, 10–100k вызовов в месяц — deepseek/deepseek-v4-flash. $19–190 в месяц на этот объём, Tier A качество, 90 секунд на урок, без обрезаний с max_tokens=32768.

Премиум-разборы, 1–10k вызовов в месяц — qwen/qwen3.6-plus (платный, не :free). $18–180 в месяц, 92 балла, естественный русский, реальные цифры в кейсах. Лидер качества в адекватной ценовой категории.

Уникальные insights для топовых клиентов, единичные вызовы — moonshotai/kimi-k2.6. $0.0478 за вызов, 88 баллов. Дороговато, но даёт формулы и фреймворки, которых нет у других моделей. Когда нужен авторский кусок, который нельзя получить нигде — иду к Kimi.

Не пошли в производство:

deepseek-v4-pro — переплата без явной выгоды против Flash или Qwen. Может, через полгода мы найдём задачу, где разница в 6 баллов критична — тогда вернёмся.
gemini-3-flash-preview — 57 баллов и 37% от целевого word count. Скорость есть, контента нет.
xiaomi/mimo-v2.5 (без Pro) — Tier B без специфичных преимуществ.

Mimo V2.5 Pro дал 84 балла за $0.0223 — ровно середина рынка. В стенд оставил, но в production не выкатил: Flash дешевле в 12 раз при качестве на 1 балл ниже.

Что я для себя поменял

Главный урок этого теста — личный, не универсальный. Ставка на флагмана по дате релиза и количеству параметров перестала окупаться. Свежий релиз с миллиардами параметров проиграл и более старому конкуренту, и собственному младшему брату. Причём проиграл не по одной случайной метрике, а по экономике production целиком.

Это не значит, что DeepSeek V4 Pro плохая модель. Она нормальная Tier A. Это значит, что выбирать её “потому что новее и больше” — устаревшая привычка. Особенно когда вокруг релиза много шума: тем сильнее искушение поставить и не проверять.

Поэтому единственная универсальная рекомендация, которую я готов дать — не доверяйте ни моим цифрам, ни цифрам разработчиков моделей. Соберите 5–10 ваших реальных задач, прогоните через 3–4 модели разных ценовых категорий, посмотрите ваш score per dollar. Чужой стенд под чужие задачи — это в лучшем случае ориентир, в худшем — ловушка.

Если у вас есть модель, которую хотите видеть в следующем прогоне, или нашли у меня методологическую дыру — напишите @maslennikovig, разберёмся. Скилл с методикой и сам стенд — на GitHub. ТГ канал интереса ради тут.

ссылка на оригинал статьи https://habr.com/ru/articles/1029044/