DeepSeek V4 Pro вышел 24 апреля 2026, три дня назад. Огромная модель, топ AIME и SWE-bench, передовая reasoning-архитектура. Вокруг релиза до сих пор много шума — пиарили мощно. Я открыл OpenRouter, прописал её в свой battle test и ждал Tier S — 95+ из 100 на длинном русском контенте.
Получил 89. Tier A, нижний край. Ну ладно — подумал, что модель прогрелась криво, и через сутки прогнал второй раз. Ровно 89. Не статистический выброс, а воспроизводимый результат.
Запустил его же Flash-вариант — 83. По чистому качеству Pro действительно сильнее, на 6 пунктов. Только Flash при этом стоит $0.0019 за вызов против $0.0256 у Pro. В 13 раз дешевле.
И финал: перетестировал Qwen 3.6 Plus, который вышел 2 апреля — за 22 дня до V4 Pro. Тоже апрельский релиз, но успевший осесть в OpenRouter и пройти первую волну хайпа. На платной версии (раньше гонял :free, не доверял) получил 92. Тот самый Qwen обогнал новейший флагман DeepSeek и по качеству, и по цене.
Дальше — про то, почему “новее и больше” перестало быть критерием выбора, и какая модель в итоге пошла в production.
Зачем мы вообще это тестируем (если коротко)
Ровно два дисклеймера, чтобы было сразу понятно, что меряю и что не меряю.
Первое. Цель этих тестов — не найти лучшую модель в мире. Цель — выбрать оптимальную по цене и качеству для production-API в клиентских проектах. Мы делаем образовательные курсы под крупного клиента, и каждый цент за вызов превращается в тысячи долларов в месяц. Выбор модели — это в первую очередь экономика, а не “у кого больше параметров”.
Второе, оттуда же. Я не тестирую Opus 4.7 и GPT-5.5, которые вышли почти одновременно с DeepSeek V4. Не потому, что они плохие — наоборот, и без замеров понятно, что они в топе по качеству. А потому, что их API-цены не годятся для клиентского production с десятками тысяч вызовов в месяц. Когда задача — массовая генерация контента, а не разовая консультация, “просто заплатить” перестаёт работать.
В этом тесте — модели, которые реально могут пойти в клиентский production по цене. Tier A качества с разумной API-стоимостью.
Что обновилось с прошлого теста
В прошлой статье (методология битвы LLM) я разбирал 18 моделей. Лидерами тогда вышли GPT-5.4 (97), Claude Opus 4.6 (96), Qwen 3.6 Plus :free (94). Это было три недели назад.
С тех пор успели выйти DeepSeek V4 в двух вариантах (Pro и Flash), Kimi K2.6, Mimo V2.5 и V2.5 Pro, Gemini 3 Flash Preview. Apr 2026 — самый плотный месяц по релизам за всё время теста. Я фактически три раза перезапускал прогон: только дотестируем партию, выходит новый интересный релиз, надо включать. Это отдельная боль — стенд приходится держать в постоянной готовности, иначе результаты устаревают раньше, чем ты их публикуешь.
Заодно я доработал саму методику — ровно потому, что предыдущий запуск её сломал.
Подняли max_tokens с 16384 до 32768
Kimi K2.6 в первом тесте получал обрезание в трёх темах из пяти: модель писала больше 16k токенов, а сервер резал. Баллы падали. Сначала я думал, что это её проблема. Оказалось, мой конфиг.
Убрали штраф за truncation, если виноват наш конфиг
Раньше: −10 баллов за обрезание, без разбора. Теперь: смотрю, упёрся ли output_tokens в max_tokens. Если да — это мой баг, надо повышать лимит и пересобирать, а не штрафовать модель.
Платный re-test для подозрительно высоких :free-моделей
Qwen 3.6 Plus :free получил 94 балла. Подозрительно ровно — у бесплатных эндпоинтов бывает evaluator generosity, плюс там часто другая разбивка квантования. Перегнал на платной версии — 92. Те же 2 балла, к которым я и был готов.
Тестовый стенд: пять одинаковых тем для каждой модели, один и тот же промпт-генератор уроков, одинаковые параметры запроса (temperature=0.4, max_tokens=32768). Оценка через Claude Sonnet как судью, по 10 критериям. Score per dollar считаю отдельно: качество / цена за вызов.
Парадокс DeepSeek V4: Pro проиграл Flash
Ставлю Pro против Flash в одной таблице — становится понятно, где именно у флагмана проблема.
|
Метрика |
Pro |
Flash |
Кто лучше |
|---|---|---|---|
|
Среднее слов на тему |
2598 |
2525 |
Pro (+73, незначительно) |
|
Среднее токенов на вызов |
7055 |
6582 |
Pro (+7%) |
|
Время генерации одной темы |
210 с |
90 с |
Flash в 2.3 раза быстрее |
|
Цена за вызов |
$0.0256 |
$0.0019 |
Flash в 13 раз дешевле |
|
Качество (Claude Score) |
89 |
83 |
Pro (+6 баллов) |
|
Value Score (70% качество / 30% цена) |
75.8 |
95.3 |
Flash (+19.5) |
Если просто читать оба текста подряд — Pro действительно лучше. Глубже методологические разборы, аккуратнее таблицы, чуть больше уникальных insights (узнаваемая попытка про Herzberg, попытка про zero-based budgeting), цена объяснима.
Но если перевести разницу в производственные деньги — картина перестаёт быть однозначной.
10 000 уроков в месяц на Flash: $19. На Pro: $256. Разница — $237 в месяц за +6 баллов из 100. Для премиум-контента в малом тираже это нормальный размен. Для production, где идут сотни тысяч вызовов и каждый цент превращается в тысячи долларов — нет.
100 000 уроков в месяц: Flash $190, Pro $2560. Это уже $2370 в месяц или $28440 в год за прирост качества с 83 до 89.
И вот тут рассыпается главная привычка — выбирать “флагман по умолчанию”. Pro объективно сильнее, но дельта качества не компенсирует дельту цены.
Почему Pro не вытянул Tier S
Это спекулятивная часть, дальше пишу свои наблюдения, не выводы. Прочитал по 5 тем у каждой модели и вот что вижу.
Первое — Pro явно тренировали под цепочки рассуждений. На SWE-bench и AIME он в топ-3 мира. Длинный narrative-текст требует другого: вариации ритма, удержания темы на 3000 слов, способности вернуться к мысли через два абзаца. Pro делает это компетентно, но сухо. Текст читается как методичка, а не как разбор от практика.
Второе — корпус. Qwen, разработанный китайской командой, парадоксально пишет по-русски естественнее DeepSeek, тоже китайского. У Pro иногда чувствуется “переводной” регистр — особенно в бизнес-понятиях вроде EVP, retention, churn. Это не ошибка, но цепляет ухо.
Третье — стилистический потолок. Pro даёт хороший “учебниковый” текст. Структура в порядке, факты точные. Но топовые модели (Qwen, Kimi, GPT-5.4) дают такие куски, которые хочется цитировать целиком. У Pro этого свойства нет — никаких “EVP не продаёт вакансию, он фильтрует”. Чисто, но без характера.
Это не претензия к модели — Pro нормальный Tier A. Это претензия к моим ожиданиям: я ждал, что reasoning-флагман автоматически перенесёт силу с задач кода и математики на длинный narrative. Не переносит.
Reality check: Qwen на 22 дня раньше — и впереди по обоим критериям
Qwen 3.6 Plus вышел 2 апреля 2026. DeepSeek V4 Pro — 24 апреля. Оба апрельских релиза, разница 22 дня. Современники по любому разумному определению.
|
Критерий |
Qwen 3.6 Plus |
DeepSeek V4 Pro |
Разница |
|---|---|---|---|
|
Дата релиза |
02 апр 2026 |
24 апр 2026 |
DeepSeek новее на 22 дня |
|
Качество (Claude Score) |
92 |
89 |
Qwen +3 |
|
Цена за вызов |
$0.018 |
$0.0256 |
Qwen дешевле на 30% |
|
Value Score |
84.6 |
75.8 |
Qwen +8.8 |
Качество выше, цена ниже. По обоим критериям одновременно.
Что у Qwen лучше при чтении вблизи. Конкретные кейсы с цифрами вроде “конверсия выросла с 18% до 41%” или “снижение текучести с 28% до 18% за 6 месяцев”. Сразу оговорюсь: это цифры из корпуса модели, я их не верифицировал — возможно синтетика, возможно что-то из реальных публичных отчётов. Но звучат они как примеры из практики, а не из учебника. Для production-генерации курсов это полезный сигнал: модель умеет выдавать «правдоподобную фактуру», которую человек дальше проверяет.
Ещё у него заходят сжатые таблицы с маржинальными вилками — “5–15%, 10–25%, 25–60%+”. Опять же, не строгие данные, но как ориентир для эксперта работает.
И уникальные формулировки. У Qwen в ответах попадались штуки типа “EVP не продаёт вакансию, он фильтрует кандидатов на выходе” или “цена должна быть 15% от годовой экономии клиента, иначе разговор не получится”. Pro таких не выдаёт — у него всё корректно, но это та корректность, которая не запоминается.
То есть проигрыш не в категории — обе модели в Tier A. Проигрыш в ожиданиях. И в production-математике.
Чемпион value: Flash
DeepSeek V4 Flash в этом тесте оказался самым дешёвым среди всех Tier A моделей. И не на проценты, а на порядки.
Score per dollar:
-
Flash: 83 / $0.0019 = 43 684 балла на доллар
-
Pro: 89 / $0.0256 = 3 477 баллов на доллар
-
Kimi K2.6: 88 / $0.0478 = 1 841 балл на доллар
Flash в 12.6 раза эффективнее своей же Pro-версии по этой метрике. Это не маркетинговая натяжка, это арифметика — Pro выигрывает в качестве 7%, проигрывает в цене 1248%.
Для конкретики: ставлю производство на 100 000 уроков в месяц.
|
Модель |
$/мес |
$/год |
Качество |
|---|---|---|---|
|
Flash |
$190 |
$2 280 |
Tier A (83) |
|
Pro |
$2 560 |
$30 720 |
Tier A (89) |
|
Kimi K2.6 |
$4 780 |
$57 360 |
Tier A (88) |
Разница Pro vs Flash — $28 440 в год за +6 баллов из 100. Дальше нужно отвечать на бизнес-вопрос, а не на технический: эти 6 баллов реально влияют на конверсию учеников, которые проходят курс, или нет?
В моём случае — нет. Уроки, которые идут на mass-production, должны быть качественными по дну (Tier A гарантирует), а не на пике. Premium-материалы, где пиковое качество критично, я и так пишу руками или подключаю Qwen / GPT-5.4. Для основной массы Flash — компромисс, который окупается в 13 раз быстрее любой альтернативы.
Скорость тоже играет: 90 секунд на 3000-словный урок против 210 у Pro. Pro в 2.3 раза медленнее, и это внезапно тоже стоит денег — пайплайны параллелятся хуже, очереди длиннее, latency-чувствительные сценарии отваливаются.
Что я в итоге поменял в production
Если коротко — пересобрал стек выбора модели от “флагман по умолчанию” к “ценовая полка под задачу”.
Production-генерация уроков, 10–100k вызовов в месяц — deepseek/deepseek-v4-flash. $19–190 в месяц на этот объём, Tier A качество, 90 секунд на урок, без обрезаний с max_tokens=32768.
Премиум-разборы, 1–10k вызовов в месяц — qwen/qwen3.6-plus (платный, не :free). $18–180 в месяц, 92 балла, естественный русский, реальные цифры в кейсах. Лидер качества в адекватной ценовой категории.
Уникальные insights для топовых клиентов, единичные вызовы — moonshotai/kimi-k2.6. $0.0478 за вызов, 88 баллов. Дороговато, но даёт формулы и фреймворки, которых нет у других моделей. Когда нужен авторский кусок, который нельзя получить нигде — иду к Kimi.
Не пошли в производство:
-
deepseek-v4-pro — переплата без явной выгоды против Flash или Qwen. Может, через полгода мы найдём задачу, где разница в 6 баллов критична — тогда вернёмся.
-
gemini-3-flash-preview — 57 баллов и 37% от целевого word count. Скорость есть, контента нет.
-
xiaomi/mimo-v2.5 (без Pro) — Tier B без специфичных преимуществ.
Mimo V2.5 Pro дал 84 балла за $0.0223 — ровно середина рынка. В стенд оставил, но в production не выкатил: Flash дешевле в 12 раз при качестве на 1 балл ниже.
Что я для себя поменял
Главный урок этого теста — личный, не универсальный. Ставка на флагмана по дате релиза и количеству параметров перестала окупаться. Свежий релиз с миллиардами параметров проиграл и более старому конкуренту, и собственному младшему брату. Причём проиграл не по одной случайной метрике, а по экономике production целиком.
Это не значит, что DeepSeek V4 Pro плохая модель. Она нормальная Tier A. Это значит, что выбирать её “потому что новее и больше” — устаревшая привычка. Особенно когда вокруг релиза много шума: тем сильнее искушение поставить и не проверять.
Поэтому единственная универсальная рекомендация, которую я готов дать — не доверяйте ни моим цифрам, ни цифрам разработчиков моделей. Соберите 5–10 ваших реальных задач, прогоните через 3–4 модели разных ценовых категорий, посмотрите ваш score per dollar. Чужой стенд под чужие задачи — это в лучшем случае ориентир, в худшем — ловушка.
Если у вас есть модель, которую хотите видеть в следующем прогоне, или нашли у меня методологическую дыру — напишите @maslennikovig, разберёмся. Скилл с методикой и сам стенд — на GitHub. ТГ канал интереса ради тут.
ссылка на оригинал статьи https://habr.com/ru/articles/1029044/