-
Главная новость месяца — китайцы перестали быть «дешёвой альтернативой» и стали реальным конкурентом США по соотношению цена/качество. По чистому качеству американцы пока впереди, но по соотношению цена/качество (которое учитывает оба фактора) лидируют китайские модели. Это сдвиг рынка, а не «ещё один релиз».
-
Gemini-3.5-flash догнал OpenAI — 97/S, тот же балл, что у GPT-5.5, при этом в 2.5 раза дешевле ($0.09 против $0.23 за вызов). Google впервые на нашем тесте берёт ту же вершину, что OpenAI на длинном русском контенте.
-
DeepSeek V4 Flash — наша основная рабочая лошадка в клиентских продуктах. 83/A качества за $0.0019 — оптимум для production-генерации, где объём вызовов в сотнях тысяч в месяц.
-
DeepSeek V4 Pro прогнали третий раз за два месяца. Качество стоит на месте (87, было 89 — рутинная флуктуация). Но цена упала в 5.4 раза, и модель снова попала в зону полезного для production — не за счёт роста качества, а за счёт снижения тарифа.
-
Qwen 3.7 Max — регрессия относительно собственной 3.6. В прошлом тесте китайских иероглифов в русском тексте не было, в этом — вернулись (
предел边际ной полезности). При премиум-тарифе7.5 за 1M это плохая сделка.
-
Tencent Hy3-preview — чемпион сессии по цене/качеству: 81/A за $0.0017 за вызов. В 134 раза дешевле GPT-5.5 при потере 16 баллов качества.
-
Дополнительно за сессию. Нашли у себя в формуле
cost_per_callсистематическую ошибку, которая полгода занижала стоимость на 50–140%. Пересчитали через реальныеresponse.usageOpenRouter. Плюс — короткий инженерный довод, почему модель в продукте стоит держать сменным параметром, а не зашивать в код.
Месяц назад я писал статью про парадокс DeepSeek V4 Pro — новейший флагман DeepSeek проиграл собственному дешёвому Flash и Qwen 3.6 Plus трёхнедельной давности. Тогда главный вывод звучал так: «новее и больше» перестало быть автоматическим критерием выбора модели.
Сегодня прогнал свежий battle на пяти моделях — два американских флагмана и три китайских — и понял, что главный сдвиг рынка ещё больше: китайцы перестали быть «дешёвой альтернативой» и стали реальным конкурентом США. По чистому качеству OpenAI и Google пока впереди, но по соотношению цена/качество лидируют китайские модели. И это не «ещё один тест на одной выборке» — это устойчивый паттерн в нашей БД за последние два месяца.
Это хорошо, потому что в нормальной конкурентной ситуации у заказчика всегда должен быть выбор. И в этой статье — про то, какой выбор сейчас реально доступен, что из этого идёт в production у нас, и почему модель в продукте вообще стоит держать заменяемой.
Что было месяц назад
В прошлой сессии вершину Tier S держали GPT-5.4 (97) и Claude Opus 4.6 (96). Claude Sonnet 4.6 — 95. Apr 2026 был самым плотным месяцем по релизам: DeepSeek V4 Pro и Flash, Kimi K2.6, Mimo V2.5/Pro, Gemini 3 Flash Preview. Тогда же родилась главная боль апреля — DeepSeek V4 Pro (89/A) проиграл собственному дешёвому Flash (83/A) по цене/качеству: Pro был в 13 раз дороже за прирост в 6 баллов. А Qwen 3.6 Plus, вышедший на 22 дня раньше Pro, обогнал его и по качеству (92), и по цене.
Повод для нового прогона дал Google: на этой неделе вышел Gemini-3.5-flash, и его надо было проверить. Заодно решил добрать то, до чего раньше не доходили руки. GPT-5.5 вышел ещё в конце апреля, почти одновременно с DeepSeek V4 — но я его тогда не гонял: премиум-цена не годится для нашего клиентского production с десятками тысяч вызовов в месяц. В этот раз взял его как референс премиум-сегмента — чтобы было с чем сравнивать Gemini. Плюс две китайские модели, которые ещё не пробовал: Qwen 3.7 Max и preview-релиз Tencent Hy3. И перепрогнал DeepSeek V4 Pro — спустя месяц после первого замера.
Первое открытие: Google впервые встал рядом с OpenAI
Gemini-3.5-flash выдал 97 баллов. Тот же балл, что у GPT-5.5. Тот же балл, что у GPT-5.4 месяцем раньше.
Чтобы было понятно, насколько это сдвиг — прошлая модель из семейства Google в нашем тесте была Gemini-3-flash-preview, апрельский релиз. Получила 57 баллов и Tier C. За полтора месяца прыжок с 57 до 97. Это не итеративное улучшение модели — это другой продукт. Видимо, Google наконец дал в обучение нормальный объём русских данных.
Сравнение Gemini-3.5-flash и GPT-5.5 на наших пяти бизнес-темах:
|
Топик |
Gemini |
GPT-5.5 |
Победитель |
|---|---|---|---|
|
sales |
99 |
98 |
Gemini (+1) |
|
finance |
97 |
95 |
Gemini (+2) |
|
supply-chain |
98 |
96 |
Gemini (+2) |
|
pricing |
96 |
96 |
Tie |
|
hr |
95 |
93 |
Gemini (+2) |
|
avg точный |
97.0 |
95.4 |
Gemini |
Округлённо оба 97 — это паритет. По точному avg Gemini чуть впереди. Но интересно не это. Интересно, как каждая модель добилась своей оценки.
GPT-5.5 — классический OpenAI-сценарий: написать очень много. Avg 3720 слов на тему — больше всех в сессии. Самые подробные методологии (включая эмоциональную сторону возражений, работу с закупками — то, чего нет у других). Куча таблиц — на отдельные топики по 22–70 таблиц.
Gemini-3.5-flash взял разнообразием визуализаций. У него в одном уроке про cash conversion cycle стоит gantt-диаграмма. В уроке про продажи — kanban. В supply chain — sequenceDiagram с цветными зонами кризиса. Плюс у Gemini своя фишка — упражнения с готовыми решениями в <details>, то есть проверить себя можно прямо в тексте. У GPT-5.5 упражнения без решений, как в учебнике.
Это и есть разный подход двух школ: OpenAI пишет больше, Google пишет разнообразнее. На нашем тесте они вытащили один и тот же балл. Дальше — экономика.
Экономика паритета: $898 vs $2290 в месяц
GPT-5.5: input 0.229**.
Gemini-3.5-flash: input 0.090**.
В пересчёте на 10 000 вызовов в месяц:
-
GPT-5.5 — $2 290
-
Gemini-3.5-flash — $898
-
Разница — $1 392 в месяц или $16 700 в год за то же качество
Аргумент за GPT-5.5 один — модель пишет больше. Если ваша задача — длинные подробные методички для руководителей, где нужна именно «толщина», +22% объёма у GPT может быть критичным. Но за +22% объёма платить +154% цены — спорная сделка. У нас в боевых проектах уроки и так упираются в 3000–3500 слов как разумную верхнюю границу читаемости, и Gemini в этот диапазон попадает без труда.
И ещё один сюжет, который меня по-человечески зацепил. До этого battle я был уверен, что Google в премиум-сегменте отстаёт от OpenAI на одну итерацию минимум — что нормально, исторически так и было. После — пересмотрел рекомендации в production: эталон качества теперь Gemini-3.5-flash. Это первый раз, когда я ставлю Google референсом в нашем тесте.
DeepSeek V4 Pro: третий тест за два месяца, качество не растёт
Это история, которая меня одновременно радует и расстраивает.
DeepSeek V4 Pro я тестирую третий раз. Первые два — в апреле, через сутки друг от друга, после релиза 24 апреля. Получили ровно 89 баллов оба раза. Не статистический выброс, воспроизводимый результат. Третий тест — сегодня, через месяц.
Качество — 87. Минус 2 балла к апрелю, в пределах рутинной флуктуации на пяти топиках. По-честному — модель стоит на месте. Несмотря на месяц после релиза. Несмотря на то, что DeepSeek явно работал с моделью — она стала заметно компактнее (avg 1695 слов против 2598 в апреле, минус 35%). Стиль чище, без длиннот, но это уже на уровне постредактуры — фундаментальное «качество мысли» не сдвинулось.
Это меня и расстраивает. Я ждал от Pro серьёзного шага вперёд хотя бы на третьей итерации тестов. Reasoning-флагман с топовыми результатами на математических и кодовых бенчмарках (AIME, SWE-bench) не вытягивает длинный связный текст на русском уже два месяца. По-видимому, разрыв тут не «модель ещё не дозрела» — это конструктивный разрыв между задачами, на которых Pro обучали (математика, код), и задачей, которую мы решаем (длинный методический контент). Pro делает её компетентно, но без характера, без цитируемых пассажей.
Хотя один безусловный плюс у Pro есть, и его стоит назвать: китайских символов в русском тексте он не выдаёт. Для китайской модели это не данность (ниже будет Qwen, у которого с этим беда) — это заслуга. Чистый русский на выходе, без сюрпризов в середине слова.
Что радует — цена упала в 5.4 раза. Тариф input/output снизился с 3.48 за 1M токенов до
0.87. Плюс модель стала писать короче — реальный cost_per_call рухнул с $0.0256 до $0.0047.
|
Метрика |
Apr 24 |
May 23 |
Δ |
|---|---|---|---|
|
Claude Score |
89 |
87 |
−2 (флуктуация) |
|
Avg слов |
2598 |
1695 |
−35% |
|
Tariff input $/1M |
$1.74 |
$0.435 |
−75% |
|
Tariff output $/1M |
$3.48 |
$0.87 |
−75% |
|
Cost per call |
$0.0256 |
$0.0047 |
−82% (5.4× дешевле) |
|
Индекс цена/качество |
75.8 |
86.6 |
+10.8 |
В апрельской статье я ставил V4 Pro в категорию «новейший флагман, который проиграл собственному Flash по цене/качеству». Сегодня — переставляю. Это уже хорошая модель для production где-то в середине рынка. Только не за счёт того, что качество выросло — а за счёт того, что цену снизили в 4 раза. Сама модель всё та же.
DeepSeek V4 Flash: наша основная рабочая лошадка
Раз уж зашла речь про DeepSeek — отдельно про Flash-вариант, который у нас сейчас идёт во все клиентские production-проекты по умолчанию.
DeepSeek V4 Flash в этом battle не участвовал — я перепрогнал только Pro. Но по апрельским цифрам, которые я доверяю: 83 балла Tier A, $0.0019 за вызов (с учётом ошибки в формуле — реальная цена ближе к $0.003, но всё равно по-прежнему лидер по цене/качеству). На 100 000 уроков в месяц это $190 против $470 у нового подешевевшего Pro и $2290 у GPT-5.5. На 1 миллион вызовов разница уже выражается в десятках тысяч долларов.
Что мне нравится во Flash после двух месяцев в production:
-
Стабильное качество — мы не ловим выбросов между запусками, диапазон оценок 81–85 устойчиво у любых заданий из нашего корпуса
-
Скорость — около 90 секунд на полный урок против 210 у Pro, разница в 2.3 раза, что критично для пакетной генерации
-
Нет китайских символов, не копирует промпт в заголовки, не ломает Mermaid-диаграммы — модель просто делает работу
-
Стиль компактный, без воды — что в B2B-контенте обычно плюс, а не минус
Чего она не даёт — литературного блеска. Если задача требует именно красивого, цитируемого текста (глубокий разбор для топ-менеджмента, презентация для совета директоров) — Flash не дотянет. Тут уже нужен Gemini или GPT-5.5. Но 90% наших задач этого и не требует, они требуют «корректно, по-делу, в срок».
И тут я подойду к одному из главных тезисов статьи. Когда мы выбирали Flash, мы не выбирали «лучшую в мире модель». Мы выбирали оптимальную по балансу качество/цена/скорость для нашей конкретной задачи. И этот выбор имеет смысл только тогда, когда модель в проекте — заменяема.
Третье открытие: Tencent Hy3 за $0.0017
Tencent Hy3-preview — это китайская модель Tencent, доступная на OpenRouter как preview-релиз. Тариф 0.26 за 1M токенов (input/output). На нашем тесте получила 81 балл (sales 83, finance 81, supply-chain 80, pricing 80, hr 80) — нижний край Tier A.
Цена за один вызов — $0.00172. В 134 раза дешевле GPT-5.5 при потере всего 16 баллов качества.
Что у Tencent объективно хорошо:
-
Чистый русский, ноль CJK-символов
-
Корректная структура с правильными заголовками
-
Все методологии на месте — SPIN, Challenger, MEDDIC, EOQ, остальная классика B2B-канона
Что слабее лидеров:
-
Меньше глубины — avg 1740 слов против 3031 у Gemini
-
Использует LSCPA вместо более популярного LAER для работы с возражениями (не ошибка, просто менее распространённый алгоритм)
-
Упражнения без готовых решений
-
Мелкий markdown-баг: пишет
##Введениебез пробела после##— это уже на стороне постобработки лечится
Индекс цена/качество у Tencent — 88.5. Самый высокий в сессии. Это означает: для массовой генерации (массовая персонализация рассылок, тестовые прогоны для проверки промптов, подстраховка, когда основная модель недоступна) модель отдаёт A-tier за деньги, на которых остальные ещё в B-tier. Для production того контента, который не пойдёт под бренд-критичные задачи, — берёшь и работаешь. Для эталонных уроков по-прежнему ставишь Gemini.
Qwen 3.7 Max: регрессия относительно собственной 3.6
На Qwen 3.7 Max у меня были большие расчёты. Qwen 3.6 Plus в апрельском battle взял 92 балла, был лидером по цене/качеству среди платных моделей, и главное — на нём в нашем тесте не было CJK-символов. Я ждал, что Alibaba возьмёт ту же базу, докатит на флагман-тариф и получит нормальную S-tier модель для русского.
Получил 81 балл и старую проблему, которой уже не должно было быть. В двух топиках из пяти Qwen 3.7 вставлял одиночные китайские слова прямо в русский текст:
«Денежная мотивация имеет предел边际ной полезности (закон убывающей предельной полезности)»
«Управление рисками требует перехода от реактивных мер к проактивному量化 (количественному) моделированию угроз»
边际 — это «marginal» по-китайски, прилеплено к русскому суффиксу. 量化 — «quantification», воткнуто перед русской скобкой. Языковой шов внутри слова — модель «думала» на китайском в момент генерации и пропустила токен, который не должен был добраться до output.
Это особенно странно, потому что в Qwen 3.6 этой проблемы не было. То есть Alibaba умеет фиксить эту проблему — мы её видели у них уже починенной. На 3.7 Max она вернулась. Возможно, при тренировке Max-варианта (с увеличенным контекстом или другими параметрами) они затронули слой, ответственный за переключение языка. Или это просто другая ветка обучения, в которой не успели прогнать регрессионные тесты на китайские символы. Со стороны не видно.
По методологии — штраф −3 балла (не −10, потому что затронуто буквально 1 слово на ~2000 текста). В остальном Qwen — солидная A-tier модель: формула Sales Velocity, иерархический дашборд по уровням, концепция операционного рычага в финансах. Но при цене в 41 раз дороже Tencent и в 15 раз дороже DeepSeek V4 Pro — я не вижу сценария, где её стоит выбирать над альтернативами. Будем надеяться, в 3.8 регрессию увидят и пофиксят. На 3.7 — пас.
Это конкретный пример, почему самостоятельные тесты на своих задачах важнее публичных бенчмарков. Qwen 3.7 Max занимает хорошие позиции в китайских рейтингах LLM, на английских задачах работает прилично. На русском с проблемой китайских символов — ловушка, которую публичные тесты не показывают.
Что это значит для рынка LLM в мае 2026
Если коротко — китайцы стали реальной альтернативой американцам. По чистому качеству OpenAI и Google по-прежнему держат верхушку: 97/S — это всё ещё их вершина. Но как только в уравнение попадает цена, картина меняется.
Верхушка по цене/качеству сейчас занята китайскими моделями. DeepSeek V4 Pro даёт 87/A за $0.0047 — индекс 86.6. Tencent Hy3 даёт 81/A за $0.0017 — индекс 88.5. На том же балле Qwen 3.7 (без CJK-проблемы) был бы в той же зоне. Чтобы догнать их по цене/качеству, Gemini-3.5-flash должен либо сильно подешеветь, либо вырасти в качестве с 97 до 110, что физически невозможно — потолок шкалы.
Это и есть главный сдвиг рынка месяца. «Дешевле» перестало быть единственным аргументом за китайские модели. Теперь это «лучше по цене/качеству» при сопоставимом качестве. И это нормальная конкурентная ситуация — у заказчика появился реальный выбор, а у американцев появился стимул либо снижать цены, либо находить другие способы оправдывать премиум.
Один из способов, который у меня уже несколько месяцев крутится в голове как гипотеза, — это open-source. Возьмём Gemma 4 31b от Google. Мы её тестировали в апреле (есть в нашем открытом лидерборде), результаты неплохие для open-weights модели такого размера. Для того, кто готов развернуть её сам, она фактически бесплатна — платишь только за железо. А кто не хочет возиться с развёртыванием, может взять её на OpenRouter, и там она стоит копейки — то есть барьер входа низкий в любом случае. И таких моделей в США выпускают не очень много, а коммерческие флагманы держат в закрытом API.
Моя гипотеза, не претендующая на истину: если бы американцы хотели вытеснить китайцев с рынка лучших по цене/качеству моделей, они могли бы это сделать через релизы хороших open-source моделей. Сейчас этого не происходит — премиум-флагманы (GPT-5.5, Claude Opus, Gemini Ultra) остаются в закрытом API с высоким тарифом. Open-source ниша больше занята китайцами (DeepSeek, Qwen) и небольшими игроками (Mistral, Meta-Llama). У OpenAI формально есть открытые GPT-OSS 120B и 20B, но они уже сильно устарели — это релиз, к которому с тех пор почти не возвращались. Gemma — один из немногих живых американских контрпримеров, и она показывает, что технически такое возможно.
Это не «капитализм-имеет-фундаментальную-проблему», это просто наблюдение. У Google и OpenAI свои причины не релизить open-source флагманы — деньги, безопасность, регуляторное давление. Но конкурентная ниша по цене/качеству на этом фоне отдаётся китайцам не потому, что они умнее, а потому что американцы её не защищают. Это интересный момент рыночной динамики, на который, наверное, обратили бы внимание не только я.
Почему модель в продукте лучше держать заменяемой
Из этой скорости релизов следует одна чисто инженерная вещь, на которую стоит обратить внимание любому, кто встраивает LLM в продукт: если модель зашита в код намертво, продукт устаревает — потому что новые, более сильные модели выходят чаще, чем ты успеваешь переписывать код под них. Если зимой 2025 поставить GPT-4 как основную модель и забыть — к маю 2026 мимо тебя прошёл не один десяток релизов: Sonnet 4 и 4.5, Opus 4.6, GPT-5.4 и 5.5, Gemini-3.5-flash, весь китайский фронт от DeepSeek до Tencent. Очень многие из них превосходят тот GPT-4 одновременно и по качеству, и по цене. Сегодня на его место можно поставить модель заметно сильнее за те же деньги — а чаще даже дешевле. Или ту же по качеству, но в разы дешевле. И всё это время, пока модель зашита намертво, твой продукт работает на устаревшем варианте просто потому, что её неудобно менять.
Вывод простой: модель стоит держать как сменный параметр, а не константу. Технически это недорого — обычно сводится к тому, что model_id хранится не в коде, а в конфиге или в БД, и вызов идёт через OpenRouter (или совместимый прокси) с этим id как параметром. Тогда смена openai/gpt-5.5 на google/gemini-3.5-flash — это одна строка, а не рефакторинг. Бонусом получаешь единый API независимо от вендора, прозрачную стоимость через response.usage (те самые реальные цифры из раздела ниже) и возможность переключиться на запасную модель при достижении лимита запросов. Мы у себя так и делаем по умолчанию — не из любви к красивой архитектуре, а потому что иначе продукт устаревает на ровном месте. Ну и клиентоориентированность и всё такое…:)
Непопулярная позиция: 90% продуктов не нуждаются в Opus или GPT-5
Частая установка при выборе модели для продукта — «поставим самую дорогую, чтобы наверняка». Понятная человеческая логика: лучше переплатить и получить, чем сэкономить и опозориться. Но в подавляющем большинстве случаев это просто сжигание токенов и денег.
Конкретно: для 90–95% production-задач массового AI-контента (генерация уроков, ассистент в B2B-приложении, обработка типовых запросов, классификация, краткий аналитический разбор) разница между GPT-5.5 за $0.23 и DeepSeek V4 Flash за $0.003 на выходе не заметна для конечного пользователя. И тот, и другой текст пройдут проверку «нормально», и редактор не сможет надёжно угадать, кто из них что писал. А разница в счёте за месяц — два порядка.
Когда премиум-модели реально нужны:
-
Финальная редактура материалов для топ-менеджмента, презентаций, важных коммерческих предложений (но и это часто решается ручной редактурой по тексту от средней модели)
-
Reasoning-задачи с многошаговой логикой (но это уже не про контент, а про другой класс задач)
-
Креатив, где нужен литературный голос (но и тут вкус — субъективен)
-
Когда экономия в принципе не критична (например, продукт на этапе MVP, и каждый запрос важен)
Обратная сторона того же подхода — когда без тестирования ставят самую дешёвую модель. Это тоже плохо. Если ваша модель ловит китайские символы в 7 из 18 случаев, или копирует промпт в заголовки, или выдаёт сломанные диаграммы — клиенту покажете именно это. Сэкономили $200 в месяц — потеряли репутацию.
Правильный путь между двумя крайностями — это тест на своих задачах + честная оценка экономики. Иногда оптимальная модель — премиум, иногда — самая дешёвая, чаще всего — где-то посередине, в районе $0.003–0.005 за вызов. И эта середина — это сейчас зона DeepSeek Flash и Pro, Tencent Hy3, иногда Qwen без китайских символов. Все варианты — китайские. Это и есть рыночный факт мая 2026.
И тут есть ещё один пласт, который чаще всего игнорируют — по-моему, из обычной разработческой лени. Почти любую крепкую среднюю модель можно кодом дотянуть до уровня топовой. Не саму модель, конечно — а итоговое качество того, что доходит до пользователя. Берёшь модель за полцента, обвешиваешь её алгоритмической обвязкой: автоматические проверки на типичные косяки (те же китайские символы, копирование промпта в заголовки, битые диаграммы), автокоррекция формата, повторный прогон при провале проверки, валидация структуры и фактуры по заданным правилам. На выходе — текст, который проходит так же, как от премиум-модели, а стоит в десятки раз дешевле.
Да, честно: это больше работы. Это не «вписал название модели в конфиг и ушёл», это инженерия — надо написать проверки, продумать сценарии отказа, поддерживать всё это. Но именно здесь и появляется настоящая экономия, и она тем больше, чем крупнее бизнес. Логика простая: стоимость разработки обвязки фиксированная, ты платишь за неё один раз. А экономия на запросах — умножается на объём. Чем больше вызовов в месяц, тем быстрее обвязка окупается и тем больше чистой выгоды.
Отсюда важный водораздел, про который редко говорят прямо. Для микробизнеса этот подход часто не имеет смысла — пара тысяч запросов в месяц не окупит разработку обвязки, и проще взять модель подороже «как есть». Дешевле заплатить за токены, чем за инженеров. Но уже для среднего бизнеса картина переворачивается: на десятках и сотнях тысяч вызовов в месяц разница между «дорогая модель как есть» и «средняя модель плюс обвязка» считается сотнями тысяч рублей в год. А для крупного — это вообще один из основных рычагов оптимизации затрат, который почему-то редко доводят до конца. Поэтому и решение «какую модель брать» для микробизнеса и для среднего/крупного — это два разных решения, хотя выглядят одинаково.
И отдельно — про мой косяк в методологии
По правилам честного теста должен рассказать: пока готовил эту сессию, я нашёл у себя в коде ошибку, из-за которой полгода считал стоимость вызовов по кривой формуле — с занижением на 50–140%. На выводы по моделям и на их относительный порядок это не влияет, но абсолютные цифры цены в старых статьях были оценочными. Кому интересна техническая кухня и как я это чинил — разворачивайте. Остальные могут смело пропустить, на рекомендации по моделям это никак не влияет.
Методологический фикс: как формула cost_per_call полгода врала на 50–140% (для тех, кто строит свои бенчмарки)
Когда я начал собирать сравнение с прошлым тестом DeepSeek V4 Pro для этого battle, увидел странное: новая цена $0.0047 за вызов, а в БД для апрельского теста стояло $0.0256. Тариф упал в 4 раза, а cost_per_call упал в 5.4. Откуда лишний коэффициент 1.35?
Пошёл смотреть формулу.
# былоinput_tokens = 2000 # фиксированная константаoutput_tokens = word_count * 1.5 # приближениеcost = (input_tokens / 1_000_000) * input_price + \ (output_tokens / 1_000_000) * output_price
Полез проверять реальные данные OpenRouter — там в response.usage лежат прямые prompt_tokens и completion_tokens. Сравнил с нашей оценкой:
|
Модель |
Estimated cost |
REAL cost |
Ошибка |
|---|---|---|---|
|
deepseek/deepseek-v4-pro |
$0.00308 |
$0.00473 |
+53% |
|
google/gemini-3.5-flash |
$0.04392 |
$0.08977 |
+104% |
|
tencent/hy3-preview |
$0.00081 |
$0.00172 |
+112% |
|
qwen/qwen3.7-max |
$0.02922 |
$0.07019 |
+140% |
Причина — два коэффициента сразу. 1.5 токена на слово — это нормальное приближение для английского. Для русского markdown с mermaid, LaTeX, callouts и таблицами реальное соотношение 2.7–3.3 токена на слово. Output я недооценивал в 1.8–2.2 раза. Плюс 2000 input_tokens оказались реально 786–928 — input переоценивал в 2.2 раза. Ошибки складывались несимметрично, и в сумме у моделей с большой долей output (а это все наши — 3000+ слов в ответ на 1000-токенный промпт) стоимость систематически занижалась.
Почему прожило полгода — относительное ранжирование между моделями оставалось примерно адекватным. У самой дешёвой индекс цена/качество выходил высокий, у самой дорогой — низкий. Цифры были некорректные, но порядок моделей в таблице сохранялся. Заметил, когда сравнивал retest V4 Pro с апрельскими цифрами и не сошлось.
Починили: compute_value.py теперь читает meta-файлы и берёт реальные usage из OpenRouter; в heuristic_scores JSON добавлено поле cost_per_call_source со значениями REAL или estimated. Перепрогонять все 80 исторических моделей разом — деньги и время, которых нет. Буду делать по мере возникновения вопросов: если читатель хочет сравнить актуальный Gemini-3.5-flash с GPT-5.4, придётся прогнать GPT-5.4 заново, чтобы получить реальную стоимость.
Из этой же сессии — второй фикс, не про деньги, а про сравнение версий теста. Первый черновик отчёта начинался так: «Gemini обогнал предыдущего лидера в нашем тесте — Claude Sonnet 4.5 (92, A-tier)». Это было неправдой. Sonnet 4.5 был лидером только в рамках test_version='4.1.0-battle'. Абсолютный лидер в БД был уже GPT-5.4 (97, S-tier) — но в 4.2.0-battle. SQL фильтровал по версии, GPT-5.4 туда не попадал. Без этого фикса каждый новый battle претендовал бы на «прорыв», даже когда результат равен уже существующему чемпиону из другой версии. Скрипт find_reference.py теперь берёт абсолютного top по quality_score без фильтра по версии.
Обнаружить такие ошибки через полгода после релиза методологии неприятно. Но публиковать отчёт, не сказав про них, было бы хуже. Метод, в котором фиксируешь только свои победы, перестаёт быть методом.
Обновлённые рекомендации (после пересчёта по реальной цене)
Для production эталонного качества, 1 000 – 10 000 вызовов в месяц. Берём google/gemini-3.5-flash. Цена $90–900 в месяц, качество 97/S, разнообразные визуализации (gantt/kanban/sequenceDiagram), упражнения с готовыми решениями. Текущий референс качества в нашей БД.
Для production-масштаба 10 000 – 100 000 вызовов, где деньги критичны. Берём deepseek/deepseek-v4-pro. Цена $47–470 в месяц — в 19 раз дешевле Gemini, в 48 раз дешевле GPT-5.5. Качество 87/A — приемлемо для большинства задач без обязательного человеческого ревью. Стиль компактный, плотный, без длиннот.
Для mass-market при жёстком бюджете, 100 000+ вызовов. Берём tencent/hy3-preview. Цена $17–170 в месяц для 10K–100K вызовов. Качество 81/A, на 16 баллов ниже Gemini — приемлемо для типовой генерации, чистый русский, нет language-switching. Индекс цена/качество 88.5 — лучший в сессии.
Премиум-сегмент. openai/gpt-5.5 — только если важно «больше слов любой ценой» (avg 3720 слов против 3031 у Gemini). Иначе берите Gemini и экономьте 60%.
Не рекомендую. qwen/qwen3.7-max для русского контента — китайские иероглифы в тексте при премиум-цене. openai/gpt-5.5 для типовой работы — переплата 154% за прирост 1.6 балла vs Gemini.
Главный вывод
Главное за май-баттл — не «вышел новый Gemini» и не «починили формулу». Главное — что у заказчика теперь реально есть выбор. По цене и качеству китайские модели догнали американцев, и в верхушке по цене/качеству сидят DeepSeek, Tencent и Qwen, а не американская тройка. Это первый раз за два года тестирования, когда я могу сказать клиенту «вот реальные альтернативы из разных юрисдикций, с сопоставимыми результатами», и это не маркетинговая фраза.
Что из этого следует практически — если у вас уже есть AI-продукт в production, и в нём зашита конкретная модель из 2024–2025 года, вы упустили пять-шесть качественных скачков. Сейчас можно поменять. Если только модель в продукте — заменяема. Если нет — это первое, что стоит починить, потому что через два месяца будет ещё один скачок, и через четыре ещё один.
И ещё один сюжет — не для всех, но для тех, кто строит свои бенчмарки. Параметры не равно качество. Дата релиза не равно превосходство. Бренд вендора не равно «модель лучше». Реальные тесты на своих задачах — единственный способ узнать, что у тебя реально под капотом. Доверять чужим тестам — это покупать ботинки, не примерив. Чего я никому не советую.
См. также
Это третий battle test в нашем цикле. Две предыдущие статьи — это контекст для сегодняшней:
-
Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — апрель 2026, первая статья серии. Методология теста, формула индекса цена/качество, разбор всей весенней линейки моделей включая Gemma 4 31b в open-source сегменте.
-
Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой — апрель 2026, разбор парадокса DeepSeek V4 Pro vs Flash. Тот самый первый замер Pro, который сегодня перепрогнали третий раз.
Стоит учитывать: cost_per_call в обеих статьях — по старой приближённой формуле, реальные цифры выше на 50–140%. Качество и относительное ранжирование моделей остались валидными, абсолютная стоимость — оценочной.
Открытый лидерборд с обновлёнными реальными цифрами стоимости и активными ссылками на скрипты методологии — ссылку дам в посте Telegram-канала. Там же выкладываю апдейты по новым моделям между статьями — релизы выходят быстрее, чем я успеваю писать о каждом.
Контакты — там же: @maslennikovigor для канала и @maslennikovig для прямой связи. Если нашли в моей методологии ещё какую-нибудь систематическую ошибку — пишите, исправлю быстрее, чем за полгода.
ссылка на оригинал статьи https://habr.com/ru/articles/1040770/