Gemini-3.5-flash догнал GPT-5.5 на 97/S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

Главная новость месяца — китайцы перестали быть «дешёвой альтернативой» и стали реальным конкурентом США по соотношению цена/качество. По чистому качеству американцы пока впереди, но по соотношению цена/качество (которое учитывает оба фактора) лидируют китайские модели. Это сдвиг рынка, а не «ещё один релиз».
Gemini-3.5-flash догнал OpenAI — 97/S, тот же балл, что у GPT-5.5, при этом в 2.5 раза дешевле ($0.09 против $0.23 за вызов). Google впервые на нашем тесте берёт ту же вершину, что OpenAI на длинном русском контенте.
DeepSeek V4 Flash — наша основная рабочая лошадка в клиентских продуктах. 83/A качества за $0.0019 — оптимум для production-генерации, где объём вызовов в сотнях тысяч в месяц.
DeepSeek V4 Pro прогнали третий раз за два месяца. Качество стоит на месте (87, было 89 — рутинная флуктуация). Но цена упала в 5.4 раза, и модель снова попала в зону полезного для production — не за счёт роста качества, а за счёт снижения тарифа.
Qwen 3.7 Max — регрессия относительно собственной 3.6. В прошлом тесте китайских иероглифов в русском тексте не было, в этом — вернулись (предел边际ной полезности). При премиум-тарифе 7.5 за 1M это плохая сделка.
Tencent Hy3-preview — чемпион сессии по цене/качеству: 81/A за $0.0017 за вызов. В 134 раза дешевле GPT-5.5 при потере 16 баллов качества.
Дополнительно за сессию. Нашли у себя в формуле cost_per_call систематическую ошибку, которая полгода занижала стоимость на 50–140%. Пересчитали через реальные response.usage OpenRouter. Плюс — короткий инженерный довод, почему модель в продукте стоит держать сменным параметром, а не зашивать в код.

Месяц назад я писал статью про парадокс DeepSeek V4 Pro — новейший флагман DeepSeek проиграл собственному дешёвому Flash и Qwen 3.6 Plus трёхнедельной давности. Тогда главный вывод звучал так: «новее и больше» перестало быть автоматическим критерием выбора модели.

Сегодня прогнал свежий battle на пяти моделях — два американских флагмана и три китайских — и понял, что главный сдвиг рынка ещё больше: китайцы перестали быть «дешёвой альтернативой» и стали реальным конкурентом США. По чистому качеству OpenAI и Google пока впереди, но по соотношению цена/качество лидируют китайские модели. И это не «ещё один тест на одной выборке» — это устойчивый паттерн в нашей БД за последние два месяца.

Это хорошо, потому что в нормальной конкурентной ситуации у заказчика всегда должен быть выбор. И в этой статье — про то, какой выбор сейчас реально доступен, что из этого идёт в production у нас, и почему модель в продукте вообще стоит держать заменяемой.

Что было месяц назад

В прошлой сессии вершину Tier S держали GPT-5.4 (97) и Claude Opus 4.6 (96). Claude Sonnet 4.6 — 95. Apr 2026 был самым плотным месяцем по релизам: DeepSeek V4 Pro и Flash, Kimi K2.6, Mimo V2.5/Pro, Gemini 3 Flash Preview. Тогда же родилась главная боль апреля — DeepSeek V4 Pro (89/A) проиграл собственному дешёвому Flash (83/A) по цене/качеству: Pro был в 13 раз дороже за прирост в 6 баллов. А Qwen 3.6 Plus, вышедший на 22 дня раньше Pro, обогнал его и по качеству (92), и по цене.

Повод для нового прогона дал Google: на этой неделе вышел Gemini-3.5-flash, и его надо было проверить. Заодно решил добрать то, до чего раньше не доходили руки. GPT-5.5 вышел ещё в конце апреля, почти одновременно с DeepSeek V4 — но я его тогда не гонял: премиум-цена не годится для нашего клиентского production с десятками тысяч вызовов в месяц. В этот раз взял его как референс премиум-сегмента — чтобы было с чем сравнивать Gemini. Плюс две китайские модели, которые ещё не пробовал: Qwen 3.7 Max и preview-релиз Tencent Hy3. И перепрогнал DeepSeek V4 Pro — спустя месяц после первого замера.

Первое открытие: Google впервые встал рядом с OpenAI

Gemini-3.5-flash выдал 97 баллов. Тот же балл, что у GPT-5.5. Тот же балл, что у GPT-5.4 месяцем раньше.

Чтобы было понятно, насколько это сдвиг — прошлая модель из семейства Google в нашем тесте была Gemini-3-flash-preview, апрельский релиз. Получила 57 баллов и Tier C. За полтора месяца прыжок с 57 до 97. Это не итеративное улучшение модели — это другой продукт. Видимо, Google наконец дал в обучение нормальный объём русских данных.

Сравнение Gemini-3.5-flash и GPT-5.5 на наших пяти бизнес-темах:

Топик	Gemini	GPT-5.5	Победитель
sales	99	98	Gemini (+1)
finance	97	95	Gemini (+2)
supply-chain	98	96	Gemini (+2)
pricing	96	96	Tie
hr	95	93	Gemini (+2)
avg точный	97.0	95.4	Gemini

Округлённо оба 97 — это паритет. По точному avg Gemini чуть впереди. Но интересно не это. Интересно, как каждая модель добилась своей оценки.

GPT-5.5 — классический OpenAI-сценарий: написать очень много. Avg 3720 слов на тему — больше всех в сессии. Самые подробные методологии (включая эмоциональную сторону возражений, работу с закупками — то, чего нет у других). Куча таблиц — на отдельные топики по 22–70 таблиц.

Gemini-3.5-flash взял разнообразием визуализаций. У него в одном уроке про cash conversion cycle стоит gantt-диаграмма. В уроке про продажи — kanban. В supply chain — sequenceDiagram с цветными зонами кризиса. Плюс у Gemini своя фишка — упражнения с готовыми решениями в <details>, то есть проверить себя можно прямо в тексте. У GPT-5.5 упражнения без решений, как в учебнике.

Это и есть разный подход двух школ: OpenAI пишет больше, Google пишет разнообразнее. На нашем тесте они вытащили один и тот же балл. Дальше — экономика.

Экономика паритета: $898 vs $2290 в месяц

GPT-5.5: input 0.229**.

Gemini-3.5-flash: input 0.090**.

В пересчёте на 10 000 вызовов в месяц:

GPT-5.5 — $2 290
Gemini-3.5-flash — $898
Разница — $1 392 в месяц или $16 700 в год за то же качество

Аргумент за GPT-5.5 один — модель пишет больше. Если ваша задача — длинные подробные методички для руководителей, где нужна именно «толщина», +22% объёма у GPT может быть критичным. Но за +22% объёма платить +154% цены — спорная сделка. У нас в боевых проектах уроки и так упираются в 3000–3500 слов как разумную верхнюю границу читаемости, и Gemini в этот диапазон попадает без труда.

И ещё один сюжет, который меня по-человечески зацепил. До этого battle я был уверен, что Google в премиум-сегменте отстаёт от OpenAI на одну итерацию минимум — что нормально, исторически так и было. После — пересмотрел рекомендации в production: эталон качества теперь Gemini-3.5-flash. Это первый раз, когда я ставлю Google референсом в нашем тесте.

DeepSeek V4 Pro: третий тест за два месяца, качество не растёт

Это история, которая меня одновременно радует и расстраивает.

DeepSeek V4 Pro я тестирую третий раз. Первые два — в апреле, через сутки друг от друга, после релиза 24 апреля. Получили ровно 89 баллов оба раза. Не статистический выброс, воспроизводимый результат. Третий тест — сегодня, через месяц.

Качество — 87. Минус 2 балла к апрелю, в пределах рутинной флуктуации на пяти топиках. По-честному — модель стоит на месте. Несмотря на месяц после релиза. Несмотря на то, что DeepSeek явно работал с моделью — она стала заметно компактнее (avg 1695 слов против 2598 в апреле, минус 35%). Стиль чище, без длиннот, но это уже на уровне постредактуры — фундаментальное «качество мысли» не сдвинулось.

Это меня и расстраивает. Я ждал от Pro серьёзного шага вперёд хотя бы на третьей итерации тестов. Reasoning-флагман с топовыми результатами на математических и кодовых бенчмарках (AIME, SWE-bench) не вытягивает длинный связный текст на русском уже два месяца. По-видимому, разрыв тут не «модель ещё не дозрела» — это конструктивный разрыв между задачами, на которых Pro обучали (математика, код), и задачей, которую мы решаем (длинный методический контент). Pro делает её компетентно, но без характера, без цитируемых пассажей.

Хотя один безусловный плюс у Pro есть, и его стоит назвать: китайских символов в русском тексте он не выдаёт. Для китайской модели это не данность (ниже будет Qwen, у которого с этим беда) — это заслуга. Чистый русский на выходе, без сюрпризов в середине слова.

Что радует — цена упала в 5.4 раза. Тариф input/output снизился с 3.48 за 1M токенов до 0.87. Плюс модель стала писать короче — реальный cost_per_call рухнул с $0.0256 до $0.0047.

Метрика	Apr 24	May 23	Δ
Claude Score	89	87	−2 (флуктуация)
Avg слов	2598	1695	−35%
Tariff input $/1M	$1.74	$0.435	−75%
Tariff output $/1M	$3.48	$0.87	−75%
Cost per call	$0.0256	$0.0047	−82% (5.4× дешевле)
Индекс цена/качество	75.8	86.6	+10.8

В апрельской статье я ставил V4 Pro в категорию «новейший флагман, который проиграл собственному Flash по цене/качеству». Сегодня — переставляю. Это уже хорошая модель для production где-то в середине рынка. Только не за счёт того, что качество выросло — а за счёт того, что цену снизили в 4 раза. Сама модель всё та же.

DeepSeek V4 Flash: наша основная рабочая лошадка

Раз уж зашла речь про DeepSeek — отдельно про Flash-вариант, который у нас сейчас идёт во все клиентские production-проекты по умолчанию.

DeepSeek V4 Flash в этом battle не участвовал — я перепрогнал только Pro. Но по апрельским цифрам, которые я доверяю: 83 балла Tier A, $0.0019 за вызов (с учётом ошибки в формуле — реальная цена ближе к $0.003, но всё равно по-прежнему лидер по цене/качеству). На 100 000 уроков в месяц это $190 против $470 у нового подешевевшего Pro и $2290 у GPT-5.5. На 1 миллион вызовов разница уже выражается в десятках тысяч долларов.

Что мне нравится во Flash после двух месяцев в production:

Стабильное качество — мы не ловим выбросов между запусками, диапазон оценок 81–85 устойчиво у любых заданий из нашего корпуса
Скорость — около 90 секунд на полный урок против 210 у Pro, разница в 2.3 раза, что критично для пакетной генерации
Нет китайских символов, не копирует промпт в заголовки, не ломает Mermaid-диаграммы — модель просто делает работу
Стиль компактный, без воды — что в B2B-контенте обычно плюс, а не минус

Чего она не даёт — литературного блеска. Если задача требует именно красивого, цитируемого текста (глубокий разбор для топ-менеджмента, презентация для совета директоров) — Flash не дотянет. Тут уже нужен Gemini или GPT-5.5. Но 90% наших задач этого и не требует, они требуют «корректно, по-делу, в срок».

И тут я подойду к одному из главных тезисов статьи. Когда мы выбирали Flash, мы не выбирали «лучшую в мире модель». Мы выбирали оптимальную по балансу качество/цена/скорость для нашей конкретной задачи. И этот выбор имеет смысл только тогда, когда модель в проекте — заменяема.

Третье открытие: Tencent Hy3 за $0.0017

Tencent Hy3-preview — это китайская модель Tencent, доступная на OpenRouter как preview-релиз. Тариф 0.26 за 1M токенов (input/output). На нашем тесте получила 81 балл (sales 83, finance 81, supply-chain 80, pricing 80, hr 80) — нижний край Tier A.

Цена за один вызов — $0.00172. В 134 раза дешевле GPT-5.5 при потере всего 16 баллов качества.

Что у Tencent объективно хорошо:

Чистый русский, ноль CJK-символов
Корректная структура с правильными заголовками
Все методологии на месте — SPIN, Challenger, MEDDIC, EOQ, остальная классика B2B-канона

Что слабее лидеров:

Меньше глубины — avg 1740 слов против 3031 у Gemini
Использует LSCPA вместо более популярного LAER для работы с возражениями (не ошибка, просто менее распространённый алгоритм)
Упражнения без готовых решений
Мелкий markdown-баг: пишет ##Введение без пробела после ## — это уже на стороне постобработки лечится

Индекс цена/качество у Tencent — 88.5. Самый высокий в сессии. Это означает: для массовой генерации (массовая персонализация рассылок, тестовые прогоны для проверки промптов, подстраховка, когда основная модель недоступна) модель отдаёт A-tier за деньги, на которых остальные ещё в B-tier. Для production того контента, который не пойдёт под бренд-критичные задачи, — берёшь и работаешь. Для эталонных уроков по-прежнему ставишь Gemini.

Qwen 3.7 Max: регрессия относительно собственной 3.6

На Qwen 3.7 Max у меня были большие расчёты. Qwen 3.6 Plus в апрельском battle взял 92 балла, был лидером по цене/качеству среди платных моделей, и главное — на нём в нашем тесте не было CJK-символов. Я ждал, что Alibaba возьмёт ту же базу, докатит на флагман-тариф и получит нормальную S-tier модель для русского.

Получил 81 балл и старую проблему, которой уже не должно было быть. В двух топиках из пяти Qwen 3.7 вставлял одиночные китайские слова прямо в русский текст:

«Денежная мотивация имеет предел边际ной полезности (закон убывающей предельной полезности)»

«Управление рисками требует перехода от реактивных мер к проактивному量化 (количественному) моделированию угроз»

边际 — это «marginal» по-китайски, прилеплено к русскому суффиксу. 量化 — «quantification», воткнуто перед русской скобкой. Языковой шов внутри слова — модель «думала» на китайском в момент генерации и пропустила токен, который не должен был добраться до output.

Это особенно странно, потому что в Qwen 3.6 этой проблемы не было. То есть Alibaba умеет фиксить эту проблему — мы её видели у них уже починенной. На 3.7 Max она вернулась. Возможно, при тренировке Max-варианта (с увеличенным контекстом или другими параметрами) они затронули слой, ответственный за переключение языка. Или это просто другая ветка обучения, в которой не успели прогнать регрессионные тесты на китайские символы. Со стороны не видно.

По методологии — штраф −3 балла (не −10, потому что затронуто буквально 1 слово на ~2000 текста). В остальном Qwen — солидная A-tier модель: формула Sales Velocity, иерархический дашборд по уровням, концепция операционного рычага в финансах. Но при цене в 41 раз дороже Tencent и в 15 раз дороже DeepSeek V4 Pro — я не вижу сценария, где её стоит выбирать над альтернативами. Будем надеяться, в 3.8 регрессию увидят и пофиксят. На 3.7 — пас.

Это конкретный пример, почему самостоятельные тесты на своих задачах важнее публичных бенчмарков. Qwen 3.7 Max занимает хорошие позиции в китайских рейтингах LLM, на английских задачах работает прилично. На русском с проблемой китайских символов — ловушка, которую публичные тесты не показывают.

Что это значит для рынка LLM в мае 2026

Если коротко — китайцы стали реальной альтернативой американцам. По чистому качеству OpenAI и Google по-прежнему держат верхушку: 97/S — это всё ещё их вершина. Но как только в уравнение попадает цена, картина меняется.

Верхушка по цене/качеству сейчас занята китайскими моделями. DeepSeek V4 Pro даёт 87/A за $0.0047 — индекс 86.6. Tencent Hy3 даёт 81/A за $0.0017 — индекс 88.5. На том же балле Qwen 3.7 (без CJK-проблемы) был бы в той же зоне. Чтобы догнать их по цене/качеству, Gemini-3.5-flash должен либо сильно подешеветь, либо вырасти в качестве с 97 до 110, что физически невозможно — потолок шкалы.

Это и есть главный сдвиг рынка месяца. «Дешевле» перестало быть единственным аргументом за китайские модели. Теперь это «лучше по цене/качеству» при сопоставимом качестве. И это нормальная конкурентная ситуация — у заказчика появился реальный выбор, а у американцев появился стимул либо снижать цены, либо находить другие способы оправдывать премиум.

Один из способов, который у меня уже несколько месяцев крутится в голове как гипотеза, — это open-source. Возьмём Gemma 4 31b от Google. Мы её тестировали в апреле (есть в нашем открытом лидерборде), результаты неплохие для open-weights модели такого размера. Для того, кто готов развернуть её сам, она фактически бесплатна — платишь только за железо. А кто не хочет возиться с развёртыванием, может взять её на OpenRouter, и там она стоит копейки — то есть барьер входа низкий в любом случае. И таких моделей в США выпускают не очень много, а коммерческие флагманы держат в закрытом API.

Моя гипотеза, не претендующая на истину: если бы американцы хотели вытеснить китайцев с рынка лучших по цене/качеству моделей, они могли бы это сделать через релизы хороших open-source моделей. Сейчас этого не происходит — премиум-флагманы (GPT-5.5, Claude Opus, Gemini Ultra) остаются в закрытом API с высоким тарифом. Open-source ниша больше занята китайцами (DeepSeek, Qwen) и небольшими игроками (Mistral, Meta-Llama). У OpenAI формально есть открытые GPT-OSS 120B и 20B, но они уже сильно устарели — это релиз, к которому с тех пор почти не возвращались. Gemma — один из немногих живых американских контрпримеров, и она показывает, что технически такое возможно.

Это не «капитализм-имеет-фундаментальную-проблему», это просто наблюдение. У Google и OpenAI свои причины не релизить open-source флагманы — деньги, безопасность, регуляторное давление. Но конкурентная ниша по цене/качеству на этом фоне отдаётся китайцам не потому, что они умнее, а потому что американцы её не защищают. Это интересный момент рыночной динамики, на который, наверное, обратили бы внимание не только я.

Почему модель в продукте лучше держать заменяемой

Из этой скорости релизов следует одна чисто инженерная вещь, на которую стоит обратить внимание любому, кто встраивает LLM в продукт: если модель зашита в код намертво, продукт устаревает — потому что новые, более сильные модели выходят чаще, чем ты успеваешь переписывать код под них. Если зимой 2025 поставить GPT-4 как основную модель и забыть — к маю 2026 мимо тебя прошёл не один десяток релизов: Sonnet 4 и 4.5, Opus 4.6, GPT-5.4 и 5.5, Gemini-3.5-flash, весь китайский фронт от DeepSeek до Tencent. Очень многие из них превосходят тот GPT-4 одновременно и по качеству, и по цене. Сегодня на его место можно поставить модель заметно сильнее за те же деньги — а чаще даже дешевле. Или ту же по качеству, но в разы дешевле. И всё это время, пока модель зашита намертво, твой продукт работает на устаревшем варианте просто потому, что её неудобно менять.

Вывод простой: модель стоит держать как сменный параметр, а не константу. Технически это недорого — обычно сводится к тому, что model_id хранится не в коде, а в конфиге или в БД, и вызов идёт через OpenRouter (или совместимый прокси) с этим id как параметром. Тогда смена openai/gpt-5.5 на google/gemini-3.5-flash — это одна строка, а не рефакторинг. Бонусом получаешь единый API независимо от вендора, прозрачную стоимость через response.usage (те самые реальные цифры из раздела ниже) и возможность переключиться на запасную модель при достижении лимита запросов. Мы у себя так и делаем по умолчанию — не из любви к красивой архитектуре, а потому что иначе продукт устаревает на ровном месте. Ну и клиентоориентированность и всё такое…:)

Непопулярная позиция: 90% продуктов не нуждаются в Opus или GPT-5

Частая установка при выборе модели для продукта — «поставим самую дорогую, чтобы наверняка». Понятная человеческая логика: лучше переплатить и получить, чем сэкономить и опозориться. Но в подавляющем большинстве случаев это просто сжигание токенов и денег.

Конкретно: для 90–95% production-задач массового AI-контента (генерация уроков, ассистент в B2B-приложении, обработка типовых запросов, классификация, краткий аналитический разбор) разница между GPT-5.5 за $0.23 и DeepSeek V4 Flash за $0.003 на выходе не заметна для конечного пользователя. И тот, и другой текст пройдут проверку «нормально», и редактор не сможет надёжно угадать, кто из них что писал. А разница в счёте за месяц — два порядка.

Когда премиум-модели реально нужны:

Финальная редактура материалов для топ-менеджмента, презентаций, важных коммерческих предложений (но и это часто решается ручной редактурой по тексту от средней модели)
Reasoning-задачи с многошаговой логикой (но это уже не про контент, а про другой класс задач)
Креатив, где нужен литературный голос (но и тут вкус — субъективен)
Когда экономия в принципе не критична (например, продукт на этапе MVP, и каждый запрос важен)

Обратная сторона того же подхода — когда без тестирования ставят самую дешёвую модель. Это тоже плохо. Если ваша модель ловит китайские символы в 7 из 18 случаев, или копирует промпт в заголовки, или выдаёт сломанные диаграммы — клиенту покажете именно это. Сэкономили $200 в месяц — потеряли репутацию.

Правильный путь между двумя крайностями — это тест на своих задачах + честная оценка экономики. Иногда оптимальная модель — премиум, иногда — самая дешёвая, чаще всего — где-то посередине, в районе $0.003–0.005 за вызов. И эта середина — это сейчас зона DeepSeek Flash и Pro, Tencent Hy3, иногда Qwen без китайских символов. Все варианты — китайские. Это и есть рыночный факт мая 2026.

И тут есть ещё один пласт, который чаще всего игнорируют — по-моему, из обычной разработческой лени. Почти любую крепкую среднюю модель можно кодом дотянуть до уровня топовой. Не саму модель, конечно — а итоговое качество того, что доходит до пользователя. Берёшь модель за полцента, обвешиваешь её алгоритмической обвязкой: автоматические проверки на типичные косяки (те же китайские символы, копирование промпта в заголовки, битые диаграммы), автокоррекция формата, повторный прогон при провале проверки, валидация структуры и фактуры по заданным правилам. На выходе — текст, который проходит так же, как от премиум-модели, а стоит в десятки раз дешевле.

Да, честно: это больше работы. Это не «вписал название модели в конфиг и ушёл», это инженерия — надо написать проверки, продумать сценарии отказа, поддерживать всё это. Но именно здесь и появляется настоящая экономия, и она тем больше, чем крупнее бизнес. Логика простая: стоимость разработки обвязки фиксированная, ты платишь за неё один раз. А экономия на запросах — умножается на объём. Чем больше вызовов в месяц, тем быстрее обвязка окупается и тем больше чистой выгоды.

Отсюда важный водораздел, про который редко говорят прямо. Для микробизнеса этот подход часто не имеет смысла — пара тысяч запросов в месяц не окупит разработку обвязки, и проще взять модель подороже «как есть». Дешевле заплатить за токены, чем за инженеров. Но уже для среднего бизнеса картина переворачивается: на десятках и сотнях тысяч вызовов в месяц разница между «дорогая модель как есть» и «средняя модель плюс обвязка» считается сотнями тысяч рублей в год. А для крупного — это вообще один из основных рычагов оптимизации затрат, который почему-то редко доводят до конца. Поэтому и решение «какую модель брать» для микробизнеса и для среднего/крупного — это два разных решения, хотя выглядят одинаково.

И отдельно — про мой косяк в методологии

По правилам честного теста должен рассказать: пока готовил эту сессию, я нашёл у себя в коде ошибку, из-за которой полгода считал стоимость вызовов по кривой формуле — с занижением на 50–140%. На выводы по моделям и на их относительный порядок это не влияет, но абсолютные цифры цены в старых статьях были оценочными. Кому интересна техническая кухня и как я это чинил — разворачивайте. Остальные могут смело пропустить, на рекомендации по моделям это никак не влияет.

Методологический фикс: как формула cost_per_call полгода врала на 50–140% (для тех, кто строит свои бенчмарки)

Когда я начал собирать сравнение с прошлым тестом DeepSeek V4 Pro для этого battle, увидел странное: новая цена $0.0047 за вызов, а в БД для апрельского теста стояло $0.0256. Тариф упал в 4 раза, а cost_per_call упал в 5.4. Откуда лишний коэффициент 1.35?

Пошёл смотреть формулу.

# былоinput_tokens  = 2000          # фиксированная константаoutput_tokens = word_count * 1.5  # приближениеcost = (input_tokens / 1_000_000) * input_price + \       (output_tokens / 1_000_000) * output_price

Полез проверять реальные данные OpenRouter — там в response.usage лежат прямые prompt_tokens и completion_tokens. Сравнил с нашей оценкой:

Модель	Estimated cost	REAL cost	Ошибка
deepseek/deepseek-v4-pro	$0.00308	$0.00473	+53%
google/gemini-3.5-flash	$0.04392	$0.08977	+104%
tencent/hy3-preview	$0.00081	$0.00172	+112%
qwen/qwen3.7-max	$0.02922	$0.07019	+140%

Причина — два коэффициента сразу. 1.5 токена на слово — это нормальное приближение для английского. Для русского markdown с mermaid, LaTeX, callouts и таблицами реальное соотношение 2.7–3.3 токена на слово. Output я недооценивал в 1.8–2.2 раза. Плюс 2000 input_tokens оказались реально 786–928 — input переоценивал в 2.2 раза. Ошибки складывались несимметрично, и в сумме у моделей с большой долей output (а это все наши — 3000+ слов в ответ на 1000-токенный промпт) стоимость систематически занижалась.

Почему прожило полгода — относительное ранжирование между моделями оставалось примерно адекватным. У самой дешёвой индекс цена/качество выходил высокий, у самой дорогой — низкий. Цифры были некорректные, но порядок моделей в таблице сохранялся. Заметил, когда сравнивал retest V4 Pro с апрельскими цифрами и не сошлось.

Починили: compute_value.py теперь читает meta-файлы и берёт реальные usage из OpenRouter; в heuristic_scores JSON добавлено поле cost_per_call_source со значениями REAL или estimated. Перепрогонять все 80 исторических моделей разом — деньги и время, которых нет. Буду делать по мере возникновения вопросов: если читатель хочет сравнить актуальный Gemini-3.5-flash с GPT-5.4, придётся прогнать GPT-5.4 заново, чтобы получить реальную стоимость.

Из этой же сессии — второй фикс, не про деньги, а про сравнение версий теста. Первый черновик отчёта начинался так: «Gemini обогнал предыдущего лидера в нашем тесте — Claude Sonnet 4.5 (92, A-tier)». Это было неправдой. Sonnet 4.5 был лидером только в рамках test_version='4.1.0-battle'. Абсолютный лидер в БД был уже GPT-5.4 (97, S-tier) — но в 4.2.0-battle. SQL фильтровал по версии, GPT-5.4 туда не попадал. Без этого фикса каждый новый battle претендовал бы на «прорыв», даже когда результат равен уже существующему чемпиону из другой версии. Скрипт find_reference.py теперь берёт абсолютного top по quality_score без фильтра по версии.

Обнаружить такие ошибки через полгода после релиза методологии неприятно. Но публиковать отчёт, не сказав про них, было бы хуже. Метод, в котором фиксируешь только свои победы, перестаёт быть методом.

Обновлённые рекомендации (после пересчёта по реальной цене)

Для production эталонного качества, 1 000 – 10 000 вызовов в месяц. Берём google/gemini-3.5-flash. Цена $90–900 в месяц, качество 97/S, разнообразные визуализации (gantt/kanban/sequenceDiagram), упражнения с готовыми решениями. Текущий референс качества в нашей БД.

Для production-масштаба 10 000 – 100 000 вызовов, где деньги критичны. Берём deepseek/deepseek-v4-pro. Цена $47–470 в месяц — в 19 раз дешевле Gemini, в 48 раз дешевле GPT-5.5. Качество 87/A — приемлемо для большинства задач без обязательного человеческого ревью. Стиль компактный, плотный, без длиннот.

Для mass-market при жёстком бюджете, 100 000+ вызовов. Берём tencent/hy3-preview. Цена $17–170 в месяц для 10K–100K вызовов. Качество 81/A, на 16 баллов ниже Gemini — приемлемо для типовой генерации, чистый русский, нет language-switching. Индекс цена/качество 88.5 — лучший в сессии.

Премиум-сегмент. openai/gpt-5.5 — только если важно «больше слов любой ценой» (avg 3720 слов против 3031 у Gemini). Иначе берите Gemini и экономьте 60%.

Не рекомендую. qwen/qwen3.7-max для русского контента — китайские иероглифы в тексте при премиум-цене. openai/gpt-5.5 для типовой работы — переплата 154% за прирост 1.6 балла vs Gemini.

Главный вывод

Главное за май-баттл — не «вышел новый Gemini» и не «починили формулу». Главное — что у заказчика теперь реально есть выбор. По цене и качеству китайские модели догнали американцев, и в верхушке по цене/качеству сидят DeepSeek, Tencent и Qwen, а не американская тройка. Это первый раз за два года тестирования, когда я могу сказать клиенту «вот реальные альтернативы из разных юрисдикций, с сопоставимыми результатами», и это не маркетинговая фраза.

Что из этого следует практически — если у вас уже есть AI-продукт в production, и в нём зашита конкретная модель из 2024–2025 года, вы упустили пять-шесть качественных скачков. Сейчас можно поменять. Если только модель в продукте — заменяема. Если нет — это первое, что стоит починить, потому что через два месяца будет ещё один скачок, и через четыре ещё один.

И ещё один сюжет — не для всех, но для тех, кто строит свои бенчмарки. Параметры не равно качество. Дата релиза не равно превосходство. Бренд вендора не равно «модель лучше». Реальные тесты на своих задачах — единственный способ узнать, что у тебя реально под капотом. Доверять чужим тестам — это покупать ботинки, не примерив. Чего я никому не советую.

См. также

Это третий battle test в нашем цикле. Две предыдущие статьи — это контекст для сегодняшней:

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — апрель 2026, первая статья серии. Методология теста, формула индекса цена/качество, разбор всей весенней линейки моделей включая Gemma 4 31b в open-source сегменте.
Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой — апрель 2026, разбор парадокса DeepSeek V4 Pro vs Flash. Тот самый первый замер Pro, который сегодня перепрогнали третий раз.

Стоит учитывать: cost_per_call в обеих статьях — по старой приближённой формуле, реальные цифры выше на 50–140%. Качество и относительное ранжирование моделей остались валидными, абсолютная стоимость — оценочной.

Открытый лидерборд с обновлёнными реальными цифрами стоимости и активными ссылками на скрипты методологии — ссылку дам в посте Telegram-канала. Там же выкладываю апдейты по новым моделям между статьями — релизы выходят быстрее, чем я успеваю писать о каждом.

Контакты — там же: @maslennikovigor для канала и @maslennikovig для прямой связи. Если нашли в моей методологии ещё какую-нибудь систематическую ошибку — пишите, исправлю быстрее, чем за полгода.

ссылка на оригинал статьи https://habr.com/ru/articles/1040770/