Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым

Собрал ИИ-бенчмарк под себя — и дорогие модели проиграли дешёвым

Публичные лидерборды сходятся: сильнейшая открытая модель сейчас — GLM-5.2 на 744 миллиарда параметров. За ней — Kimi K2.6, DeepSeek V4. Я пару месяцев доверял этим таблицам и гонял через лучшие модели свою ежедневную работу.

Потом измерил то, чего лидерборды не могут измерить — как работаю конкретно я. Тройка лидеров сжалась в ничью, а победила в практике модель в 37 раз дешевле GLM-5.2.

Дальше — как я это мерил, на чём, какие были грабли, и почему «лучшая модель» и «лучшая модель для тебя» — это разные модели.

Почему чужой лидерборд не подберет модель под тебя

Artificial Analysis Intelligence Index измеряет работу в математике, науке, знаниях. Хорошая метрика — но я не решаю олимпиадные задачи. Я скормил скрипту два месяца своих сессий с ИИ (75 сессий, 23 813 вызовов инструментов из транскриптов) и посмотрел, что я на самом деле делаю.

Оказалось — не то, что думал. 45% всего, что я пишу руками ИИ, — это .md: стратегия, спеки, решения, дневные сводки. Код — меньшая часть, и он размазан по Python, TypeScript, Ansible. 51% вызовов инструментов — Bash, но это git/grep/find, а не сборка. Промпчу по-английски — на выходе русский. Контекст — p90 в 324 тысячи токенов.

Вывод дня: я не «кодер с ИИ». Я архитектор, который через ИИ думает. Любой лидерборд про SWE-bench измеряет не мою работу.

Измеряем: 50 задач из своей реальной работы

Два слоя — как в продукте: приватный профиль → публичный набор из вычищенных задач, воспроизводящих распределение профиля.

50 заданий, взвешенных под реальный профиль: стратегический синтез (25%), архитектурные решения (20%), документация в моём формате (20%), дистилляция исследовательской работы (12%), подготовка к сделкам (8%), малая часть — код/инфра (15%). Каждое задание — промпт + грейдер.

Грейдинг в два слоя:

→ Золотой стандарт / исполнение — где проверяется объективно (запускается код? правильный tool-call? есть цитата на источник?) без предвзятости. → Ансамбль судей — для открытых задач (стратегия, доки). Как обычно у меня — три независимых судьи, усреднение, нормировка по длине ответа (против verbosity-bias).

Добавляем тонкую обёртку поверх: OpenAI-совместимый эндпоинт → раннер → грейдер → таблица. Любой кандидат отдаёт OpenAI-совместимый API — vLLM, llama.cpp, облачные.

Ансамбль судей:

def judge_call(prompt):    outs = []    for jk, jm, jc in jclients:          # gemini + gpt-5.1 + opus-4.8        r = jc.chat.completions.create(            model=jm["slug"],            messages=[{"role": "user", "content": prompt}],            temperature=0).choices[0].message.content        outs.append((jk, r))             # три оценки → усредняем, разброс пишем в лог    return outs

Зачем три судьи, а не один — отдельная история.

Грабли (без них не бывает)

→ Битое название модели. «Флагман» одного вендора числится в каталоге /models, но на инференсе отдаёт 404. «В списке» ≠ «обслуживается». 29 задач в ноль, пока не поймал. → Один судья шумит. На первом прогоне с одним судьёй GLM-5.2 «выигрывал» у Qwen 0.871 против 0.785. На полном наборе с ансамблем разрыв сжался до 0.809 против 0.779. Один судья на одной задаче — это шум, а не результат.

Последнее — почему ансамбль обязателен. Вот реальная строка, где судьи разошлись:

strat-001   0.60   ens[gemini=7  gpt51=7  opus48=4]

Gemini и GPT поставили 7, Opus — 4. На одном судье я бы не увидел, что Opus строже на полтора балла.

Итоговый результат

3 судьи, 29 задач (финальный 50-задачный прогон добивается сейчас):

Модель	Балл	tok/s	TTFT	reasoning-токены	₽/решённую
GLM-5.2 (744B)	0.809	38	22.4 с	32 886	0.67
Qwen 3.6 (35B-A3B)	0.779	67	16.8 с	59 703	0.10
Gemma 4 (31B, dense)	0.772	24	1.24 с	0	0.018
MiniMax-M3	0.712	32	20.0 с	34 515	0.21
ведущая RU облачная LLM*	0.477	91	0.76 с	0	—

Топ-3 — в пределах 0.04. Это не «GLM лучший», это статистическая ничья. А вот что ничьёй не было — задержка и цена.

Важным оказался не балл

Я добавил телеметрию, которую балл прячет: TTFT (время до первого токена) и reasoning-токены. И история перевернулась.

→ GLM-5.2 — 22.4 секунды до первого токена. 33 тысячи reasoning-токенов на задачу. Он «думает» почти полминуты, прежде чем сказать первое слово. Для интерактива это «отправь и жди». → Gemma 4 (dense 31B) — 1.24 секунды. Ноль reasoning-токенов, лаконична, в 37 раз дешевле GLM на решённую задачу. Отвечает мгновенно. → Qwen 3.6 — самая быстрая по throughput (67 tok/s), но самая болтливая: 60 тысяч reasoning-токенов.

Балл у этой тройки почти одинаковый. Задержка и стоимость — отличаются в разных случаях от 10 до 30 раз. Для моей работы (короткие плотные ответы по стратегии и архитектуре) Gemma, которая отвечает мгновенно и почти бесплатно (на RTX 4090 48GB — проверяю сейчас), в практике поочти бьёт 744-миллиардного гиганта, которого надо ждать 22 секунды (но мне честно очень нравится GLM5.2, тут не отнять, хорошая модель, но лишних 8хH200 — не наблюдаю).

Отдельная проверка: MoE-версия Gemma (26B-A4B) против dense 31B. Dense выиграл — 0.772 против 0.741. На малом масштабе на задачах-рассуждениях dense бьёт MoE.

Чего famous-модели не вытащили

Прогнал и «звёзд» лидербордов. DeepSeek V4-Pro — 0.698. Kimi K2.6 (со-лидер открытых по AA) — 0.663, и при этом дороже всех. Ни одна из знаменитых больших моделей не обошла мою дешёвую тройку на моей работе.

И важно — ведущая российская облачная LLM, протестированная как базовая модель через официальный API, без RAG, тем же набором задач — 0.477. Последнее место. Быстрая и лаконичная, но качество на моём домене ниже открытых моделей, которые я могу развернуть у себя в контуре.

Честная оговорка, без неё нельзя: это база против базы, без RAG, на узком, мной же определённом наборе задач, срез — актуален на июнь 2026. Облачный флагман оптимизирован под широту знаний, а не под мои четыре категории. Цифры — не универсальный приговор, а ответ на вопрос «что лучше конкретно для меня».

Карта инструментов

→ Gemma 4 31B (dense) — ежедневный драйвер. Мгновенный TTFT, дешево, лаконично. Для коротких плотных ответов — лучший практический выбор. Влезает на одну карту. → Qwen 3.6 35B-A3B — когда нужен throughput на длинной генерации. Быстрая, дешёвая, многословная. → GLM-5.2 — корона качества для самых тяжёлых решений, где готов ждать 22 секунды и платить. «Отправь и жди».

Все три — self-hostable, на одной-двух картах. И это главный вывод: сильнейшая модель по чужому лидерборду — не сильнейшая под твою работу. Собери свой бенчмарк — публичные таблицы меряют чужую.

ссылка на оригинал статьи https://habr.com/ru/articles/1051296/