Почём нынче токен для народа?

от автора

В результате одного из множества обсуждений инфоповодов про поднятие цен на подписки и тредов связанных с экономикой моделей возник вопрос о цене токена:

Ниже какой цены токен в принципе не может стоить?

По идее в сухом остатке мы платим за амортизацию железа и электричество умноженное на время работы сервера и это, конечно же, не “реальная цена токена”, скорее нижняя граница, эдакий бэдрок, ниже которого токен физически не может стоить. Чтобы упростить расчёт решил не учитывать обучение моделей, зарплаты, аренду, маркетинг, юридические услуги и прочие прелести бизнеса.

Но давайте обо всём по порядку.

Как считаем?

Формулу придумал в процессе рефлексии на тему долгосрочного развития бизнеса, старался сделать так, чтобы она была максимально простая и понятная, но давай покажу, как я к ней пришёл.

Для начала посчитаем сколько мы платим за электричество, которое сервер кушает пока генерирует ответ, это деньги за единицу времени, значит план простой: считаем, сколько стоит час работы сервера, и делим на то, сколько токенов он за этот час успел посчитать.

Стоимость электричества за час, это цена за киловатт умноженная на потребление сервера:

C_{hour} = P_{kW} \cdot T_{kWh}

Сколько токенов сервер сделает за этот час (1 час — 3600 секунд):

N_{hour} = R_{tok/s} \cdot 3600

Цена одного токена — это стоимость часа, разделённая на токены за час, домножаю на 10^6, чтобы сразу получить цену 1m токенов (в принципе можно и за 1k токенов расчёт выполнить, тогда 10 не в 6й, а в 3й степени), полная формула выходит такая:

C_{1M} = \frac{P_{kW} \cdot T_{kWh} \cdot 10^6}{R_{tok/s} \cdot 3600}

Где:

  • C_{1M} — стоимость 1 миллиона сгенерированных токенов (рублей);

  • P_{kW} — потребляемая мощность сервера (киловатт);

  • T_{kWh} — цена 1 кВт·ч (рублей);

  • R_{tok/s} — скорость генерации (токенов в секунду);

  • 3600 — секунд в одном часе;

  • 10^6 — перевод к цене за миллион токенов.

Что считаем?

Выполнять расчёты буду на примере модели GPT-OSS-120B и типового сервера NeuralDeep, поскольку принимаю непосредственное участие в развитии данного проекта и могу зайти на сервер и снять точные значения.

Типовой сервер собирается из пары модифированных RTX 4090 на 450 ватт с 48 ГБ VRAM каждая (в сумме 96 ГБ) на которые спокойно влезает модель GPT-OSS-120B с максимальным контекстом в 131 тысячу токенов, сервер имеет 32-64гб обычной памяти и процессор уровня Intel i7 или аналогичный AMD. Кушает такая система в пике 1100 ватт, но чтобы уменьшить шум и износ видеокарт понижаем максимальную потребляемую мощность видеокарт с 450 до 250 ватт через nvidia-smi.

В такой конфигурации максимальная потребляемая при инференсе мощность составляет примерно 700 ватт, а реальная не больше 500 ватт.

Подставим в формулу значения, мощность P = 0.5 кВт (берём реальную, а не пиковую), тариф T = 6.97 ₽/кВт·ч (cчитаю по Питеру: все эти серверы сейчас установлены в серверной у Валерия Ковальского @neuraldeep, поэтому и тариф беру питерский), скорость генерации выходных токенов R = 90 tok/s в один поток, а на входе (prefill) пара карт переваривает промпт заметно быстрее, около 1440 tok/s.

Электричество за час.

0.5 \cdot 6.97 = 3.485

То есть 3.49 ₽ в час по розетке.

Дальше цена миллиона выходных токенов на заявленных 90 tok/s в один поток.

C_{1M} = \frac{3.485 \cdot 10^6}{90 \cdot 3600} = \frac{3.485 \cdot 10^6}{324000} \approx 10.76

То есть только по электричеству нижняя граница для этой конфигурации составляет около 10.76 ₽ за 1 миллион выходных токенов.

А вход (prefill) считается по той же формуле, только скорость другая. Пара 4090 переваривает промпт примерно на 1440 tok/s, это в 16 раз быстрее генерации, поэтому и входной токен во столько же раз дешевле.

\frac{3.485 \cdot 10^6}{1440 \cdot 3600} = \frac{3.485 \cdot 10^6}{5184000} \approx 0.67

Миллион входных токенов по электричеству обходится всего в 0.67 ₽.

Амортизируй это

Электричество — это нижняя из нижних границ, однако, сервер к сожалению не вечный и не бесплатный, железо стоит денег и постепенно изнашивается, поэтому к счёту за электричество следует добавить ещё и амортизацию.

Для этого берём цену железа и размазываю её на срок службы. Давайте договоримся списывать сервер за 5 лет. При круглосуточной работе это 5 \cdot 365 \cdot 24 = 43\,800 часов.

Сам сервер стоит примерно 700 тысяч рублей:

  • две модифицированные RTX 4090 48Гб по 300 тысяч за карту — 600 тысяч;

  • корпус, материнка, процессор, диск, память и блок питания на 1200 Вт — ещё около 100 тысяч.

Амортизация за час есть цена железа разделённая на срок службы в часах.

C_{am} = \frac{S}{H_{life}}

Прибавляю её к стоимости электричества за час и получаю доработанную формулу.

C_{1M} = \frac{\left(P_{kW} \cdot T_{kWh} + \dfrac{S}{H_{life}}\right) \cdot 10^6}{R_{tok/s} \cdot 3600}

Добавились два обозначения:

  • S — стоимость железа, рублей (здесь 700 000);

  • H_{life} — срок службы в часах при круглосуточной работе (для 5 лет это 43 800).

Подставляю амортизация за час.

\frac{700000}{43800} \approx 15.98

То есть железо “съедает” почти 16 ₽ в час — заметно больше, чем розетка с её 3.49 ₽. Складываю обе части.

3.485 + 15.98 = 19.465

И считаю цену миллиона токенов на тех же 90 tok/s в один поток.

C_{1M} = \frac{19.465 \cdot 10^6}{90 \cdot 3600} = \frac{19.465 \cdot 10^6}{324000} \approx 60.08

С амортизацией нижняя граница уезжает с 10.76 ₽ до примерно 60.08 ₽ за 1 миллион выходных токенов и главный расход здесь уже не электричество, а само железо. Вход с амортизацией считается так же: 19.465 ₽ в час делим на 1440 tok/s, выходит около 3.75 ₽ за миллион входных токенов. Если сервер половину времени простаивает, амортизация на токен удваивается: 700 тысяч никуда не денутся, а полезных токенов выйдет вдвое меньше.

Но нижняя граница всё равно полезна, так как показывает масштаб.

А у провайдеров что?

Теперь самое интересное — сравнить полученную себестоимость с тем, почём ту же GPT-OSS-120B продают через API другие вендоры (бай зе вей ай юз арч курс по ЦБ РФ на 20 июня 2026 года, 73.44 ₽ за доллар):

  • Агрегатор OpenRouter берут $0.039 за 1M входных токенов и $0.18 за 1M выходных, в рублях это примерно 2.86 ₽ за миллион входных и 13.22 ₽ за миллион выходных. У разных провайдеров под капотом цена выхода гуляет где-то от $0.05 до $0.45 за 1M, но порядок тот же.

  • Яндекс в AI Studio берёт за неё 0.3 ₽ за 1000 токенов и на вход, и на выход, то есть 300 ₽ за 1 миллион выходных токенов (синхронный режим, с НДС).

  • Cloud.ru (бывший SberCloud) держит её в Evolution Foundation Models заметно дешевле — 15.86 ₽ за миллион входных и 61 ₽ за миллион выходных, а есть т.н. “партнёрская программа” через которую цены на токены в два раза ниже. У всех это уже розничная цена с маржой, а не себестоимость.

Сводим всё в табличку:

Источник

Вход за 1M

Выход за 1M

Наш сервер, только электричество

0.67 ₽

10.76 ₽

Наш сервер, с амортизацией за 5 лет

3.75 ₽

60.08 ₽

OpenRouter, gpt-oss-120b

2.86 ₽ ($0.039)

13.22 ₽ ($0.18)

Cloud.ru, gpt-oss-120b

15.86 ₽

61 ₽

Yandex AI Studio, gpt-oss-120b

300 ₽

300 ₽

Из этой таблицы можно сделать предположение, что поставщики OpenRouter либо используют более эффективное железо, либо каким-то образом субсидируют разницу, цифры для Cloud.ru более менее близкие к приблизительным расчётам и вероятно за счёт объёма они могут демпинговать, а вот причины высокой стоимости токенов в Yandex AI Studio мне не совсем ясны.

Чужие мысли меня волнуют

В статье про consumer Blackwell для малого бизнеса авторы считают self-hosted inference electricity-only в диапазоне $0.001-0.04 за 1M токенов для моделей до gpt-oss-20b и показывают, что электричество само по себе почти никогда не главный расход. Главный расход — железо и его загрузка.

В работе “Beyond Per-Token Pricing” основная мысль такая: если GPU простаивает, цена 1M токенов может вырасти в разы, на одинаковых H100 автор получил разброс от $0.21 до $15.25 за 1M output-токенов только из-за утилизации. Иными словами, формула “ватты делим на токены” работает только если сервер реально всё время генерирует.

Есть и отдельные работы про energy footprint инференса. Там важный вывод такой — prefill и decode надо считать отдельно. Длинный промпт может сделать каждый следующий output-токен дороже, а болтливость модели иногда сжигает больше энергии, чем сама полезная работа.

Послесловие

Для домашнего эксперимента вывод приятный, особенно если железо уже куплено, гонять большую локальную модель по электричеству очень выгодно. Для бизнеса вывод другой, без нормального батчинга и постоянной загрузки свой инференс легко превращается в дорогую печку, которая иногда ещё и отвечает на вопросы. Из этого можно сделать предположение о том, что брать железо впрок идея не самая лучшая, а расширяться имеет смысл удовлетворяя нагрузку и стараясь добиться почти полной утилизации железа.

По мотивам этого поста я завернул формулу в агентный скил token-cost, он сам заходит на сервер, сам замеряет потребление через nvidia-smi и скорость генерации бенчмарком по API, спрашивает тариф и цену железа, а на выходе выдаёт нижнюю границу цены за 1M входных и выходных токенов. Лежит в моём наборе rpa-skills и подключается в Cursor, Claude Code, Codex и аналогичных агентах.

Кстати данный пост написан в рамках события #МесяцАгентности, которое я запустил 1 июня сего года.

Спасибо за прочтение, буду рад вашим комментариям, а так же подписывайтесь на мой телеграм-канал @evilfreelancer.

ссылка на оригинал статьи https://habr.com/ru/articles/1049880/