Хуанг на GTC 2026 предложил платить инженерам токен-бюджеты вместо части зарплаты. Forbes написал: “output isn’t software, it’s tokens”. Anthropic посчитала: Claude Code обходится в $13 на разработчика в день, $150-250 в месяц.
Я 4 месяца не обсуждаю, а считаю. И первое что посчитал: б/у RTX 3090 стоит $800-1000. За эти деньги я оплачиваю API и веду проекты: embedded firmware, криптография, backend, своя IDE. Карта за $800 дала бы одну модель среднего уровня и шум вентиляторов.
Нет, я не нашёл волшебную модель. Я научился считать. И начал с того, во что верит большинство.
Ollama скачивают 52 миллиона раз в месяц. Рост в 520 раз за 3 года. Нарратив один: “no subscription fees”, “inference is free”, “eliminates API costs”. Разберём эту бесплатность.
Видеокарта для 7B-модели: $180-220 за б/у RTX 3060. Для 27-32B: $800-1000 за б/у RTX 3090. И это открытые модели, не frontier. Frontier-модели (Claude Sonnet, Opus, DeepSeek V4) локально не запустишь вообще: они либо закрытые, либо требуют сотни гигабайт VRAM. То есть ты платишь за железо и получаешь модели слабее тех, что доступны через API за копейки.
Но дело не в цене входа. Железо устаревает за 1-2 года. Модели растут быстрее чем VRAM. Купил, настроил, привязался. Через год покупаешь снова. API не устаревает. Провайдер обновляет модели, ты платишь за использование. На дистанции 3-4 лет железо проигрывает.
|
|
Локальное железо |
API |
|---|---|---|
|
Вход |
$800-1800 (1-2 карты) |
$0 |
|
В месяц |
$10-30 (свет + обслуживание) |
$200 |
|
За 3 года |
$1200-2900 |
$7200 |
|
Через 2 года |
Устарело, покупай снова |
Новые модели бесплатно |
|
За 3 года с апгрейдом |
$2500-5000+ |
$7200 |
|
Амортизация |
Есть. Железо теряет в цене |
Нет. Платишь за использование |
|
Моделей одновременно |
1 (переключаешь) |
Любое количество |
|
Настройка |
Драйверы, CUDA, конфиги |
Ключ API |
|
Шум, тепло |
Да |
Нет |
На бумаге локальное дешевле. Но ты платишь временем, комфортом и привязкой к железу которое устареет. Для бизнес-задач, где время на разработку стоит дорого, каждый час на настройку CUDA и обслуживание карты — это час не потраченный на продукт. API за $7200 за 3 года дал доступ к каждой новой модели в день релиза. Локальное за $2500-5000 дало одну карту, один апгрейд и кучу мороки.
И вот что забавно: на практике даже те кто купил карту, гоняют одну модель за раз и переключаются. 3 одновременно не тянет почти никто. А для серьёзной работы нужны минимум 3, разного калибра.
Локальная модель это не “бесплатно”. Это другая форма оплаты: деньгами за железо, временем за настройку, комфортом за шум и тепло. И ещё устаревание в подарок.
Есть сценарии где локальное оправдано: air-gap, compliance, NDA-код. Но это не про экономию. Это про ограничения. И даже в этих сценариях ты получаешь Qwen или Llama на все отделы, а не Opus на каждого.
А вот что я получил за API.
PKI-on-box (криптографическая система для embedded):
|
Метрика |
Значение |
|---|---|
|
Коммитов |
131 |
|
PR (merged) |
15 |
|
Тестов |
62 contract + 15 HW |
|
MCU-борды |
3 (STM32) |
|
Сессий с агентом |
52 |
|
Дней |
11 |
|
Стоимость |
~3000₽ |
Около 3000 рублей за весь проект. Экстраполяция: трекинг был в 30 из 52 сессий, остальные по средней.
IDE (форк до рабочего прототипа):
|
Метрика |
Значение |
|---|---|
|
Сессий |
20 |
|
Кредитов |
2800 |
|
Дней |
11 |
|
Стоимость |
~5000₽ |
5000 рублей. Один ужин в ресторане на двоих. Убейте меня, но API это смешно дёшево. Прототип, но уже рабочий. Цель: не привязываться ни к чужой инфраструктуре, ни к чужому редактору.
Стоимость одного коммита в PKI-проекте: 23 рубля. Одной сессии: 58 рублей.
Для токенной разработки не важно, пишешь ты драйвер для STM32 или собираешь патчи для Electron. 11 дней активной работы над PKI. 11 дней над IDE. Важно сколько токенов ты тратишь и как эффективно ими управляешь.
Для бизнеса токены это уже не абстракция. Это строка в бюджете. Для команды цифры другие. $800 за карту — это на одного. Сервер на команду — несколько сотен тысяч рублей, плюс кто-то должен его обслуживать. API на 5 — те же $200/мес каждому, без железа, без обслуживания, с доступом к frontier-моделям. Компании которые сейчас закупают железо “чтобы не платить за API” через 2 года будут списывать устаревшие карты и всё равно покупать API. Те кто сразу считает токены как расходник, уже знают стоимость каждой фичи, каждого коммита, каждого проекта.
$200 в месяц или карта которая устареет через год. Если ты всё ещё веришь в “бесплатное локальное железо”, посчитай CAPEX, OPEX, амортизацию и время на настройку. А потом сравни с моими цифрами. Каждый потраченный токен посчитан.
P.S. Этот пост написан в кооперации с AI-агентом и обошёлся в 138 кредитов. Около 210 рублей. Чуть дороже одного коммита в PKI-проекте.
ссылка на оригинал статьи https://habr.com/ru/articles/1030678/