Как я сжёг 17,4 миллиарда токенов за 25 дней. По тарифам API это 3,2 миллиона рублей. И я не платил по API

В конце цикла я прогнал скрипт по своим логам Claude Code и увидел число, в которое сам не сразу поверил. За 25 дней, с 24 апреля по 19 мая, я сжёг 17,4 миллиарда токенов. Один человек, 344 сессии, 75 587 ответов ассистента, 176 695 строк транскриптов. Посчитайте это по тарифам API, и выходит 39 651 доллар. Около 3,17 миллиона рублей. Примерно 1586 долларов в день. Почти всё это Opus, самая дорогая модель на рынке.

А теперь то, ради чего вы дочитаете. Я не заплатил по API ни цента. Всё это работало на флэт-подписке, верхний тариф, фиксированная абонентка. То есть я выжрал почти сорок тысяч долларов API-стоимости, а реально заплатил двести долларов за подписку. Не сорок тысяч, двести. И за это не словил ни бана, ни даже предупреждения. Если вы сейчас почувствовали лёгкое жжение, это нормально, дальше будет сильнее.

Сразу честно про себя, иначе цифры не сойдутся.

Я тот самый задрот-неадекват, который въехал в это по-настоящему и стал жить в терминале сутками. Не «попробовал, иногда дёргаю», а реально 24 на 7, ночами, с телефоном у кровати, чтобы дописать правку и тут же прогнать ревью. Жена смотрит как на больного, и не без оснований.

17,4 миллиарда это не ферма и не накрутка, это один человек, который месяц не отходил от компа.

Хотя, честно скажу, добрую часть этого времени, пока агенты молотили код, я просто рубился в HotA (тот самый аддон к третьим Героям) против народа на Jebus Cross, на репите под Мистера Кредо 95-98 годов. Дирижёру не обязательно пялиться в экран, пока играет оркестр. Из побочки за месяц: пара банок растворимого кофе ушла без следа и нервная система слегка посажена. Это, пожалуй, единственное, что весь этот забег реально мне стоил, не считая токенов. Проект для контекста: я в одиночку делаю и держу агрегатор нейросетей, а саму разработку веду через оркестрацию ИИ-агентов. На каждую правку собирается совет профильных ревьюеров. Цифры ниже это только сторона разработки, продукт жжёт токены отдельно и дешевле.

Коротко

17,4 миллиарда токенов за 25 дней на одной только разработке. По тарифам API это 39 651 доллар, темпом 1586 долларов в день, почти весь объём на Opus.

По тарифам API это 39 651 доллар. Реально я заплатил 200 долларов за подписку. Между объёмом работы и тем, что списали с карты, теперь разрыв в двести раз.

97% всех токенов это чтение из кэша. Не генерация, не свежий ввод. Перечитывание закэшированного контекста на каждом ходу.

Написать код это копейки в этом счёте. Дорого стоит другое: проверить, что написанное не врёт. За это и уходит основная масса. Главный навык теперь не писать код, а оркестрация: рой агентов, которые пишут и проверяют друг друга. Девять ревьюеров на одну правку это дорого по токенам и окупается с первого пойманного бага, который иначе уехал бы в прод.

Три ереси, за которые меня сейчас распнут в комментах

Начну с того, ради чего половина из вас и кликнула. Три утверждения, с которыми вам будет физически некомфортно. Это нормально, мне тоже было.

Ересь первая. Писать код больше не главный навык. Двадцать лет нас учили, что ценность инженера это умение писать. Я месяц прожил в режиме, где написать модуль стоит секунды. Узким местом стало не «написать», а «проверить, что оно не врёт и не уронит прод». Навык сместился с генерации на верификацию, и кто этого ещё не почувствовал, почувствует в ближайший год.

Ересь вторая. Я доверяю девяти ИИ-агентам больше, чем себе в три часа ночи. Чувак в конце смены пропускает краевые случаи, не видит дыру в биллинге, забывает про регрессию. Девять агентов с разными ролями не устают и смотрят разными глазами. Я не романтизирую ИИ, я трезво оцениваю себя ночью. И себя ночью я проигрываю совету вчистую.

Ересь третья. Один задрот с агентами делает работу маленькой команды. Мне жаль, если задевает, но я видел это своими руками. Один человек закрывает фронт, бэк, деплой, безопасность и QA, потому что каждую роль берёт профильный агент. Это не «вместо людей навсегда», это «вот прямо сейчас, в одно лицо, и API-стоимость этого больше, чем зарплата сеньора».

Если на этом месте у вас подгорает, не спешите в комментарии. Сначала посмотрите на пруфы.

Пруфы. Откуда взялись 17,4 миллиарда

Я не прошу верить на слово. Вот разбор того же скана по типам токенов за период.

Что	Токенов
Входные (свежие)	955 884
Выходные (генерация)	102 299 023
Запись в кэш	345 997 533
Чтение из кэша	16 984 495 857
Итого	17 433 748 297

Смотрите на последнюю строку перед итогом. 97% всего объёма это чтение из кэша. Не я нагенерировал 17 миллиардов слов и не я их написал на входе. Это контекст, который перечитывается на каждом ходу. Когда у тебя большая память проекта, большой дифф и девять агентов, каждый ход тянет в себя один и тот же закэшированный контекст заново. Вот он, источник числа. И это хорошо, потому что кэш в 10 раз дешевле свежего ввода.

Теперь то же самое в деньгах, по тарифам API.

Статья	Объём	Ставка за 1М	Стоимость
Чтение кэша	16,98 млрд	$1.50	$25 477
Генерация	102,3 млн	$75	$7 672
Запись кэша	346 млн	$18.75	$6 487
Свежий ввод	0,96 млн	$15	$14
Итого			~$39 651

39 651 доллар. Около 3,17 миллиона рублей по курсу 80. Почти всё это opus-4-7, на opus-4-5 пришлось 29 долларов из всей суммы. Темп примерно 1586 долларов в день, и это только разработка, без продакшена, который обслуживает пользователей.

И ещё раз главное, чтобы вы не пролистали. Это посчитано по тарифам API. По API я не потратил ни рубля. Всё работало на флэт-подписке, верхний тариф. По этой таблице API-стоимость 39 651 доллар, а реально из моего кармана ушло 200 долларов за месяц подписки. Разрыв в двести раз, и это не ошибка в расчётах, это и есть весь фокус. На API такой режим разработки разорил бы соло-разработчика за неделю. На подписке это просто очень интенсивный месяц, за который мне не прилетело ни одного бана, потому что я ничего не нарушал. Один человек, один компьютер, три монитора, ноль шеринга аккаунта.

Честно, думал получу бан, оказалось все гораздо интереснее.

Почему генерация всего 102 миллиона, а кэш 17 миллиардов

Вот тут ломается интуиция большинства. Все боятся цены за генерацию (выход), потому что она самая высокая, 75 долларов за миллион. А у меня генерация это 102 миллиона токенов из 17,4 миллиарда. Меньше процента объёма.

Причина в том, как вообще устроена агентная разработка. Агент читает гору контекста и пишет короткую правку или короткий вердикт. Вход в десятки раз больше выхода. А поскольку преамбула (память проекта, гайдлайны, архитектура) не меняется от хода к ходу, она кэшируется, и весь этот гигантский вход проходит по цене чтения кэша, а не свежего ввода.

// тяжёлая преамбла помечается кэшируемой; со второго хода вход идёт по цене кэша
messages: [{
role: ‘user’,
content: [
    { type: ‘text’, text: projectMemory + guidelines,
      cache_control: { type: ‘ephemeral’ } },   // эта строка и есть та самая 10x экономия
    { type: ‘text’, text: taskAndDiff }
]
}]

Когда девять агентов читают одну и ту же память на одной задаче, кэш превращает девять полных чтений в одно полное и восемь дешёвых. Без кэша те же 17 миллиардов прошли бы по цене свежего ввода и стоили бы в районе четверти миллиона долларов. Кто кричит «ИИ всех разорит», просто не включил эту строку.

Самое дешёвое это написать. Самое дорогое это проверить

Посмотрите на распределение ещё раз. Генерация, то есть собственно «ИИ что-то написал», это меньше процента токенов и около 7 тысяч из 40. Львиная доля счёта это чтение контекста, и читается этот контекст ради проверок. Девять агентов перечитывают дифф и память, чтобы вынести вердикт. Вот куда уходят деньги. Не на «написать код», а на «проверить код девятью разными способами».

Одиночный проход одной модели ловит очевидное и системно слеп к остальному, потому что смотрит одной линзой. Разные агенты с разными ролями ловят разное. QA цепляется за краевые случаи, безопасник за утечки, биллинг за дыры в деньгах, архитектор за дубли. Это не девять одинаковых проверок ради галочки, это девять углов зрения. И вся ценность не в каждом агенте по отдельности, а в оркестрации: одни находят, другие пытаются опровергнуть, третьи выносят вердикт, и весь этот оркестр крутится в цикле, пока блокеров не станет ноль. Оркестрация и есть тот навык, который пришёл на смену ручному написанию кода.

const verdicts = await Promise.all(
reviewers.map(r => agent(briefFor(diff, r.lens))) // каждый читает память + дифф
);
const blockers = verdicts.flatMap(v => v.blockers);
// и крутим, пока блокеров не станет ноль (вот здесь и набегают те самые миллиарды чтений)

Свежий пример из этого же периода. Правил безобидное, отдачу каталога моделей. Фронтенд и архитектор сказали PASS. А QA-агент уперся: на запросе без тела сервер уйдёт в ветку, которая вернёт 413, и у залогиненных пользователей пропадут все модели разом. Я бы это в проде ловил по жалобам сутки. Агент поймал за один прогон, до деплоя. Покажите мне команду, где каждый дифф перед мержем смотрят девять независимых ревьюеров, без обид на код-ревью и в любое время суток. У меня такая есть, и она помещается в один терминал.

1.5 монитора на протяжении 25 дней, 1 монитор под героев 3, 0.5 моника на браузер и музыку

Десять агентов, и каждому я дал имя и роль

Чтобы было ясно, что это не «накидал один промпт и сижу любуюсь». Я собрал и руками настроил десять агентов. Девять из них ревьюеры, у каждого своя зона, свой системный промпт и жёсткое правило первым делом вычитать память проекта. Десятый дирижирует остальными. Вот состав.

Продукт-дизайнер. UX, мобильная вёрстка, тема, локализация. В этот заход заставил перекрасить кнопку, у которой в светлой теме был чёрный текст на чёрной заливке. На своём тёмном экране я бы это не увидел никогда, а живой пользователь упёрся бы в невидимую кнопку.

Фронтенд. React и TypeScript, состояние, рендер, сборка. Завернул мою же правку, после которой проект переставал собираться из-за недопиленного рефактора, и ткнул носом в конкретную строку, а не в абстрактное «что-то сломалось».
Бэкенд. Эндпоинты, обработка ошибок, работа с данными. Когда у залогиненных пользователей разом пропала часть функций, докопался, что виноват глухой ответ сервера на запрос без тела, и довёл до корневой причины, а не до заплатки.
Девопс. Деплой, nginx, systemd, SSL, кэш-бастинг. Поймал, что мой скрипт выкладки молча перезатирает кусок конфига nginx. Это починилось до деплоя, а не после того, как легла бы половина роутов.
QA. Краевые случаи, регрессии, валидация ввода. Самый въедливый, зовётся почти всегда. Тот самый, кто на ревью каталога моделей уперся и сказал «на запросе без тела у залогиненных пропадут все модели», за один прогон, до прода.
Безопасность. Секреты, инъекции, аутентификация, дыры в платежах. Однажды остановил меня, когда я по запарке чуть не оставил секрет там, где его видно в логах, и заставил переделать.
Биллинг. Деньги: наценки, токены, комиссии, реферальные награды. Не дал откатить лимиты, на которых держится стоимость ответа. Я уже занёс руку «сэкономить», а он показал, что это ударит по марже сильнее, чем сэкономит.
Архитектор. Качество кода, дубли, связность, стиль. В свежем фиксе сам предложил кэшировать результат по ключу, который не меняется, чтобы не дёргать внешний сервис на каждый чих. Я эту правку в код и забрал.
PC-клиент. Десктопная сборка и её отдельные грабли рантайма. Напомнил про особенность среды, из-за которой переменная живёт не там, где кажется, и собранная программа молча падала бы при запуске.
Оркестратор. Десятый, и он не ревьюит. Он решает, кого из девяти звать на конкретную правку (цвет кнопки не требует безопасника), брифует каждого по сути задачи, собирает вердикты и гоняет цикл, пока блокеров не останется ноль. И именно он не даёт мне залатать симптом вместо того, чтобы лезть в корень.

Это не десять одинаковых ботов под копирку. У каждого свой системный промпт, своя ответственность и память, которую он обязан прочитать перед тем, как открыть рот. Поэтому они и ловят разное, и поэтому столько читают, вот вам и 97% чтения из кэша на дашборде. Настройка состава заняла время, но окупилась простым: теперь любую правку смотрит не один уставший я в три ночи, а десять разных ролей, и каждая дёргает меня за рукав на своём. А пока эти десятеро спорят над диффом, я обычно в соседнем окне доигрываю катку в HotA на JC , под того же Мистера Кредо. Звучит как издёвка, но это и есть новая работа: не печатать руками, а запустить оркестр и разруливать, когда кто-то поднял блокер.

Что было чистой тратой, чтобы вы не приняли меня за продавца чуда

Не всё из этих 40 тысяч долларов API-стоимости было потрачено с умом. Честно назову, где я лил впустую.

Слишком широкий охват. Поначалу я звал совет в полном составе на любую мелочь. Правка цвета кнопки не требует ревью безопасника. Каждый лишний агент это лишние десятки тысяч токенов чтения. Сужение состава под зону правки срезало кусок без потери качества.

И обратная, более коварная ошибка: я слишком жадно резал контекст, экономя токены, и это вышло дороже. В какой-то момент обрезал историю диалога совсем жёстко, восемь ходов и четыре тысячи символов. Модели начали терять нить. Пользователь просил «поправь то, что мы делали выше», а модель не помнила, что было выше, потому что я это выкинул ради экономии.

// было: душил историю ради экономии, ИИ терял контекст, юзер бесился
const MAX_TURNS = 8;
const CHAR_BUDGET = 4_000;

// стало: дал контексту дышать, рост гасит кэш, а не топор
const MAX_TURNS = 200;
const CHAR_BUDGET = 300_000; // ~75k токенов истории

Урок злой и неочевидный. Слепая экономия на контексте обходится дороже самих токенов, потому что пользователь переспрашивает, модель переделывает, и платишь дважды. Экономь на повторном чтении (кэш) и на лишних агентах (точечный охват), но не на контексте, который модели реально нужен. Но по-факту наплевать на токены, пока не получил бан, а его до сих пор нет.

Сейчас в комментариях будет, и я отвечу заранее

«Это же не твои деньги, это подписка, ты ничего не сжёг». В этом и пуанта. На API такой объём стоил бы 40 тысяч долларов и убил бы соло-разработчика. На подписке он стоит фикс. Это не баг моих расчётов, это новая экономика, в которой интенсивность разработки и сумма в счёте развязаны. Кто это понял раньше, у того преимущество.

«За такое банят, это абуз». Нет. Банят за шеринг аккаунта, перепродажу доступа, мульти-аккаунты под обход лимитов и чарджбеки. А у меня один человек, один компьютер, три монитора, ноль шеринга, всё легально в рамках подписки. Это ровно тот личный тяжёлый юз, под который старший тариф и сделан. За 25 дней и сорок тысяч долларов API-стоимости мне не прилетело ни бана, ни предупреждения. Иногда упирался в окно лимита, оно сбрасывалось, и всё.

«Это реклама твоего продукта». Я ни разу не назвал продукт и не дал ссылку. Если вам даже агрегатор как абстрактный пример кажется рекламой, проблема не в статье.

«Ты вайбкодер, у тебя помойка под капотом». Возможно. Но мой вайб проходит через девять независимых проверок и луп до зелёного, а ваше «я пишу руками и знаю свой код» через ноль ревьюеров в три ночи. Я не говорю, что я лучше. Я говорю, что просто смиритесь начилась НОВАЯ ЭРА. Это сверхвысокоуровневое программирование, когда можно делать понимая просто логику того что ты делаешь.

«17 миллиардов это враньё для хайпа». Поэтому я и выложил разбивку по типам токенов и по деньгам. 97% это чтение кэша. Большой счётчик при таком профиле это норма, а не накрутка, перечитайте раздел про кэш.

«ИИ всё равно галлюцинирует». Да. Именно поэтому я не доверяю одному проходу и плачу за девять. На тесты уходит 98% времени. Галлюцинация одной модели редко переживает встречу с восемью другими в разных ролях. Мульти-агент это не вера в ИИ, это страховка от него.

Кому это надо, а кому нет

Надо, если вы строите всерьёз, в одиночку или маленькой командой, цена ошибки в проде высокая, а ревьюеров-людей под рукой нет. Тогда совет агентов это ваш отдел качества, и он окупается с первого пойманного инцидента. И да, на флэт-подписке, а не по API, иначе математика не сойдётся никогда.

Вывод

17,4 миллиарда токенов это не про «ИИ дорогой» и не про «ИИ дешёвый». Это про то, что между объёмом и счётом теперь стоит целая инженерия. По тарифам API мой месяц разработки стоит 3,2 миллиона рублей. Реально я отдал за него 200 баксов подписки. 97% объёма это перечитанный контекст, и почти весь он перечитан ради проверок, а не ради генерации. Написать код стало дёшево. Дорого стало убедиться, что он не врёт, и я плачу за это охотно.

И последнее, без пафоса, голым фактом. Один человек за 25 дней, не нарушая правил, с одного компа на три монитора, закрыл объём работы, на который ещё недавно нужна была команда и несколько спринтов. Дело не в таланте и не в том, что я особенный. Дело в том, что инструменты поменялись, Добро пожаловать в новую вселенную, нравится Вам это или нет. Вещи, которые год назад были нереальными в такие сроки и таким составом, сейчас делаются. Мир, в котором это возможно, это уже другой мир, и он наступил, пока большинство спорит, считать ли это программированием.

ссылка на оригинал статьи https://habr.com/ru/articles/1045140/