Гиперэкономия на токенах с API SpeShu.AI: как работает новое кэширование

от автора

Инфраструктура API SpeShu.AI обновилась. Для бизнеса с ИИ-агентами и чат-ботами это означает, что одни и те же задачи теперь стоят в десятки раз дешевле без каких-либо изменений в коде. 

Как это работает и сколько конкретно денег экономит, рассказываем в этой статье и показываем на кейсе.

Как было раньше

Представьте менеджера с памятью золотой рыбки. Каждые 5 секунд он забывает всё, что вы ему говорили. Вы объясняете: вот наши клиенты, вот продукт, вот правила общения. Он кивает, отвечает на один вопрос клиента — и всё, память обнулилась. Когда пишет следующий клиент, вы снова объясняете то же самое с нуля. И так 10 000 раз в день.

Именно так работал старый биллинг. Допустим, ваша инструкция для агента — 2 000 токенов. Это примерно полторы страницы текста. Каждый раз, когда клиент пишет агенту, эти полторы страницы «читаются» моделью заново и тарифицируются заново.

Считаем:

  • 2 000 токенов инструкции × 10 000 запросов в день = 20 000 000 токенов только на инструкцию;

  • При цене $2 за миллион входящих токенов (средняя цена для GPT-5) — это $40 в день только за то, что модель перечитывает один и тот же текст;

  • За месяц — $1 200, только на повторяющийся контекст, который не меняется вообще.

И это не считая токенов на сами вопросы клиентов и ответы агента.

Как работает сейчас

Если в ваших запросах есть повторяющийся контекст — системный промпт, база знаний, длинная инструкция, набор примеров — модель при первом обращении кэширует эту часть. Все последующие запросы с тем же контекстом не пересчитывают его заново, а берут из кэша.

Для разработчиков, которые строят агентов, RAG-системы или любой продукт с длинным системным промптом, это меняет экономику радикально. Повторяющийся контекст перестаёт тарифицироваться как новый входящий токен при каждом запросе.

На практике: если у вас агент с системным промптом на 2 000 токенов, который обрабатывает 10 000 запросов в день — без кэширования вы платите за 20 миллионов входящих токенов только на системный промпт. С кэшированием эта часть считается один раз. Вы экономите порядка $1 200.

В каких задачах необходима такая экономия

ИИ-агенты с длинными инструкциями

Чем подробнее системный промпт, тем больше экономия на каждом запросе. По данным Andreessen Horowitz, компании, активно работающие с LLM в продакшне, тратят на токены от 60 до 80% всего бюджета на ИИ-инфраструктуру. При этом системные промпты в реальных агентах редко бывают короткими: средний промпт у команд, которые строят продуктовых агентов, составляет 1 500–4 000 токенов. Без кэширования это фиксированный налог на каждый запрос.

Anthropic при запуске prompt caching для Claude сообщала о снижении стоимости повторяющегося контекста на 90% — именно за счёт того, что кэшированные токены тарифицируются по отдельной, значительно более низкой ставке.

RAG и работа с базами знаний

RAG-архитектура предполагает, что в каждый запрос подгружается релевантный фрагмент из базы знаний. Проблема в том, что часть этого контекста — например, общие инструкции по формату ответа или неизменяемые разделы базы — повторяется от запроса к запросу. Без кэширования она тарифицируется заново каждый раз.

По оценке команды LlamaIndex, в типичной RAG-системе от 30 до 50% входящих токенов — это повторяющийся служебный контекст, который меняется редко или не меняется вообще.

Разработка и тестирование

При итеративном дебаггинге разработчик отправляет десятки похожих запросов подряд, меняя только небольшую часть промпта. Без кэширования каждый такой запрос считается полностью. По наблюдениям команд, активно использующих Claude и GPT в разработке, расходы на токены в фазе тестирования в 3–5 раз выше, чем в продакшне на том же объёме задач — именно из-за повторяемости контекста.

Продукты с высокой нагрузкой

По данным Scale AI, стоимость инференса — то есть непосредственно запросов к модели — составляет основную часть операционных расходов у компаний, которые запустили LLM-продукты в продакшн. При нагрузке от 100 000 запросов в день разница между кэшированием и его отсутствием на уровне системного промпта — это уже не проценты, а кратные значения в счёте за месяц.

Как сохранить расходы в 10 раз: кейс ютуб-продюсера

Отечественный блогер с сетью каналов собрал бота для аналитики виральности на YouTube. Бот при каждом запросе загружал в контекст метаданные видео — JSON-файл на 81 251 токен. Контент не менялся от запроса к запросу, но тарифицировался каждый раз как новый.

Модель — DeepSeek V4 Pro, стоимость входящих токенов — 970 рублей за миллион.

Считаем без кэширования:

  • 81 251 токен × 100 запросов в день = 8 125 100 токенов в день только на метаданные

  • 8 125 100 × 970 ₽ / 1 000 000 = 7 881 ₽ в день

  • За месяц — около 236 000 ₽, и это только повторяющийся контекст, который не менялся вообще

После включения кэширования повторяющийся блок на 81 251 токен стал считаться один раз. Все последующие запросы читают его из кэша по ставке в 10% от стандартной цены — то есть по 97 рублей за миллион вместо 970.

Считаем с кэшированием:

  • Первый запрос — полная цена: 81 251 токен × 970 ₽ / 1 000 000 = 78,8 ₽

  • Остальные 99 запросов в день × 81 251 токен × 97 ₽ / 1 000 000 = 780 ₽ в день

  • За месяц — около 23 400 ₽

Экономия — больше 90%, и никаких изменений в логике самого бота. Только одна настройка в API. И таких задач с повторяющимся контекстом в реальном продукте сотни. Если оптимизировать каждую, итоговая разница в счёте становится ощутимой статьёй бюджета, которую можно направить на другие задачи.

Как экономить на API нейросетей: финальный шаг

Зарегистрируйтесь на официальном сайте speshu.ai, пополните баланс удобным способом, создайте API-ключ в личном кабинете и подключите его по документации.

Если у вас уже есть OpenAI-совместимая интеграция, переход на SpeShu.AI обычно занимает минимум времени: достаточно заменить base_url и API-ключ. Для новых сценариев наша команда поможет подобрать подходящие модели и запустить первые запросы.

За помощью и консультацией можно обратиться к Марии. Не к боту, а к живой и тёплой Марии, которая ответит на вопросы и подскажет, с чего начать. А если кейс окажется сложным, Мария подключит Алана Тьюринга — он разберётся.

Чтобы обсудить сотрудничество, напишите на официальную почту: info@speshu.ai. Наши инженеры внедряют ИИ в бизнес-процессы с 2022 года: помогут встроить API в ваши системы, выбрать модели под задачи и повысить KPI уже в ближайшем квартале. А наша бухгалтерия проконсультирует по оплате, счетам, актам и закрывающим документам для налоговой.

Если у вас уже есть API-проект или вы хотите найти единомышленников по внедрению ИИ в бизнес, присоединяйтесь к клубу AI-Профи: https://t.me/+9Fkgdpnm3axlN2Ji

Участники — опытные разработчики, ML-инженеры, креаторы, представители государственных корпораций и частного бизнеса. Обсуждаем нейросети, API, автоматизацию, агентов и реальные кейсы внедрения ИИ. Будет много практики и интеллектуальных баталий.

ссылка на оригинал статьи https://habr.com/ru/articles/1035426/