Сколько стоит внедрить AI?Отвечаем с LCOAI

от автора

Организации в РФ переходят от AI-экспериментов к масштабным внедрениям, сталкиваясь с трудностями в оценке сопутствующих издержек. Традиционные фин.модели не всегда отражают экономическую сложность развертывания и сопровождения AI решений, что приводит к заблуждениям в сравнении альтернативных вариантов. В сегодняшней статье разберем LCOAI — адаптированный для AI подход к оценке стоимости владения цифровым продуктом — и ответим на вопрос «Сколько же стоит внедрить этот ваш ИИ?“.

В одной из предыдущих статей мы обсуждали важность контроля за FinOps на этапе масштабирования отпилотированного AI решения — Levelized Cost of Artificial Intelligence (LCOAI) подход позволяет получить полную и объективную картину, объединяя все аспекты сопряженных с запуском AI инициатив затрат, включая первоначальные капитальные затраты (такие как инфраструктура для обучения модели, разработка data пайплайнов, имплементация прикладного AI решения) и текущие операционные расходы (вычислительные мощности для инференса, хранение данных, мониторинг и обслуживание системы), нормированные на общее количество обрабатываемых запросов на протяжении всего срока службы системы.

Методология расчета

Впервые LCOAI подход был представлен Eliseo Curcio в его статье Introducing LCOAI: A Standardized Economic Metric for Evaluating AI Deployment Costs

Идея методологии подсчета проста, как все гениальное, и раскрывается в элегантной формуле ниже:

𝐿𝐶𝑂𝐴𝐼 = (𝑇𝑜𝑡𝑎𝑙 𝐶𝐴𝑃𝐸𝑋 + 𝑇𝑜𝑡𝑎𝑙 𝑂𝑃𝐸𝑋 ) / 𝑇𝑜𝑡𝑎𝑙 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑉𝑎𝑙𝑖𝑑 𝐼𝑛𝑡𝑒𝑟𝑓𝑒𝑟𝑒𝑛𝑐𝑒

Здесь Total CAPEX включает в себя все первоначальные инвестиции, необходимые для разработки и ввода в эксплуатацию системы искусственного интеллекта: расходы, связанные с приобретением вычислительной инфраструктуры( GPU) и серверного оборудования, первоначальным обучением и\или донастройкой модели, разработкой пайплайна данных и их разметкой, лицензиями на программное обеспечение (например, решения по безопасности, мониторингу и др.), трудозатраты на внедрение проекта и инженерные работы.

Total OPEX отражает постоянные расходы в течение всего срока эксплуатации развернутой системы: стоимость инференса, потребление облачных ресурсов, тех. обслуживание, периодическая донастройка для поддержания точности работы модели, трудозатраты на DevOps, , аудит безопасности и и прочие дополнительные накладные расходы, связанные с поддержанием эффективного функционирования AI решения.

Total Number of Valid Interference — общее количество пользовательских запросов, успешно обработанное системой.

Применяем LCOAI на практике

Для иллюстрации возможностей LCOAI методологии рассмотрим несколько примеров, диктуемых текущими реалиями: организации, приходя к точке старта разработки AI решения, всегда задаются вопросом необходимой инфраструктуры — идти ли по пути аренды мощностей в облаке, запускаться на собственном «железе» или вовсе отдать предпочтение облачному API?

Чтобы ответить на этот вопрос с помощью описанного выше фреймворка, давайте возьмем приближенные к условиям реального проекта разработки и внедрения AI решения ограничения:

  • наиболее часто употребимую нами на продакшене модель — Qwen 3.5 35B A3B в квантовании AWQ

  • нагруженность системы в среднем объеме на этапе пилотирования ( 10 млн. запросов\год) и высоком объеме( 50 млн. запросов\год) на этапе скейлинга и дальнейшей промышленной эксплуатации.

  • средний объем инференса оценим в 1000 токенов

  • 3 опции развертывания: облачный API( на примере Yandex Cloud), аренду виртуалок в облаке(опять же на примере Yandex Cloud), on-prem на локальных мощностях

  • для опций с «железом» берем 2 ноды для отказоустойчивости

  • с точки зрения капитальных затрат на разработку и внедрение решения для всех 3 опций развертывания возьмем единую величину стоимости в 5 млн. р., как некую медианную цифру «по больнице» — разумеется, эта величина очень условная и для простых решений, внедряемых в СМБ может быть и кратно меньше, тогда как для сложных решений, внедряемых в отрасли с жесткой регуляцией и требованиями( например, здравоохранение), может быть и кратно выше

  • В качестве горизонта, на котором будем делать расчеты, возьмем 3 года, как некий средний срок окупаемости AI инициатив.

Погнали считать.

Облачный API

Для Qwen3.5 35B имеем на сегодняшний день стоимость в Yandex Cloud в 0,3 р. за 1000 токенов. Таким образом, исходя из предположений выше о средней размерности 1 запроса в 1000 токенов, имеем OPEX и стоимость инференса на 10м запросов\год в 3 000 000 р., на 50м запросов\год — 15 000 000 р.

Аренда мощностей в облаке

Для расчета в рамках данной опции, исходя из ограничений выше, возьмем конфигурацию из 2 «виртуалок» с GPU (например, A100 80GB) + базовой сопутствующей обвязкой (векторная база, CPU, трафик). Стоимость подобной конфигурации на Yandex Cloud на сегодняшний день составляет примерно 900 тыс. руб./мес. При этом важно отметить, что подобная конфигурация будет работать и для 10M

запросов, и для 50M запросов с примерно одинаковой стоимостью. Расcчитывая годовой OPEX получаем 10.8 млн руб.

Свое «железо»

В этом случае к обозначенному выше CAPEX нам необходимо добавить закупку собственных вычислительных мощностей и серверов. Под Qwen 35B с учетом выше описанных ограничений наша конфигурация будет выглядеть примерно так: 2 сервера + 2 карточки L40S (48GB). Общая примерная стоимость приобретения такого набора обойдется нам в 12 млн. руб. При этом OPEX — размещение в ЦОД, затраты на электричество, поддержка — будет относительно гуманным: примерно 800 тыс. руб. в год. Опять же как и в случае с арендой VM мы данной конфигурацией успешно закроем и потребность в 10M, и в 50M запросов.

Облако или нет?

Сведем воедино полученные данные, чтобы получить общую картину и попробовать с помощью LCOAI ответить на вопрос, какому инфраструктурном подходу все же отдать предпочтение.

Итого мы видим, что любая из конфигураций имеет право на жизнь, и в зависимости от обстоятельств может оббегать альтернативные опции с точки зрения экономической эффективности обработки пользовательского запроса.

Так, если мы говорим, о проверке бизнес-гипотезы в рамках пилота или даже полноценного решения на продуктиве с небольшой нагрузкой, то опция с API выглядит наиболее предпочтительной — она более чем вдвое дешевле on-prem варианта и аренды мощностей. Но на больших объемах API уже демонстрирует линейный прирост стоимости и здесь «приз» уходит другому кандидату — в первый работы решения на больших объемах облачные «виртуалки» уже выгоднее API, а если говорить про игру «вдолгую», то тут безоговорочным чемпионом становится уже «свое железо» — себестоимость запроса в этом варианте двое ниже арендных мощностей, и втрое ниже API.

Заключение

Выбор инфраструктуры для запуска AI инициативы — это комплексная задача, выходящая далеко за рамки чисто финансового сравнения. На решение влияет множество факторов:

  • Корпоративные политики и требования к безопасности данных (особенно для регулируемых отраслей);

  • Наличие собственных компетенций и инженерных команд;

  • Срочность запуска проекта и допустимые сроки ввода в эксплуатацию;

  • Доступность капитальных инвестиций (CAPEX) против операционного бюджета (OPEX);

  • Прогнозируемый рост нагрузки и волатильность спроса.

В примерах выше мы, очевидно, рассмотрели задачу в упрощенном виде, чтобы продемонстрировать, что LCOAI методология представляет собой удобный инструмент поддержки принятия решений при внедрении ИИ, помогающий снизить градус неопределенности, увидев объективную общую картину в разрезе экономических метрик.

Для организаций, переходящих от экспериментов с искусственным интеллектом к промышленной эксплуатации, использование LCOAI фреймворка я бы оценил, как must have — особенно в условиях жёстких бюджетных ограничений 2026 года и необходимости обоснования инвестиций перед владельцами бюджетов.

—————-

Алексей Бобок,

AI трансформация, Рафт

Делюсь опытом внедрения ИИ в бизнес через поиск максимальной ценности:

https://t.me/aibobok

ссылка на оригинал статьи https://habr.com/ru/articles/1027748/