Доступ к западным большим языковым моделям (далее — БЯМ) закрывается снаружи и, судя по всему, скоро начнёт закрываться изнутри.
Что останется бизнесу и какую цену нам придётся за это платить?
Изоляция на практике
Ограничения от западных вендоров давно перестали быть абстрактной угрозой. OpenAI и Anthropic последовательно ужесточают политику блокировок для российских пользователей. 11Labs — один из лидеров в синтезе речи — отклоняет запросы с российских IP. Формально большинство западных LLM недоступны российским юрлицам, и хотя технически проксирование через незаблокированные адресные зоны работает, для бизнеса это юридически серая зона.
Корпоративные заказчики, особенно из регулируемых отраслей, такой риск принимать не готовы: любой запрос к внешнему API, в котором упомянуты имя или телефон пользователя, формально является трансграничной передачей персональных данных и подпадает под требования 152-ФЗ. Для задач коммуникативных ИИ-агентов, где через агента проходят голос и персональные данные, это не теоретическая проблема — это блокер.
Параллельно внутри страны формируется регуляторное давление в сторону «суверенных» решений. Направление тренда очевидно — горизонт, на котором использование зарубежных моделей станет ещё более ограниченным, сокращается.
Иллюзия своих LLM
Важно понимать, что стоит за понятием «отечественной модели». Чаще всего речь идёт не о модели, обученной с нуля, а о дообученной (fine-tuning) версии зарубежных моделей с вестами в публичном доступе— LLaMA от Meta, Qwen от Alibaba, Mistral, GLM, Kimi. Т-Банк, Яндекс, МТС, Авито берут такие модели, обученные на триллионах токенов в качестве основы и адаптируют её под русский язык и свой домен. Назвать такие модели российскими можно достаточно условно: это локализованный клон международной архитектуры и базовых весов, а не полностью самостоятельная разработка.
На сегодняшний день — единственное исключение — Сбер с семейством GigaChat, который пошёл путём обучения с нуля (некоторое время назад полномасштабное обучение базовой модели проводила также Яндекс). Обучение модели с нуля требует десятков и сотен миллионов долларов, огромным объёмам данных и доступа к графическим вычислителям (GPU) уровня H100-H200 — B100-B200, которые в России в дефиците из-за санкций. Кроме санкций — доступность таких ускорителей сокращается также и в мире, ввиду роста потребления. Для большинства игроков рынка этот путь просто недоступен.
Два пути — и оба со своими проблемами
На сегодня внутри страны сложились два основных подхода к задаче разработки БЯМ на русском языке.
|
Путь обучения с нуля Разработка собственной архитектуры и обучение модели с нуля на большом корпусе данных, включая данные на русском языке. Кто идёт: Сбер (семейство GigaChat) Стоимость: миллионы долларов на железо и процесс обучения. Огромные ресурсные и временные расходы. |
Путь дообучения модели open source Файнтюнинг базовой китайской модели (чаще всего модели семейства Qwen) на русском корпусе и доменных данных.
Кто идёт: Яндекс, Т-Банк, Авито Стоимость: существенно ниже. Итоговая цена инференса сопоставима с китайскими аналогами. |
GigaChat — единственная полностью российская модель с реальным покрытием задач. Последние версии весьма неплохи: инструментальный вызов работает, качество генерации на русском языке как минимум конкурентно с популярными открытыми моделями. Но есть одно «но», которое перевешивает всё остальное.
|
< 1 ₽ стоимость минуты инференса — сопоставимая модель OpenAI |
~80 ₽ стоимость минуты инференса GigaChat сопоставимого уровня (расчет произведён для модели GigaChat-Max) |
разница в стоимости — почти два порядка! |
Для задач, где модель работает в режиме реального времени и обрабатывает живые звонки клиентов, такая разница в стоимости делает экономику продукта нежизнеспособной. Это не вопрос предпочтений — это математика.
Экономика инференса: где прячутся деньги
Главная статья расходов при работе с БЯМ для потребителя — инференс, то есть сам процесс генерации реплики агента. У глобальных провайдеров цена разделена на входящие и исходящие токены. На примере модели OpenAI 5.4 mini: ввод стоит дешевле (~$0,75 за миллион токенов), генерация — дороже (~$4,5 за миллион токенов).
Российские провайдеры зачастую устанавливают одинаковую цену на вход и выход. Для сценариев с длинными промптами и короткими ответами — а именно так работают большинство ИИ-агентов — это многократно увеличивает реальный расход. В сочетании с изначально более высокой базовой ценой разрыв становится критическим.
Железо: ещё один ограничитель
Ситуацию усугубляет стоимость инфраструктуры. GPU уровня H100 в Россию не поставляются напрямую — закупка через посредников поднимает цену. Сервер, способный обслуживать хотя бы 1000 одновременных агентских сессий, обходится порядка 55 млн рублей. Для компаний со значительной нагрузкой речь идёт о полноценных GPU-кластерах.
Себестоимость генерации напрямую зависит от загрузки GPU: чтобы цена токена оставалась разумной, нужно поддерживать загрузку не ниже 80–90%. При относительно небольшом спросе на ИИ-агентов в России достичь этого порога крайне сложно — оборудование простаивает, а расходы на электроэнергию и обслуживание остаются прежними.
Дообучение на Qwen: компромисс или решение
Путь Т-Банка, Яндекса и Авито выглядит прагматичнее. Базовая модель Qwen (в частности, Qwen 3.5 35B-A3B) демонстрирует по бенчмаркам показатели, сопоставимые со вторым эшелоном Anthropic. Файнтюнинг на большом русскоязычном корпусе и доменных данных позволяет получить модель, адаптированную к конкретной задаче, по разумной цене.
Проблема в другом. С точки зрения «суверенности» этот путь уязвим: в основе — китайская архитектура и веса базовой модели. Насколько это приемлемо в стремительно меняющейся регуляторной реальности — вопрос открытый. Пока прямого запрета нет. Но тренд на ограничение доступа к зарубежным технологиям распространяется не только на западные решения.
Дилемма формулируется жёстко: полностью российское решение — безумно дорого. Дообучение китайских моделей — дешевле, но не суверенно. Западные модели — технически лучшие, но доступ к ним сужается с двух сторон одновременно.
Когда внедрение ИИ всё-таки окупается?
Несмотря на цену, ИИ остаётся оправданным в сегментах с высокой стоимостью человеческого труда и непрерывной загрузкой: контакт-центры, юридические департаменты, службы поддержки. Именно там непрерывная работа агента обеспечивает загрузку GPU на нужном уровне — и себестоимость токена опускается до управляемых значений. В сценариях с низкой загрузкой агент экономически неэффективен вне зависимости от качества модели.
По данным KPMG, 38,5% пользователей в мире уже применяют ИИ в повседневной жизни. В России, по данным Левада-центра, регулярно используют ИИ лишь 6% опрошенных. Этот разрыв отражает не технологическое отставание, а экономические барьеры, которые делают ИИ-автоматизацию в России системно дороже.
На практике выбор модели зависит от масштаба и уровня допустимого риска.
Крупный бизнес — On-prem: данные внутри периметра, контроль важнее экономии. Инвестиции в собственные GPU-кластеры.
Средний бизнес — Гибрид: российские облака на старте, постепенный переход на внутренние серверы по мере роста нагрузки.
Малый бизнес -Глобальные облака через серую зону. Дешевле и мощнее, но юридически уязвимо.
Что всё вышеописанное значит для продуктовых компаний
Любая компания, строящая продукт с БЯМ на русском языке, сегодня просто обязана закладывать в архитектуру решения сценарий смены модели. Зависимость от одного вендора — западного или отечественного — это риск, который уже материализовался для части рынка. Наиболее устойчивая стратегия — модульная архитектура с абстракцией на уровне вызова модели, позволяющая переключаться между провайдерами без переписывания бизнес-логики. Иначе говоря — архитектура, агностичная модели.
Дилемма формулируется жёстко: полностью российское решение — безумно дорого. Дообучение китайских моделей — дешевле, но суверенность условная. Западные модели — технически лучшие, но доступ сужается с двух сторон одновременно. Выбора без компромисса нет — есть только выбор, каким компромиссом управлять осознанно.
Мы с коллегами на сегодня считаем для себя приемлемым компромиссом работу голосовых ИТ-агентов поверх моделей семейства QWEN. В частности используем модель QWEN 3.5 35B-A3B. Для данной модели также существуют опция сокращения стоимости gpu-compute за счёт сборки сервера на основании GPU модели NVIDIA RTX PRO 6000 Blackwell Series. Эта модель, кроме цены сильно более привлекательной относительно ускорителей семейства H100-200, имеет объём памяти выше базового варианта H100 (96 Гб против 80 Гб), что позволяет хостить модель с большим размером контекстного окна.
ссылка на оригинал статьи https://habr.com/ru/articles/1022480/