У каждого из нас в закладках браузера есть Google AI Studio. Еще год назад это было место силы.
Давайте вспомним лето 2025-го. Релиз Gemini 2.5 Pro. Google выкатывает модель с невероятным контекстным окном и делает немыслимое: дает разработчикам практически безлимитную квоту через API и веб интерфейс. Ты мог загрузить туда библиотеку кода, пару книг, логи сервера за месяц и весь день задавать модели вопросы. Лимиты казались бесконечными. Сообщество ликовало: «Наконец-то корпорация повернулась лицом к энтузиастам! OpenAI повержен!»
А потом наступил 2026 год. Вышли Gemini 3.0, а за ней и 3.1 Pro. И карета превратилась в тыкву.
Сегодня попытка вести долгую сессию с 3.1 Pro в AI Studio напоминает изощренную пытку. Десять сообщений с плотным контекстом и вы ловите Quota Exceeded. Чтобы закончить архитектурный ресерч или дописать сложный модуль, люди вынуждены регистрировать по 5-6 альт аккаунтов, перебрасывая контекст из одного окна в другое, пока Google не забанит их по IP.
Почему AI Studio так стремительно скатилась ? Многие думают, что Google просто стал жадным. Но мы с вами знаем: корпорации не бывают жадными или щедрыми. Корпорации умеют считать деньги и тепловыделение.
1. Бесплатный сыр и жажда данных (RLHF-ферма)
Лето 2025 года было не благотворительностью. Это была самая масштабная в истории операция по сбору высококачественных пользовательских данных для Long Context RLHF.
Google отчаянно нуждался в понимании того, как именно разработчики используют окна в 1 миллионов токенов. Им нужны были ваши репозитории, ваши архитектурные споры, ваши паттерны поиска багов в мегабайтах логов. Давая нам безлимитный Gemini 2.5 Pro, Google превратил нас в бесплатных разметчиков данных. Мы сами показали им, где модель теряет фокус, а где галлюцинирует.
К выходу Gemini 3.0 они собрали необходимый датасет. Выучили паттерны. Улучшили метрики маршрутизации внутри слоев. Ферма выполнила свою задачу. Надобность оплачивать ваши круглосуточные эксперименты отпала.
2. Физика KV кэша и термодинамика
Вторая причина аппаратная. Gemini 3.1 Pro это не просто 2.5 Pro с новыми весами. Это фундаментально более тяжелая модель (вероятно, массивный MoE с огромной размерностью скрытого состояния).
Каждый раз, когда вы держите в AI Studio контекст на 500к токенов, сервер Google должен хранить ключи и значения для каждого из этих токенов в сверхдорогой видеопамяти.
Давайте посчитаем: для тяжелой модели 500k токенов контекста на одного пользователя могут занимать от 10 до 40 ГБ видеопамяти просто для поддержания сессии. А теперь представьте, что таких любителей бесплатного сыра миллион.
Google не стал жадным. Инженеры Google просто посмотрели на счета за электричество от своих TPU кластеров. Поддерживать сессии 3.1 Pro с длинным контекстом это буквально сжигать миллионы долларов в час в виде тепла.
В 2.5 Pro они компенсировали эту стоимость ради захвата рынка. В 3.1 Pro законы термодинамики и ограничения пропускной способности памяти взяли свое.
3. Смерть иллюзии бесконечности
Мы разбаловались. Мы поверили, что вычислительные мощности это нечто бесконечное, льющееся из розетки как вода. Google AI Studio летом 25 го поддерживала эту иллюзию.
Но сейчас индустрия ИИ уперлась в жесткий compute wall. Масштабирование интеллекта моделей 3 го поколения требует экспоненциально больше вычислений на инференсе.
Лимиты AI Studio сегодня это честное отражение реальной стоимости интеллекта. Если вам нужен гениальный программист-ассистент, способный удержать в голове 100к строк кода, вы не можете получать его бесплатно 24/7. Ни одна инфраструктура в мире этого не выдержит.
Время взрослеть
Нам больно и обидно переключаться между пятью Google аккаунтами, чтобы доделать задачу. Мы с ностальгией вспоминаем времена, когда можно было закинуть в Gemini целую кодовую базу и болтать об этом часами.
Но AI Studio не скатилась. Она просто столкнулась с реальностью. Экспериментальный полигон закрыт, началась коммерческая эксплуатация. Халява кончилась.
Что делать нам? Возвращаться к корням.
Перестать кидать моделям мусорные мегабайты текста на всякий случай. Учиться писать лаконичные, структурные промпты. Внедрять RAG на своей стороне, подавая в контекст только нужное. И, конечно же, поддерживать open source и локальные модели. Потому что пока вы зависите от чужого кластера, ваш интеллект ограничен чужой квотой.
ссылка на оригинал статьи https://habr.com/ru/articles/1039288/