Как запихнуть килограмм LLM в телеграм-бота и не сойти с ума

Введение. Role-Play LLM бот

Все началось как шутка. Я сидел с друзьями и подумал: а вот было бы прикольно внедрить разные модели нейросетей в один чат и заставить их думать, что они реальные люди и работают в корпорации.

Весь смысл был в том, чтобы это были действительно разные модели и пользователь мог просто между ними переключаться по запросу. Для начала мне нужно было найти зоопарк апи ключей с бесплатными лимитами. Я прошерстил весь интернет и в итоге нашел относительно нормальные варианты: Groq для LLama, Google AI Studio для Gemma и Gemini.

В целом в это время код был простой, правда все время происходил забавный баг. Когда пользователь переключался между моделями, одна модель не хотела отдавать очередь другой и просто притворялась ею, но я в целом без трудностей поправил это через системный промт. Однако до конца у меня исправить это так и не получилось — видимо, мои модели слишком глупые.

Умный помощничек

Буквально в это же время я заметил, как Google урезали Gemini в браузере. Мне захотелось вернуть тот опыт умного ассистента, поэтому я решил добавить в бота серьезный режим. Изначально я хотел ограничиться простыми моделями, но с системой проверки. Первым делом я добавил GPT 4o по API ключу за копейки, но не чтобы с ним беседовать, а чтобы он проверял ответы других моделей. Логика такая: модель возвращает ответ вместе с параметром confidence (уверенность). Если он чуть-чуть не дотягивает до эталона, модель проверяет себя сама, а если модель слишком глупая, чтобы ответить на сложный вопрос, она зовет умного Gemini или GPT 4o.

Fallback архитектура

Первое время все работало отлично, пока я не понял, что Google душат нас лимитами и здесь. Гемини отвечал примерно в 50% случаев, поэтому я добавил Fallback архитектуру: если не может он, пусть отвечают другие.

Я совместил этот подход с проверкой качества: я сделал, чтобы модели, которые даже с проверкой от умного друга не могут ответить нормально на сложный вопрос, вообще на него не отвечали, а вместо них отвечала другая модель. Главный бенчмарк, который я придумал в тот момент, — смешная загадка про автомойку.

Этот вопрос оказался для моих моделей настолько сложным, что мне пришлось подключить Kimi k2.6, и теперь уже она проверяла ответы младших моделей. Это породило такой завоз, который я представить себе не мог. Изначально я задал этот вопрос llama 80b. Она сказала, что не уверена в ответе, и позвала Gemini на проверку. Gemini сказал: «Токенов нет», после чего сработал фоллбек проверяющего на Kimi. Kimi сказала ламе: «Неправильно, переделывай». LLama переделала, Kimi снова проверила ответ, и он все еще был неверным. После этого переключилось на модель GPT 4o. Он тоже был не уверен и позвал Kimi проверять. Только после этого вопрос с автомойкой был закрыт. Теперь вы понимаете, почему я назвал это «зоопарк нейросетей»?

Действительно умный LLM присоединился к глупышам.

Я оценил ситуацию и понял, что так дело не пойдет. Нужно добавлять более умные модели. И тут я натыкаюсь на прокси-сервис, который дает доступ к апи от антропик. Я оплатил апишку и начал тестировать модели на оригинальность. В целом я убедился, что это действительно модели от Anthropic с помощью базового prompt injection, но не билось одно — knowledge cutoff. Когда я спрашивал у модели Claude Sonnet 4.6, за какой год и месяц последнюю информацию она помнит, она отвечала мне: начало 2025 года. Я спросил у Gemini 3.1 pro и у Perplexity, и они упорно утверждали, что так быть не должно. После нескольких дней промт инжекшна я сдался: я не смог вычислить подделку. Но вдруг я вспомнил, что у Claude Sonnet 4.6 есть у других проверенных агрегаторов и в Google Antigravity (IDE от Google, где можно пощупать модели Claude), и решил спросить там. Ответ был всегда один — начало 2025 года. Из-за ложной уверенности Gemini и Perplexity я просто так потратил кучу токенов и пару дней в никуда. Оказалось, модель оригинальная.

После того как я добавил Claude в бота, веселье только началось. Я добавил 2 модели — Sonnet 4.6 и Opus 4.7. Модели поразили меня своим умом, особенно после урезанного gemini 3.1 pro из официального чата. Однако я заметил, что, когда я спрашиваю у них в боте сложный вопрос про код или физику, они сбрасывают ответ на другую модель. С этим я провозился пару дней. Оказалось, что из-за того, что я не добавил их в качестве проверяющих моделей, их проверял GPT 4o, и он отбраковывал ответы, которые, по его мнению, неверные. Ну как бы мы тут сравниваем GPT 4o и Opus 4.7, я думаю, понятно, у кого были ДЕЙСТВИТЕЛЬНО верные ответы. В итоге я пофиксил этот баг, но случилась другая беда: ответы обрезало в самый неподходящий момент. У меня стоял неплохой лимит по токенам на 1 запрос — 5000, но опусу было мало, и только когда я расширил ему лимит аж до 10000 токенов, он начал нормально отвечать. Уже тогда у меня начали закрадываться мысли об экономической выгоде моего бота.

Таблицы, форматирование кода и ФОРМУЛЫ

Еще с самого начала проекта я знал, что с формулами, таблицами и форматированием кода при split_message придется повозиться. Таблицы я победил кастомным обработчиком на питоне, а split_message вообще решался парой строк кода. НО ФОРМУЛЫ…

Простые-то понятно: конвертировал в юникод и поехали. Но я же хотел бота еще и для ФИЗИКИ. Сначала у меня была идея рендерить их как картинки, но это выбивало из контекста — читаемые формулы слались отдельным сообщением.

Кончилась эта эпопея тем, что я добавил в бота кнопку «Умный режим чтения». При нажатии на нее открывается Miniapp с текущим ответом бота, где и таблицы, и формулы, и код выглядят нормально.

Внутрянка Миниаппа

Когда бот видит в ответе таблицу, LaTeX-формулу и код, он генерирует случайный токен. Далее он формирует ссылку с этим токеном и прикрепляет его к кнопке умного режима. При нажатии на эту кнопку веб-приложение берет токен и отправляет гет-запрос боту. Бот, в свою очередь, отдает JSON с текстом, а веб-приложение рендерит его с помощью marked.js и KaTeX.

  Код (упрощенно):  Бот (Python):   1 # 1. Сохраняем и создаем токен   2 token = state.create_web_preview(full_answer_text)   3   4 # 2. Создаем кнопку для Mini App   5 url = f"https://my-bot.com/?t={token}"   6 btn = InlineKeyboardButton(text="📖 Умный режим чтения", web_app=WebAppInfo(url=url))  Серверная часть (aiohttp):   1 async def handle_api_preview(request):   2     token = request.query.get("t")   3     content = state.get_web_preview(token) # Берем из БД   4     return web.json_response({"content": content})  Веб-приложение (JS в index.html):   1 const urlParams = new URLSearchParams(window.location.search);   2 const token = urlParams.get('t');   3   4 // Запрашиваем контент у бота   5 const response = await fetch(`/api/preview?t=${token}`);   6 const data = await response.json();   7   8 // Рендерим Markdown   9 document.getElementById('content').innerHTML = marked.parse(data.content);

Итоги

Я собрал и бота для завоза, и более умный аналог браузерного гемини с наворотами. Но какой ценой — и денежной, и временной… Если вам интересно, что получилось в итоге, то вот юз бота @gemini_not_smart_bot.

ссылка на оригинал статьи https://habr.com/ru/articles/1035810/