Коротко о себе — чтобы был контекст.
Я Python-разработчик с несколькими годами в коммерческой разработке. Последние полтора года плотно занимаюсь AI-интеграциями: строю агентов на LangGraph, разворачиваю локальные LLM через vLLM и llama.cpp, делаю RAG-системы с pgvector и Quadrant, пишу MCP-серверы, настраиваю ASR/TTS пайплайны на нескольких языках включая узбекский.
За плечами — реальные внедрения для бизнеса и госструктур, работающая инфраструктура на двух GPU-серверах, агенты которые крутятся в продакшне прямо сейчас. Пишу на Хабре, веду Telegram-канал про Python и AI на 6000+ подписчиков.
В общем, не теория.
Недавно одна крупная компания сама вышла на меня с оффером. До этого у нас уже был разговор — обсуждали подходы к внедрению AI, спорили о методах. Они видели мою экспертизу, я видел их задачи. Потом пригласили на технический созвон.
И вот тут началось интересное.
Первый вопрос: «У нас сыпятся сотни алертов. Как будешь агрегировать через ИИ?»
Нормальный вопрос. Отвечаю: граф состояний, роутер-узлы, классификация через LLM, условные переходы. Параллельно уточняю — а что вы понимаете под агрегацией? Какие группы? По каким принципам классифицировать? В ответ — тишина.
Человек, который задал вопрос, не знает что хочет получить на выходе. Пришлось отвечать на вопрос, который сам же и придумал.
Дальше — интереснее.
Как проходит «AI-собес» в типичной СНГ-компании
После вопроса про алерты начинается классика:
«Расскажи про REST API для AI-сервиса» — рассказываю про LangGraph Server, который сам генерирует API, про LangSmith для тонкой отладки, про langgraph-sdk как мост между моделью и бэком. Привожу живые примеры, как я подружил этот автогенерируемый REST API с FastAPI. В ответ — понимающие кивки.
«А как с нагрузками?» — объясняю: узкое место — это этап получения ответов от модели. Количество одновременных запросов упирается в возможности оборудования, поэтому проблему решаем через очереди, запуск нескольких копий системы и распределение запросов между локальными и облачными моделями.
«А чем отличаются типы очередей в RabbitMQ?» — стоп. Мы уже куда-то свернули.
«Что такое материализованные представления в PostgreSQL?» — совсем интересно. Мы вроде про AI говорили?
«Плюсы и минусы Django» — разношу Django по косточкам: синхронность как главный тормоз, навязанная архитектура, неповоротливая ORM, которая живёт своей жизнью. Раскладываю всё по полочкам — и тут выясняется, что у ребят на проекте как раз Django. Ну, окей.
«S3 vs volume mount — в чём разница?» — рассказываю почему использую S3 для медиа в AI-проектах.
В конце разговора узнаю как устроена их текущая AI-инфраструктура. Ответ: «Ну там ребята что-то подняли через Ollama, гоняют через n8n».
Я пришёл говорить про LangGraph, vLLM, боевых ии-агентов, MCP-серверы. А меня спрашивали про Django и volume mount. Мы весь созвон разговаривали про разные вещи.
Что здесь на самом деле происходит
Это не история про одну конкретную компанию. Это паттерн, который я вижу раз за разом на рынке СНГ.
Компания решает «внедрить AI». Руководство даёт задачу. Задача падает на DevOps или бэкенд-разраба который «разбирается в технологиях». Он гуглит вопросы для «AI-собеса», добавляет туда свои любимые темы (PostgreSQL, Django, очереди) и идёт собеседовать кандидата.
В итоге получается собес на позицию «старший бэкенд с элементами DevOps», а не на эксперта по AI-интеграции в бизнес процессы. И кандидат, который не знает про материализованные вьюхи, «проваливается» — хотя он только что описал архитектуру агента, которая реально решила бы задачу с алертами.
Два разных мира
Вот честное сравнение двух подходов к AI в продакшне:
|
Имитация AI |
Реальное внедрение |
|---|---|
|
n8n + Ollama |
LangGraph + vLLM / llama.cpp |
|
No-code конструкторы |
Граф с явным control flow |
|
«Ребята что-то подняли» |
Контролируемая инфра с мониторингом |
|
Prompt в текстовом поле |
Узлы, рёбра, условные переходы |
|
Нет трейсинга |
LangSmith / LangFuse — каждый шаг виден |
|
Один инстанс |
Routing между моделями, очереди, fallback |
Я не утверждаю, что n8n — это зло. Для несложных задач автоматизации вполне пригодная штука. Но если компания собирается делать боевую AI-систему, а кандидатов оценивает по тому, как они знают Джанго — тут проблема совсем не в кандидате.
Что реально стоит спрашивать у AI-эксперта
Если вы нанимаете человека на AI-роль — вот вопросы которые дают реальную картину. И маячки на что смотреть в ответе.
Архитектура агента
Вопрос: Как ты организуешь порядок выполнения операций? Как обрабатываешь ошибки на уровне узла?
Смотри на: понимает ли человек разницу между цепочкой и графом, умеет ли изолировать логику в узлах. Красный флаг — «я просто пишу промпт и смотрю что выйдет».
Надёжность в продакшне
Вопрос: Как решаешь проблему галлюцинаций? Что делаешь когда модель возвращает мусор?
Смотри на: наличие валидации на выходе, retry-логики, fallback-сценариев. Красный флаг — «ну модель обычно отвечает нормально».
Выбор модели
Вопрос: Как ты принимаешь решение между локальной моделью и вызовом облачного сервиса для конкретной задачи?
Смотри на: Умеет ли человек просчитывать компромиссы: задержка ответа, стоимость, сохранность данных, качество результата. Понимает ли, что облачные модели неприемлемы в ситуациях с жёсткими требованиями к конфиденциальности, нормативными ограничениями или запретом передавать данные третьим сторонам.
Красный флаг: ответ «мы везде используем ChatGPT».
Дебаг
Вопрос: Как устроен твой трейсинг? Как дебажишь агента когда что-то пошло не так?
Смотри на: знает ли LangSmith, LangFuse или аналоги. Понимает ли что агент без трейсинга — это чёрный ящик в продакшне. Красный флаг — «смотрю в логи».
Нагрузки
Вопрос: Что делаешь, когда получение ответов от модели становится узким местом? Как масштабируешь?
Смотри на: знает ли про батчинг, несколько инстансов, роутинг между моделями, очереди для асинхронных задач. Красный флаг — «поставим сервер помощнее».
Интеграция
Вопрос: Как подключаешь агента к существующему бэку?
Смотри на: знает ли про LangGraph SDK, понимает ли как стримить ответы, как управлять сессиями. Красный флаг — «через вебхук как-нибудь».
Локальные модели
Вопрос: Приходилось ли разворачивать LLM локально? Что использовал?
Смотри на: знает ли vLLM, llama.cpp, понимает ли ограничения по VRAM, квантизацию. Красный флаг — «мы смотрели Ollama но не разобрались».
Это базовые вещи которые любой практикующий AI-разработчик проходил на реальных проектах.
Вопросы про материализованные вьюхи и типы очередей — тоже хорошие вопросы. Но они про другого специалиста.
Почему это важно
СНГ-рынок по AI сейчас находится в странном месте. С одной стороны — железо есть, задачи есть, деньги есть. С другой — на ключевых позициях сидят люди, которые оценивают AI-компетенции через призму DevOps и бэкенда.
Круг замкнулся: компании не могут найти нормальных AI-специалистов, потому что не умеют их искать. AI-специалисты не могут попасть в нормальные проекты, потому что не проходят фильтр из вопросов про Django.
Хорошая новость в том, что это меняется. Медленно, но меняется. Появляются команды, которые понимают разницу между «поднять Ollama» и «построить production AI-систему». И туда стоит целиться — и кандидатам, и компаниям.
Если ты узнал эту ситуацию — значит ты либо был на месте кандидата, либо на месте того самого DevOps. В обоих случаях буду рад обсудить в комментариях.
ссылка на оригинал статьи https://habr.com/ru/articles/1027410/