Как в СНГ выбирают людей для AI-внедрения — и почему это страшно. Кейс из жизни

Коротко о себе — чтобы был контекст.

Я Python-разработчик с несколькими годами в коммерческой разработке. Последние полтора года плотно занимаюсь AI-интеграциями: строю агентов на LangGraph, разворачиваю локальные LLM через vLLM и llama.cpp, делаю RAG-системы с pgvector и Quadrant, пишу MCP-серверы, настраиваю ASR/TTS пайплайны на нескольких языках включая узбекский.

За плечами — реальные внедрения для бизнеса и госструктур, работающая инфраструктура на двух GPU-серверах, агенты которые крутятся в продакшне прямо сейчас. Пишу на Хабре, веду Telegram-канал про Python и AI на 6000+ подписчиков.

В общем, не теория.

Недавно одна крупная компания сама вышла на меня с оффером. До этого у нас уже был разговор — обсуждали подходы к внедрению AI, спорили о методах. Они видели мою экспертизу, я видел их задачи. Потом пригласили на технический созвон.

И вот тут началось интересное.

Первый вопрос: «У нас сыпятся сотни алертов. Как будешь агрегировать через ИИ?»

Нормальный вопрос. Отвечаю: граф состояний, роутер-узлы, классификация через LLM, условные переходы. Параллельно уточняю — а что вы понимаете под агрегацией? Какие группы? По каким принципам классифицировать? В ответ — тишина.

Человек, который задал вопрос, не знает что хочет получить на выходе. Пришлось отвечать на вопрос, который сам же и придумал.

Дальше — интереснее.

Как проходит «AI-собес» в типичной СНГ-компании

После вопроса про алерты начинается классика:

«Расскажи про REST API для AI-сервиса» — рассказываю про LangGraph Server, который сам генерирует API, про LangSmith для тонкой отладки, про langgraph-sdk как мост между моделью и бэком. Привожу живые примеры, как я подружил этот автогенерируемый REST API с FastAPI. В ответ — понимающие кивки.

«А как с нагрузками?» — объясняю: узкое место — это этап получения ответов от модели. Количество одновременных запросов упирается в возможности оборудования, поэтому проблему решаем через очереди, запуск нескольких копий системы и распределение запросов между локальными и облачными моделями.

«А чем отличаются типы очередей в RabbitMQ?» — стоп. Мы уже куда-то свернули.

«Что такое материализованные представления в PostgreSQL?» — совсем интересно. Мы вроде про AI говорили?

«Плюсы и минусы Django» — разношу Django по косточкам: синхронность как главный тормоз, навязанная архитектура, неповоротливая ORM, которая живёт своей жизнью. Раскладываю всё по полочкам — и тут выясняется, что у ребят на проекте как раз Django. Ну, окей.

«S3 vs volume mount — в чём разница?» — рассказываю почему использую S3 для медиа в AI-проектах.

В конце разговора узнаю как устроена их текущая AI-инфраструктура. Ответ: «Ну там ребята что-то подняли через Ollama, гоняют через n8n».

Я пришёл говорить про LangGraph, vLLM, боевых ии-агентов, MCP-серверы. А меня спрашивали про Django и volume mount. Мы весь созвон разговаривали про разные вещи.

Что здесь на самом деле происходит

Это не история про одну конкретную компанию. Это паттерн, который я вижу раз за разом на рынке СНГ.

Компания решает «внедрить AI». Руководство даёт задачу. Задача падает на DevOps или бэкенд-разраба который «разбирается в технологиях». Он гуглит вопросы для «AI-собеса», добавляет туда свои любимые темы (PostgreSQL, Django, очереди) и идёт собеседовать кандидата.

В итоге получается собес на позицию «старший бэкенд с элементами DevOps», а не на эксперта по AI-интеграции в бизнес процессы. И кандидат, который не знает про материализованные вьюхи, «проваливается» — хотя он только что описал архитектуру агента, которая реально решила бы задачу с алертами.

Два разных мира

Вот честное сравнение двух подходов к AI в продакшне:

Имитация AI	Реальное внедрение
n8n + Ollama	LangGraph + vLLM / llama.cpp
No-code конструкторы	Граф с явным control flow
«Ребята что-то подняли»	Контролируемая инфра с мониторингом
Prompt в текстовом поле	Узлы, рёбра, условные переходы
Нет трейсинга	LangSmith / LangFuse — каждый шаг виден
Один инстанс	Routing между моделями, очереди, fallback

Я не утверждаю, что n8n — это зло. Для несложных задач автоматизации вполне пригодная штука. Но если компания собирается делать боевую AI-систему, а кандидатов оценивает по тому, как они знают Джанго — тут проблема совсем не в кандидате.

Что реально стоит спрашивать у AI-эксперта

Если вы нанимаете человека на AI-роль — вот вопросы которые дают реальную картину. И маячки на что смотреть в ответе.

Архитектура агента

Вопрос: Как ты организуешь порядок выполнения операций? Как обрабатываешь ошибки на уровне узла?

Смотри на: понимает ли человек разницу между цепочкой и графом, умеет ли изолировать логику в узлах. Красный флаг — «я просто пишу промпт и смотрю что выйдет».

Надёжность в продакшне

Вопрос: Как решаешь проблему галлюцинаций? Что делаешь когда модель возвращает мусор?

Смотри на: наличие валидации на выходе, retry-логики, fallback-сценариев. Красный флаг — «ну модель обычно отвечает нормально».

Выбор модели

Вопрос: Как ты принимаешь решение между локальной моделью и вызовом облачного сервиса для конкретной задачи?

Смотри на: Умеет ли человек просчитывать компромиссы: задержка ответа, стоимость, сохранность данных, качество результата. Понимает ли, что облачные модели неприемлемы в ситуациях с жёсткими требованиями к конфиденциальности, нормативными ограничениями или запретом передавать данные третьим сторонам.

Красный флаг: ответ «мы везде используем ChatGPT».

Дебаг

Вопрос: Как устроен твой трейсинг? Как дебажишь агента когда что-то пошло не так?

Смотри на: знает ли LangSmith, LangFuse или аналоги. Понимает ли что агент без трейсинга — это чёрный ящик в продакшне. Красный флаг — «смотрю в логи».

Нагрузки

Вопрос: Что делаешь, когда получение ответов от модели становится узким местом? Как масштабируешь?

Смотри на: знает ли про батчинг, несколько инстансов, роутинг между моделями, очереди для асинхронных задач. Красный флаг — «поставим сервер помощнее».

Интеграция

Вопрос: Как подключаешь агента к существующему бэку?

Смотри на: знает ли про LangGraph SDK, понимает ли как стримить ответы, как управлять сессиями. Красный флаг — «через вебхук как-нибудь».

Локальные модели

Вопрос: Приходилось ли разворачивать LLM локально? Что использовал?

Смотри на: знает ли vLLM, llama.cpp, понимает ли ограничения по VRAM, квантизацию. Красный флаг — «мы смотрели Ollama но не разобрались».

Это базовые вещи которые любой практикующий AI-разработчик проходил на реальных проектах.

Вопросы про материализованные вьюхи и типы очередей — тоже хорошие вопросы. Но они про другого специалиста.

Почему это важно

СНГ-рынок по AI сейчас находится в странном месте. С одной стороны — железо есть, задачи есть, деньги есть. С другой — на ключевых позициях сидят люди, которые оценивают AI-компетенции через призму DevOps и бэкенда.

Круг замкнулся: компании не могут найти нормальных AI-специалистов, потому что не умеют их искать. AI-специалисты не могут попасть в нормальные проекты, потому что не проходят фильтр из вопросов про Django.

Хорошая новость в том, что это меняется. Медленно, но меняется. Появляются команды, которые понимают разницу между «поднять Ollama» и «построить production AI-систему». И туда стоит целиться — и кандидатам, и компаниям.

Если ты узнал эту ситуацию — значит ты либо был на месте кандидата, либо на месте того самого DevOps. В обоих случаях буду рад обсудить в комментариях.

ссылка на оригинал статьи https://habr.com/ru/articles/1027410/