Как менеджер Grafana за вечер собрал ИИ, который сам разбирает ночные сбои — и обучается после каждого

Продакт-менеджер Grafana и мейнтейнер Prometheus Гаутам Вирамачанени 21 апреля рассказал в своем блоге, как за час собрал себе ИИ-помощника, который разбирает аварии в продакшене вместо него. После пяти тренировочных разборов модель начала попадать в диагноз почти без промахов — по оценке автора, ложных срабатываний меньше 10%. Команда быстро перешла на этот инструмент как на основной.

Вирамачанени работает в бэкенд-команде одного из продуктов Grafana и регулярно сидит на ночных дежурствах: если что-то ломается в продакшене, алерт прилетает ему в мессенджер, и дальше нужно лезть в метрики и логи, чтобы понять, какой сервис сбоит и почему. Claude он использовал для этой работы давно — через их собственную CLI-утилиту gcx, которая умеет ходить в Grafana Cloud и доставать оттуда все нужные данные. Проблема была в одном: модель каждый раз начинала разбор с нуля, а уроки прошлых аварий никуда не сохранялись.

Вместо того чтобы городить отдельного агента, Вирамачанени оформил все как «скилл» для Claude Code — обычную папку с инструкциями и подпапками, куда ИИ сам дописывает, что узнал. Внутрь он разложил описание кластеров, типовые запросы к метрикам, чек-листы по конкретным алертам и базу знаний с разборами прошлых аварий. Никакой векторной базы и сложной обвязки — просто файлы на диске, которые можно открыть глазами и отредактировать руками.

Дальше он взял все ночные алерты своей команды за две недели и по очереди прошел каждый вместе с Claude. По этим авариям уже были написаны разборы, так что автор знал правильный ответ и мог направлять модель: подсказывал, где искать, какие метрики смотреть, что значат конкретные симптомы. После каждого разбора Claude сам дописывал свою «тетрадку»: новый случай — в папку с инцидентами, повторяющаяся странность — в папку с «причудами», обновления к инструкциям — в отдельный файл на ревью.

К пятому тренировочному инциденту ИИ уже стабильно попадал в диагноз — либо сам распознавал знакомый паттерн, либо раскручивал новый случай и предлагал обновление инструкций через pull request. Команда подтянулась и начала пользоваться им по умолчанию; сейчас Вирамачанени помогает переносить подход на другие команды внутри Grafana.

Сам автор удивляется итогу: для приличного ИИ-дежурного, по его словам, нужно всего четыре вещи — доступ к коду, инструкции по типовым сбоям, файловая память и опционально манифесты Kubernetes. Этого, считает Вирамачанени, хватит для 95% типовых сервисов. На этом фоне он задается неудобным вопросом: зачем существуют 50+ стартапов, которые строят ровно это — и поднимают под задачу миллионные раунды.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть«, где я рассказываю про ИИ с творческой стороны.

ссылка на оригинал статьи https://habr.com/ru/articles/1026264/