Система мониторинга верхнего уровня для банка

от автора

Здравствуйте Хабровчане.

Довелось мне в 2011 году создавать отдел круглосуточного контроля доступности IT сервисов в одном из крупнейших банков России. Всего на контроле в отделе находится 35 различных систем и их число постоянно растет, а их здоровье отслеживается пятью системами мониторинга. В определенный момент стало просто неудобно отслеживать множество процессов и разбирать оповещения от систем мониторинга, зачастую имеющие избыточную информацию. И в январе 2012 года встал вопрос об аккумулировании информации с систем мониторинга и вывод ее в удобном для восприятия виде.

Для начала надо было вывести необходимую информацию на дисплей для дежурных, для чего был приобретен телевизор диагональю 52 дюйма. Так же было принято решение не привлекать сторонние организации для выполнения проекта, а сделать совою систему с блэкджеком и …. Кроме того в пользу своей разработки было то, что необходимо постоянно добавлять / обновлять / удалять какие-либо проверки систем, а самому это делать проще
После продолжительных раздумий родилась такая схема:

Все было написано на C#. Приложение Tactical View BackWorker работает в несколько потоков, кол-во которых соответствует кол-ву опрашиваемых им систем. Собирает и анализирует полученные данные, после чего кладет их в базу уже в обработанном виде, сделано это чтобы максимально разгрузить приложение вывода информации. Например, доступность сервиса приема платежей от клиентов проверяется по следующим параметрам:

  • Доступность серверов и сервисов, крутящихся на них (Система мониторинга #1).
  • Доступность сетевых устройств (Система мониторинга #2).
  • Количество платежей за последние 20 минут (Собственные проверки в БД сервиса).

Service State Color RefreshTime Troubles
Payments 1 Yellow 10.12.2012 12:55 1742;1743;1749

В данном случае прием платежей банком от клиентов доступен State=1, но имеются проблемы Color=Yellow, ID которых перечислены в Troubles.
Данная схема прекрасно себя зарекомендовала и работает по сей день. Время обнаружения сбоев сократилось до 3-5 минут с 30 в ночное время. Руководство довольно. Клиенты счастливы. Но хотелось большего. Хотелось иметь эту информацию в любое время в любом месте на экране своего мобильного устройства. Для данных целей был приобретен Mac Book Air и корпоративная лицензия разработчика. В сентябре закипела работа по написанию приложения под iOS. И в середине октября была выпущена первая версия, которая получала все те же данные, что и выводились дежурному, но так как руководство банка выразило заинтересованность в данной системе, то в приложение были добавлены бизнес метрики, как то количество выданных кредитов за последнюю неделю в соотношении с количеством поданных заявок на кредит или опять же количество платежей клиентов.
Схема была модифицированна:

Tactical View NetSupport раз в минуту подготавливает xml файл, который и передает на мобильное устройство. Динамическое формирование выходного xml при подключенном клиенте все же требует некоторого времени и от него пришлось отказаться. На данный момент этой системой пользуются как администраторы конечных систем, так и руководство банка для оценки ситуации в целом. Все работы были выполнены одним человеком, то есть мной.

ссылка на оригинал статьи http://habrahabr.ru/post/162111/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *