Привет, Хабр, на связи product owner компании Modus Александр Чебанов! Сегодня поговорим об архитектуре аналитической платформы и подробнее остановимся на том, как организована Modus ETL. Поехали!
Анатомия аналитической платформы
В 
Получение данных
Сбор данных – одна из базовых функций ETL-систем.
Modus ETL подключается к неограниченному количеству источников данных разных типов:
-

Пример схемы WorkFlow Обработка данных
Система обработки данных Modus ETL работает через интерфейс WorkFlow – так мы сокращаем затраты времени. Пользователь настраивает весь процесс работы с данными через графический интерфейс, конфигурируя его сценарий и перетаскивая шаги работы с данными из палитры в рабочую область с помощью drag`n`drop.
На этапе разработки ETL-сценария мы можем проверять правильность настройки каждого шага. Например, мы можем просмотреть промежуточные результаты или статистику по качеству данных (количество дублей, записей, не прошедших проверку и т.п.).
Опытные пользователи могут писать скрипты обработки данных на языках SQL, T-SQL, 1C, (в скором времени и Python), это позволит еще более тонко организовать работу с данными при помощи Modus ETL. Скрипты могут сохраняться в шаблоны и использоваться повторно.
При работе с разными источниками важно, чтобы полученные из них данные были нормализованы в аналитическом хранилище. Одна из важных задач нормализации – работа с мастер-данными:
-
ведение и заполнение мастер-данных;
-
их дополнение;
-
соответствие между первичными данными и мастер-данными.
Modus ETL содержит подсистему аналитической

Управление НСИ с помощью ETL Если нужно сделать ряд последовательных действий с данными, то можно объединить их в цепочки по принципу конвейера, и они будут выполняться автоматически по расписанию. При этом, всегда можно восстановить предыдущую версию до изменений.
Например, каждую ночь необходимо получать обновленные данные по продажам со всех торговых точек. Дальше их необходимо нормализовать при помощи аналитической НСИ, определить номенклатуру и записать результаты продаж в аналитический слой. Процесс сбора, обработки и помещения данных можно объединить в один пакет, настроить автоматическое расписание и получать отчет о результате работы.
Modus ETL – одна из немногих систем с функционалом предиктивной аналитики.
Благодаря машинному обучению ETL классифицирует, кластеризует, строит прогнозы и тренды на основе данных хранилищ.Администрирование и сопровождение
Чтобы доверять аналитическим данным, необходимо быть уверенным, что они актуальные, вовремя собраны и не содержат ошибок.
Для контроля ETL-процессов в Modus предусмотрен функционал мониторинга:-
отчеты о результатах и ошибках выполнения могут присылаться на регулярной основе ответственным пользователям;
-
для коннекта с корпоративными системами мониторинга предусмотрена интеграция с Zabbix. Мониторинг процессов позволяет вовремя локализовать, оповестить и исправить возможные ошибки сбора и преобразования данных, например, доступность внешних систем или отсутствие данных. А мониторинг времени выполнения пакетов дает возможность оптимизировать сбор и обработку данных. Одна из важных функций в администрировании Modus ETL – это разграничение доступов к объектам в разрезе проектов. Например, предоставление ограниченного доступа аналитику, который только обучается работать с системой. Ему может быть предоставлена своя база или контур разработки без прав самостоятельного переноса объектов в продакшн.
Итак, в этой статье мы рассмотрели, как же работает ETL на примере Modus. В следующей публикации поговорим о BI-составляющей. До связи!
-
ссылка на оригинал статьи https://habr.com/ru/companies/modusbi/articles/747866/


Добавить комментарий