
«Кто виноват и что делать?» — эти два вопроса, которые классики русской литературы адресовали обществу, сегодня как никогда актуальны для ИТ-директоров и финансовых руководителей. Готовы к ответу? «Виноват» не конкретный человек, а не оптимально работающая инфраструктура. Что же делать? — внедрять FinOps.
FinOps — это не технология, а организационная методика. Важная часть инструментария FinOps — правильно построенная информационная система, которая собирает, хранит и дает анализировать данные о расходах на ИТ-инфраструктуру и нагрузке. В этой статье мы разберем архитектурное ядро такой системы.
Мультитенантность: одна система — много клиентов
Если вы строите FinOps-систему для своего бизнеса, то она должна включать данные о всех департаментах и дочерних компаниях. Если вы продаете FinOps как услугу — у вас десятки разных клиентов. Как сделать систему, которая будет работать для всех, оставаясь единой?
Ответ — мультитенантность, подход из мира облачных технологий, когда одна инсталляция обслуживает множество независимых клиентов (тенантов). И каждый из них ничего не знает о существовании прочих. В нашей модели это выражается в иерархии сущностей:
Реселлер — поставщик FinOps-услуг. Это может быть внутренний ИТ-департамент крупной корпорации или внешняя компания.
Клиент — тот, кто потребляет FinOps-услугу. У каждого клиента в рамках одного реселлера свой «личный кабинет» (клиентская панель управления) и своя инфраструктура, подключенная к этому «кабинету».
Объект — любой элемент инфраструктуры, состоящий из произвольного набора ресурсов, необходимых для создания или существования этого объекта (инфраструктурные ресурсы, вычислительные ресурсы, облачные ресурсы и т.п. — это все понятия-синонимы). Объекты могут быть связаны между собой (например, объект «диск» связан (входит в состав) с объектом «сервер», или несколько объектов «вычислительный узел» связаны (входят в состав) с объектом «вычислительный кластер» и т.п.).
Подключение — инфраструктура клиента, имеющая некоторый технологический тип (Яндекс.Облако, AWS, VMware vSphere, Proxmox…) или не имеющая такого типа. От уточнения типа подключения могут зависеть некоторые алгоритмы сбора и обработки данных, поэтому это важный параметр.
Такая «мультитенантная» архитектура позволяет изолировать данные клиентов (потребителей FinOps-услуг), настраивать разные правила и стилистику пользовательского интерфейса для каждого реселлера (поставщика FinOps-услуг) и строить отчеты в любом разрезе — от всего холдинга до отдельного виртуального дата-центра.
Три кита: событие, объект, ресурс
Данные о структуре, расходах, полученных (установленных) и оплаченных мощностях приходят из биллинговых систем.
Данные о нагрузке (фактическом использовании купленного) приходят из мониторинговых систем. Задача FinOps-системы — все это собрать, обогатить и связать. Для этого рассмотрим еще 3 категории сущностей:
Событие — фиксация того, что произошло с инфраструктурой (объектами) в разрезе финансовых расходов и использования оплаченного. Нас интересуют два типа событий:
— Биллинговое событие: «за период X мы получили N единиц ресурса Y объекта Z и оплатили K единиц по такой-то цене, на такую-то сумму (иногда получение может быть явно не связано с оплатой)».
— Событие нагрузки (метрика): «в момент X ресурс Y объекта Z использовался на A% или на B единиц».
Объект (в терминах ITSM/ITIL — конфигурационная единица/configuration item) — то, из чего состоит наша инфраструктура, за что мы несём расходы и за чем мы наблюдаем: виртуальная машина, сервер, база данных. Напомним, что объекты могут быть связанными друг с другом: кластер →хост → диск.
Ресурс — то, что необходимо для создания или функционирования объекта, использование чего измеряется в каких-то единицах (CPU, RAM, диск) и за что мы обычно платим. Объект — это «черный ящик», а ресурсы — его «внутренности».
Модель биллинговых событий: кто и за что платит?
Просто взять счет от облачного провайдера и занести его в базу недостаточно. Для анализа нужно знать, за что именно платишь и к чему это относится. Рассмотрим необходимые атрибуты биллингового события:
|
Атрибут |
Что фиксирует |
|
Когда |
Временная метка (период списания или начисления платы) |
|
Что |
Какой ресурс получен или оплачен |
|
Сколько было поставлено |
Количество единиц ресурса, которые были выданы или установлены в объект (установленная мощность) |
|
Сколько к оплате |
Количество единиц ресурса было использовано в периоде из установленного объема, цена за единицу, фактическая стоимость (может отличаться от расчетной из-за скидок) |
|
Для чего |
Какой объект использует этот ресурс |
|
Где |
Место размещения объекта (возможна древовидная иерархия мест размещения) |
Существует международная модель сбора биллинговой информации — Focus (FinOps Open Cost & Usage Specification). Наши требования в целом соответствуют ей, но есть важные различия: в модели Focus иерархия объектов и мест размещения более плоская, чем требуется для сложных инфраструктур с глубокой вложенностью (например, VMware vSphere с семью уровнями).
Модель данных о нагрузке: проценты или ядра?
Данные о нагрузке — это ответ на вопрос «насколько эффективно мы используем купленное?». Мониторинговые системы могут выдавать данные в натуральных единицах (например, «3 ядра CPU загружены») или же в процентах («30% от установленной на объект мощности используется»). При этом в модели данных необходимо предусмотреть два отдельных поля: value_units и value_percent, чтобы избежать ошибок при анализе.
Контроль качества данных: от хаоса к порядку
Управление качеством данных (Data Quality) — это одна из основ аналитической системы, где качество данных оценивается по четырем критериям:
1. Полнота: Все ли ожидаемые файлы загружены? Все ли обязательные поля заполнены?
3. Достоверность: Соответствуют ли данные форматам (валидность) и справочникам (соответствие)? Например, пришел ли тип объекта из нашего справочника типов?
4. Своевременность: Загружены ли данные к установленному сроку?
5. Непротиворечивость: Не нарушена ли логика? Например, дата списания денег не может быть раньше даты создания объекта (если только это не предусмотрено бизнес-правилами).
При обнаружении нарушении возможны два подхода:
— Жесткий: ошибочная запись аварийно завершает весь ETL-процесс.
— Мягкий: ошибка фиксируется в специальном журнале событий контроля качества данных, ETL-процесс продолжает свою работу, игнорируя ошибочные данные.
Поэтому так важен журнал нарушений, в котором запись должна содержать все ключевые данные: дата и время, код процесса, код правила, что было не так, фактическое значение, признак результата (жесткий/мягкий).
Таблицы фактов и измерения
Основа аналитической системы, построенной на базе пространственного моделирования, — таблица фактов. Каждое событие (биллинговое или нагрузочное) — одна строка в этой таблице. Таблица фактов фиксирует как числа (количество, цена, стоимость, значение нагрузки), так и контекст: ссылки на таблицы-справочники (dim_date_id, dim_resource_id, dim_object_id, dim_location_id).
Типы таблиц фактов:
1. Транзакционные — фиксируют завершенное событие (списание денег). Это основной тип.
2. Периодические моментальные снимки (счетчики) — фиксируют состояние на момент времени (показания нагрузки).
3. Накопительные моментальные снимки — фиксируют прохождение процесса по шагам (жизненный цикл заявки). Это единственный тип, где допускается обновление существующей записи.
Схема «Звезда» (Star Schema): в центре — таблица фактов, вокруг — таблицы измерений, связанные с ней через идентификаторы. Это оптимальный компромисс между скоростью работы (минимум JOIN-ов) и гибкостью. Важное отличие от обработки транзакций в реальном времени, здесь измерения — это не те же самые сущности, что в OLTP. Это просто списки уникальных значений контекста. Их назначение — фильтровать, группировать и давать названия.
Схема «Снежинка» (Snowflake): когда таблицы измерений начинают ссылаться на другие таблицы. Рекомендация: избегать этого, если есть возможность. Это усложняет работу BI-инструментов, хотя на небольших объемах может быть приемлемо.
Виды измерений:
Согласованные измерения — один и тот же справочник используется в разных таблицах фактов и его назначение, смысл и содержание согласован во всех бизнес-подразделениях. Это позволяет строить «галактику» — связывать данные из разных источников (например, расходы и нагрузку) по общим осям.
Измерение «Свалка» (Junk Dimension) — сборник комбинаций низкокардинальных атрибутов (статусы, флаги). Вместо десятка столбцов-флагов в таблице фактов вы создаете один справочник комбинаций. Это уменьшает размер таблицы и ускоряет работу.
Вырожденное измерение — атрибут, который не имеет собственной таблицы справочника (номер счета-фактуры, ИНН, серийный номер). Он хранится прямо в таблице фактов как строка. Такое измерение не нужно нормализовывать, потому что каждое значение уникально.
Измерение «Дата-время» — самый мощный и настоятельно рекомендуемый теорией справочник. В нем хранятся не просто даты, а все возможные атрибуты:
— день недели, номер недели в году;
— признак выходного/праздничного дня;
— квартал, месяц, декада;
— сезон (зима, весна, лето, осень);
— часть дня (утро, день, вечер, ночь);
— час, минута, секунда.
Наличие такого справочника позволяет строить сложную аналитику без дополнительных вычислений на лету — например, сравнить расходы в выходные и будни или найти корреляцию с временем суток.
Заключение: ваша первая «звезда» на пути к FinOps
Построение системы учета расходов начинается не с подключения API облачного провайдера, а с проектирования модели данных. Без правильного фундамента любая надстройка будет шаткой.
1. Мультитенантность — это база. Реселлеры, клиенты, подключения — эта иерархия позволяет масштабировать систему на любое количество потребителей.
2. Разделяйте биллинг и нагрузку. Это два разных типа событий с разными источниками, разными атрибутами и разными методами анализа.
3. Стройте «звезду». Таблица фактов с числами и набор таблиц измерений с контекстом — это архитектурный паттерн, проверенный десятилетиями.
Описанная архитектура легла в основу Клаудмастер. Мы спроектировали платформу так, чтобы она выдерживала иерархию любой сложности: от небольшого стартапа до гигантских холдингов с сотнями дочерних компаний.
Узнайте больше о том, как Клаудмастер выстраивает FinOps-процессы, на примере наших кейсов.
ссылка на оригинал статьи https://habr.com/ru/articles/1035562/