При подготовке статьи что главное? Источники! А что может быть источником надежнее, чем стандарты ISO? Давайте посмотрим, есть ли стандарты «качества данных»? Есть! ISO/TS 8000 и даже соответствующий ГОСТ 56214. Что ж, читаем определения:
3.1.3 качество (quality): Степень соответствия совокупности присущих характеристик объекта требованиям (3.1.2).
Примечания: 1 Термин "качество" может применяться с прилагательными, такими как "плохое", "хорошее" или "превосходное".
Так. Хватит ГОСТов на сегодня. Итак, есть данные, у них есть качество — характеристика, показывающая степень пригодности данных к использованию, и которое может быть «плохим», «хорошим» или «превосходным». На самом деле, есть 7 основных качественных характеристики: точность, полнота, непротиворечивость, достоверность, своевременность, уникальность и доступность.
-
Точность (Accuracy): Насколько данные соответствуют реальности и не содержат ошибок, такие как опечатки.
-
Полнота (Completeness): Насколько данные полны и содержат всю необходимую информацию. Пример неполных данных — это нулевые значения, или отсутствие улицы в адресе, или номера телефона, или адреса электронной почты.
-
Непротиворечивость (Consistency, которую иногда переводят как «Согласованность»): Согласованность данных между различными системами, причем в едином формате. То есть если у вас в одной системе даты записаны в разных форматах (например, ДД/ММ/ГГГГ и ММ/ДД/ГГГГ) — это нарушает принцип непротиворечивости и может вызвать проблемы в интеграции и анализе данных.
-
Достоверность (Validity): Насколько данные соответствуют бизнес-правилам и ограничениям, определенным для них. Достоверные данные попадают в ожидаемый диапазон и соответствуют указанным критериям. Например, допустимая дата рождения должна попадать в определенный диапазон, а цена продукта должна быть положительным значением.
-
Актуальность (Timeliness): Актуальность данных, насколько они соответствуют действительности. Например, место работы сотрудника и его корпоративная почта.
-
Уникальность (Uniqueness): Насколько данные уникальны и не дублируют друг друга.
-
Доступность (Accessibility): Возможность доступа к данным. Данные могут быть и замечательные, но если к ним нет доступа, то смысла в них мало.
Больше всех меня в этих пунктах смущает «Непротиворечивость». Получается, требования предъявляются не только к самим данным, но и к тому, где и как они хранятся? Да, встречайте новое понятие: «Data Integrity» (целостность данных).
Хотя термины Data Quality и Data Integrity часто употребляются совместно, их значения немного различаются: Data Quality ориентировано на полезность данных и отражает их пригодность для выполнения конкретных задач, а Data Integrity фокусируется на их безопасности, неизменности и целостности данных в процессе их хранения, передачи и обработки. Например, в банковских системах целостность данных гарантирует, что все транзакции выполняются корректно и без потерь.
Итак: у нас есть данные и есть требования к качеству данных. А имея данные и требования к их качеству, мы сможем ими управлять. Как управлять качеством данных, читайте в следующей статье.
ссылка на оригинал статьи https://habr.com/ru/articles/893104/
Добавить комментарий