Качество данных простым языком

от автора

При подготовке статьи что главное? Источники! А что может быть источником надежнее, чем стандарты ISO? Давайте посмотрим, есть ли стандарты «качества данных»? Есть! ISO/TS 8000 и даже соответствующий ГОСТ 56214. Что ж, читаем определения:

3.1.3 качество (quality): Степень соответствия совокупности присущих характеристик объекта требованиям (3.1.2).

Примечания: 1 Термин "качество" может применяться с прилагательными, такими как "плохое", "хорошее" или "превосходное".

Так. Хватит ГОСТов на сегодня. Итак, есть данные, у них есть качество — характеристика, показывающая степень пригодности данных к использованию, и которое может быть «плохим», «хорошим» или «превосходным». На самом деле, есть 7 основных качественных характеристики: точность, полнота, непротиворечивость, достоверность, своевременность, уникальность и доступность.

  • Точность (Accuracy): Насколько данные соответствуют реальности и не содержат ошибок, такие как опечатки.

  • Полнота (Completeness): Насколько данные полны и содержат всю необходимую информацию. Пример неполных данных — это нулевые значения, или отсутствие улицы в адресе, или номера телефона, или адреса электронной почты.

  • Непротиворечивость (Consistency, которую иногда переводят как «Согласованность»): Согласованность данных между различными системами, причем в едином формате. То есть если у вас в одной системе даты записаны в разных форматах (например, ДД/ММ/ГГГГ и ММ/ДД/ГГГГ) — это нарушает принцип непротиворечивости и может вызвать проблемы в интеграции и анализе данных.

  • Достоверность (Validity): Насколько данные соответствуют бизнес-правилам и ограничениям, определенным для них. Достоверные данные попадают в ожидаемый диапазон и соответствуют указанным критериям. Например, допустимая дата рождения должна попадать в определенный диапазон, а цена продукта должна быть положительным значением.

  • Актуальность (Timeliness): Актуальность данных, насколько они соответствуют действительности. Например, место работы сотрудника и его корпоративная почта.

  • Уникальность (Uniqueness): Насколько данные уникальны и не дублируют друг друга.

  • Доступность (Accessibility): Возможность доступа к данным. Данные могут быть и замечательные, но если к ним нет доступа, то смысла в них мало.

Больше всех меня в этих пунктах смущает «Непротиворечивость». Получается, требования предъявляются не только к самим данным, но и к тому, где и как они хранятся? Да, встречайте новое понятие: «Data Integrity» (целостность данных).
Хотя термины Data Quality и Data Integrity часто употребляются совместно, их значения немного различаются: Data Quality ориентировано на полезность данных и отражает их пригодность для выполнения конкретных задач, а Data Integrity фокусируется на их безопасности, неизменности и целостности данных в процессе их хранения, передачи и обработки. Например, в банковских системах целостность данных гарантирует, что все транзакции выполняются корректно и без потерь.

Итак: у нас есть данные и есть требования к качеству данных. А имея данные и требования к их качеству, мы сможем ими управлять. Как управлять качеством данных, читайте в следующей статье.


ссылка на оригинал статьи https://habr.com/ru/articles/893104/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *