Получи случайную криптовалюту за регистрацию!

​Метрики качества данных Мы уже говорили о подходе к сборке | Клуб анонимных аналитиков

Метрики качества данных

Мы уже говорили о подходе к сборке отчета как к производственному процессу, в котором качество каждой детали имеет значение.

Блог Datapine выделяет следующие критерии качества данных: точность, согласованность, полнота, целостность, своевременность. И вот с помощью каких метрик они оцениваются.

Точность данных – это отношение общего набора данных и данных с ошибками. Этот показатель должен стремиться к 95%. Следует помнить о парадоксе точности, который гласит, что для прогнозной аналитики точность – не лучший показатель.

Согласованнность означает, что любых два значения из разных наборов данных не конфликтуют между собой. К примеру, фонд оплаты труда отдела маркетинга не может превышать общий фонд оплаты труда.

Полнота показывает, достаточно ли информации, чтобы делать выводы. Она определяется количеством незаполненных полей в наборе данных. К примеру, позиция с товаром без кода считается в ведомости недействительной.

Честность - означает, что данные в отчете не искажены намеренно.

Своевременность показывает, насколько данные соответствуют дате и как быстро к ним можно получить доступ.

И еще два важных коэффициента.

Коэффициент ошибок преобразования данных: показывает частоту сбоев операций преобразования.

Затраты на хранение данных: если этот показатель растет, а количество используемых данных остается прежним, это говорит о низком качестве хранимых данных.

Еще одна проблема – приведение данных в плоский вид, пригодный для аналитики. Согласно опросу портала Crowd Flower, обработка и очистка данных занимает 60% времени аналитиков, и 57% считают этот процесс самым скучным занятием.

Про приведение данные в плоский вид можно почитать тут.