2022-02-27 15:28:56
Метрики качества данных Мы уже говорили о подходе к сборке отчета как к производственному процессу, в котором качество каждой детали имеет значение.
Блог Datapine выделяет следующие критерии качества данных: точность, согласованность, полнота, целостность, своевременность. И вот с помощью каких метрик они оцениваются.
Точность данных – это отношение общего набора данных и данных с ошибками. Этот показатель должен стремиться к 95%. Следует помнить о парадоксе точности, который гласит, что для прогнозной аналитики точность – не лучший показатель.
Согласованнность означает, что любых два значения из разных наборов данных не конфликтуют между собой. К примеру, фонд оплаты труда отдела маркетинга не может превышать общий фонд оплаты труда.
Полнота показывает, достаточно ли информации, чтобы делать выводы. Она определяется количеством незаполненных полей в наборе данных. К примеру, позиция с товаром без кода считается в ведомости недействительной.
Честность - означает, что данные в отчете не искажены намеренно.
Своевременность показывает, насколько данные соответствуют дате и как быстро к ним можно получить доступ.
И еще два важных коэффициента.Коэффициент ошибок преобразования данных: показывает частоту сбоев операций преобразования.
Затраты на хранение данных: если этот показатель растет, а количество используемых данных остается прежним, это говорит о низком качестве хранимых данных.
Еще одна проблема – приведение данных в плоский вид, пригодный для аналитики. Согласно опросу портала Crowd Flower, обработка и очистка данных занимает 60% времени аналитиков, и 57% считают этот процесс самым скучным занятием.
Про приведение данные в плоский вид можно почитать тут.
3.2K viewsedited 12:28