2022-08-15 06:53:53
3 типа аномалий в данных
Дата-аналитики и специалисты по Machine Learning часто сталкиваются с аномалиями в данных – случаями, которые не принадлежат к известному шаблону и выделяются, статистически отличаются от остальных наблюдений. Существует 3 типа аномалий:
• точечная аномалия, когда одна точка данных (наблюдение) в датасете находится далеко от остальных данных и представляет собой экстремум, неравномерность или отклонение, возникающее случайным образом и не связанное с общей закономерностью в данных. Точечная аномалия также известна как глобальный выброс, поскольку она значительно отличается от остального набора данных.
• контекстная аномалия, когда отдельный экземпляр выпадает из рассматриваемого контекста. Например, в случае данных временных рядов, таких как записи определенного количества во времени, контекст является временным. Точки данных, которые сильно отличаются от других данных в том же контексте, называются контекстуальными выбросами. К примеру, когда количество автомобилей, проезжающих через КПП на границе региона в марте, в среднем равно 1 тыс. за последние 20 лет. А в июне, когда стартует отпускной период, это число возрастает до 8 тысяч. Если число достигает 9 тысяч в марте, это будет считаться аномалией, а в летний период – не будет аномалией. Для ритейла характерно наблюдать всплеск числа покупателей в праздничный сезон. Но резкое увеличение продаж вне праздников или распродаж, можно назвать контекстуальным выбросом.
• Коллективная аномалия, когда группа коррелированных, взаимосвязанных или последовательных экземпляров значительно отличается от остальных данных, то эти точки данных в совокупности считаются аномальными. Для данных временных рядов это может выглядеть как типичные пики и спады, происходящие за пределами периода времени, когда сезонная последовательность является обычной, или как набор временных рядов, которые находятся в условиях выброса. Например, когда сразу большое количество компаний демонстрируют падение продаж в одно и то же время, хотя до этого был тренд на повышение.
https://medium.com/datadailyread/types-of-data-anomalies-2f6fb1747eb1
1.0K views03:53