Что делать с отсутствующими данными? Ответ сильно зависит от | Machine learning Interview
Что делать с отсутствующими данными?
Ответ сильно зависит от конкретных сценариев, но вот несколько вариантов:
1, удалите недостающие строки / столбцы, если размер набора данных существенно не уменьшится, если их фильтрация не приведет к смещению выборки.
2, используйте среднее значение / медиана / режим для замены отсутствующего значения: это может быть проблематичным, поскольку оно уменьшает дисперсию функции и игнорирует корреляцию между этой функцией и другими функциями.
3, спрогнозируйте значение, построив интерполятор или предсказав их на основе других функций.
4, используйте пропущенное значение как отдельную функцию: возможно, некоторые значения отсутствуют по определенным причинам, которые могут быть полезны для анализа данных.