Что такое нормализация данных и почему? Нормализация (или мас | Machine learning Interview
Что такое нормализация данных и почему?
Нормализация (или масштабирование) данных позволяет всем непрерывным функциям иметь более согласованный диапазон значений. Для каждой функции мы вычитаем ее среднее значение и делим на стандартную ошибку или диапазон. Цель состоит в том, чтобы все непрерывные объекты находились в одном масштабе. Нормализация данных полезна как минимум в трех случаях:
1, для алгоритмов, использующих евклидово расстояние: Kmeans, KNN: разные масштабы искажают расчет расстояния.
2, для алгоритмов, которые оптимизируются с помощью градиентного спуска: функции в разных масштабах затрудняют сходимость градиентного спуска.
3, для уменьшения размерности (PCA): находит комбинации функций, которые имеют наибольшую дисперсию