Лассо- и ридж-регрессии: интуитивное сравнениеЧтобы понять, зачем нужны эти методы, обсудим дилемму смещения-дисперсии.
Дилемма смещения-дисперсии. Источник
В контролируемой среде у модели может быть два основных источника ошибок.
Смещение — ошибка, связанная с неверными предположениями в алгоритме обучения. Высокое смещение приводит к тому, что алгоритм упускает значимые взаимосвязи между признаками и целью (также называется “недостаточно близкой подгонкой”).
Дисперсия — ошибка, связанная с чувствительностью к малейшим флуктуациям в обучающих данных. Высокая дисперсия заставляет алгоритм моделировать случайный шум обучающих данных (также называется “чрезмерно близкой подгонкой”).
Читать дальше@machinelearning_ru