2021-07-19 14:05:24
Анализ методологии проекта
В этот раз начнем с разбора методологии, чтобы потом можно было проанализировать результаты.
Разберем, как могла быть создана прогнозная модель текучести и какие факторы лежат в ее основе.
Компания взяла необходимые данные из различных источников: штатное расписание, списки уволенных и принятых сотрудников, пропускная система, учет рабочего времени, почтовая переписка и динамика общения, социально-демографические характеристики; зарплата и карьерные перемещения и тд.
В зависимости от источников объем данных составлял от 5 до 120 тысяч строк в Excel. Период измерения: квартал.
На основе собранных данных были сформированы факторы для создания предиктивной модели:
отклонение стажа в компании от среднего стажа на предыдущем месте работы;
среднеквадратичное отклонение возраста в подразделении;
разница в возрасте с руководителем;
блок, к которому относится сотрудник;
факт смена руководителя;
динамика продолжительности нахождения в офисе;
стаж работы в компании;
пол;
категория образования;
статус назначения;
количество штатных единиц - динамика;
грейд и тд.
Для формирования модели были использованы следующие алгоритмы: Ubuntu, Python, библиотеки SHAP – интерпретация моделей и выявление изменений в независимых переменных; XGBoost – дерево решений; Scikit-learn – построение регрессионных моделей.
Результаты прогноза по каждому сотруднику выводятся на BI-платформе Qlik.
Теперь вынуждена немного погрузить вас в основы машинного обучения. Для формирования прогнозных моделей необходимо сформировать две выборки. Первая -
учебная выборка, на которой алгоритм учится и рассчитывать необходимые коэффициенты для создания прогнозов. Вторая -
тестовая выборка, на которой проверяются точность созданной модели.
При работе с предиктивными моделями есть риск “переобучить” модель на учебной выборке, то есть включить большое количество факторов и заставить модель подстроиться под текущие данные. Тем самым сделать точность очень высокой - более 70%.
Но если проверить получившуюся модель на второй, тестовой выборке, точность прогнозирования модели может упасть.
Выныриваем и, надеюсь, вы еще со мной
В результате созданная модель формирует по каждому сотруднику ключевые факторы, влияющие на риск его увольнения. Факторы для всех сотрудников одинаковые, но их важность будет для каждого разная.
Может показаться, что применение прогнозных моделей текучести с точностью выше 70% исключает любые сомнения в их ошибках. Однако, напоминаю вам, что модель строится и измеряется на выборке и потом переносится на всех остальных сотрудников. После такого переноса точность может значительно снизиться.
Давайте разберем на примере, как может работать такая модель и к каким результатам привести.
Представим, что модель сообщает руководителю, что его подчиненный Иванов через 3 месяца уволится с точностью 84%. Сотрудник является ценным для компании.
Руководитель видит факторы, которые больше всего влияют на вероятность его увольнения. Например, сотрудник стал меньше времени проводить в офисе. Кроме того, сотрудник давно не проходил никакого обучения из-за загруженности на рабочем месте. Эти два фактора, по мнению модели, повышают риск его увольнения.
Чтобы удержать сотрудника, руководитель решил обратить на него больше внимания, а также отправить на обучение.
Внимание руководителя может повысить лояльность сотрудника, что само по себе прекрасно. Но действительно ли был риск реального увольнения? Действительно ли руководитель смог удержать сотрудника и тем самым сэкономил компании денег на замене персонала?
При применении подобных моделей срабатывает “эффект наблюдателя” - куда направлено внимание, там показатели улучшаются. Как бы сложилась ситуация с сотрудниками с высоким риском увольнения, если бы на них руководители не обратили внимание, сказать невозможно.
Оценить вклад прогнозной модели в удержание ценных сотрудников мог бы коэффициент нежелательной текучести, о котором мы поговорим в разделе, посвященном анализу результатов.
78 views11:05