Получи случайную криптовалюту за регистрацию!

Нам часто приходится работать с множественными цифрами. И когд | Products | People | Process

Нам часто приходится работать с множественными цифрами. И когда их много - мы часто начинаем оперировать средним арифметическим. Какие диверсии нас ожидают на этом пути?

1) Парадокс №1. Мой школьный учитель говорил: У вас есть 1 курица, у меня 3 курицы. В среднем у нас 2 курицы. НО! Он не сказал, что ни у одного из нас нет 2х куриц. К чему это я?
В 1950х годах ВВС США захотели улучшить эргономику кабины пилота, замерили 4000 пилотов, усреднили и … обнаружили, что результат будет неудобен всем 4000 этих пилотов. Никто из них не оказался тем “средним пилотом”, под которого была сделана кабина. И даже ослабив статистику с 10 замеров до 3х - выяснилось, что только 3% пилотов попадали в средние значения по ним. Один из многочисленных пересказов истории. Таким образом ориентация на среднего пользователя может нас сильно подвести и я в такой ситуации когда-то давно оказался.

Имея малую группу пользователей с характеристикой=1000 и огромную группу с характеристикой=1, кто-то сделал заключение, что в среднем этой характеристики 10 и надо на это ориентироваться. Надо ли пояснять, что результат не зашел ни первой группе, ни второй?

2) Парадокс №2. Положим, что мы повысим средний параметр в каждой из подгрупп. Что произойдет со средним во всей группе? Как насчет, что он, например, упадет?

Вот пример (не мой, но наглядный)
Положим, у нас три группы - учителя, топ менеджеры и доктора наук. В каждой из групп установим число женщин и мужчин, а так же определим зарплату следующим образом:

> Учителя:
> М: 1200 человек, з\п 1800 у.е.
> Ж: 4900 человек, з\п 1850 у.е.
>
> Топ менеджеры:
> М: 15 человек, з.п. 120000 у.е.
> Ж: 10 человек, з.п. 130000 у.е.
>
> Доктора наук:
> М: 700 человек, з.п. 2300 у.е.
> Ж: 650 человек, з.п. 2350 у.е.


Что мы видим? В каждой из групп у женщин з.п. выше, чем у мужчин.
Теперь берем, и считаем среднее "по больнице”:
М: (1200 x 1800 + 15 x 120000 + 700 x 2300) / (1200 + 15 + 700) = 5570000 / 1915 = ~ 2908.6 у.е.
Ж: (4900 x 1850 + 10 x 130000 + 650 x 2350) / (4900 + 10 + 650) = 11892500 / 5560 = ~2138.9 у.е.
И вот получаем, что у женщин в целом в среднем зарплата ниже, хотя в каждой подгруппе зарплата выше. Не интуитивно, правда?
А весь секрет в том, что намного большая доля женщин оказались в низкооплачиваемом сегменте.

DISCLAIMER: пример выдуманный и не стоит от него переходить к гендерным или социальным проблемам. Хотя вы можете воспользоваться этим принципом, когда будете что-то такое исследовать

Это называется парадокс Симпсона и одной из его практических ситуаций было расследование причин, почему при приеме в университет Беркли предпочитали статистически мужчин. И оказалось, что факультеты по отдельности предпочитали статистически женщин…

Надеюсь, эти парадоксы наглядно демонстрируют, что пользоваться средним арифметическим в выводах надо крайне осторожно. По большому счету, он годится строго для масштабирование потребления с одной выборки на другую при условии их равной структуры (репрезентативности).

Если будет интересно, то я позже затрону еще несколько возможных ошибок в численном анализе проблем