Получи случайную криптовалюту за регистрацию!

Кризис репликации и статистическая значимость в A/B тестах В | КриптоГуру

Кризис репликации и статистическая значимость в A/B тестах

В 2015 ученые пытались повторить 100 исследований, опубликованных в престижных журналах психологии. Им удалось реплицировать лишь 40% исследований. Похожие результаты были показаны и в 2018. Данная штука получила название кризис репликации (Replication crisis). Если вы любите статистику, можно почитать презентацию семинара ВШЭ на эту тему: https://social.hse.ru/data/2019/02/02/1202657711/NUGSeminar_PublicationBias.pdf

Одной из причин кризиса репликации принято считать предвзятость публикаций – охват получают лишь те эксперименты, которые привели к статистически значимым результатам. Проблема в том, что перед ними было 100 экспериментов, которые ни к чему не привели, но о них вы никогда не услышите. Это нужно иметь в виду, читая новые кейсы как компания утроила свои конверсии при помощи нескольких простых лайфхаков. На практике, чтобы добиться совершенно других результатов, нужно значительно изменить вводные. Поэтому делайте ваш копирайт и баннеры разными, иначе ваши результаты не будут статистически значимыми и вы не сможете сделать выводы.

Но даже если результаты статистически значимы, это не означает, что они практически значимы. Например, если 2 ваших объявления посмотрели по 1 млн человек каждое, но на первое кликнули 1000 раз, а на второе 1100, ваше P-значение 0,01. Это гораздо ниже общепринятого значения в 0,05 – эксперимент удался и данные значимы. Но на практике это выливается в engagement rate 0,1 и 0,11 соответственно, что не сделает вам погоды, особенно учитывая, что вы только что потратили кучу денег на тесты.