A/B-тестирование с «толстыми хвостами»Нам часто приходится сталкиваться с метриками, в которых встречаются «толстые хвосты». Все мы знаем, что от них можно избавиться, обрезав величину по Q квантили и добиться большей робастности. Этот подход можно назвать «быстрым, но грязным», т.к. мы тем самым а) снижаем размер выборки, а значит мощность, б) теряем доп. контекст о результатах ценных пользователей
Попался в руки пейпер, где Microsoft предлагают свое видение работы с «толстыми хвостами»:
Авторы предлагают комплексный подход к анализу A/B тестирования, учитывая распределения с толстыми хвостами. Они используют двухуровневую иерархическую модель для описания распределения данных. Вот ключевые моменты их подхода:
Двухуровневая Иерархическая Модель:Оценка δ_i (дельта контроль-тест) каждой гипотезы (в пейпере это чаще называют идее) в A/B тесте распределена нормально с известной дисперсией, учитывая истинное качество δ_i этой идеи. Эта предпосылка основана на больших размерах выборки в каждом эксперименте, что делает ошибки приблизительно нормально распределенными.
Определение и оценка Распределения:Они идентифицируют распределение априорных вероятностей качества идей непараметрически как распределение g. Распределение g описывает априорное распределение неизвестного качества гипотез. Это распределение представляет собой вероятность того, что данное изменение будет иметь определенный уровень воздействия или эффективности. Предполагается, что любое распределение вероятностей характеризуется своей функцией, позволяя им определить g из данных различных A/B тестов.
Empirical Bayes:Авторы используют Empirical Bayes оценщики, где априорное распределение оценивается на основе данных. Они строят оценщики для функций g, которые важны в проблеме A/B тестирования.
https://eduardomazevedo.github.io/papers/azevedo-et-al-ab.pdf
7.6K viewsIskαnder, 13:28