EXPF – математическая статистика и эксперименты

Адрес канала:

Категории: Образование , Познавательное

Язык: Русский

Количество подписчиков: 4.07K

Описание канала:

Канал про эксперименты, статистику и анализ данных
Мирмахмадов Искандер - @iskndr_m
Черемисинов Виталий - @vitche
A/B платформа Sigma – https://expf.ru/sigma
Консалтинг – https://expf.ru
Курс по экспериментам - https://expf.ru/ab_course

▲ Vote (1)

Рейтинги и Отзывы

3.50

2 отзыва

Оценить канал exp_fest и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 2

2022-06-10 11:49:08 Наиболее цитируемые статьи по экспериментам

Ronny Kohavi составил список самых цитируемых статей по экспериментам и перечислил их в спредшите.

Все статьи отсортированы по цитированию, разделенному по годам с момента публикации

https://docs.google.com/spreadsheets/d/1PAWG7NWVEwAwwfrd9b-V5o5q4nB6i67N2ITrzyrIdP0/edit#gid=0

1.3K viewsIskαnder, 08:49

Открыть/Комментировать

2022-06-08 12:40:43 Winner’s Curse: Bias Estimation for Total Effects of Features in
Online Controlled Experiments

Еще раз про bias, но не про novelty effects, heavy users и т.п..

В один момент могут проводиться десятки-сотни экспериментов, и в прод идут только с успешным вердиктом. Совокупный эффект этих экспериментов может быть завышен, если смотреть на их комбинацию «влоб». В пейпере приводится метод, позволяющий избавиться от bias’а и узнать total true effect

https://www.kdd.org/kdd2018/accepted-papers/view/winners-curse-bias-estimation-for-total-effects-of-features-in-online-contr

https://dl.acm.org/doi/pdf/10.1145/3219819.3219905

951 viewsIskαnder, edited 09:40

Открыть/Комментировать

2022-06-06 12:26:16 Using Back-Door Adjustment Causal Analysis to Measure Pre-Post Effects

Еще один метод для оценки влияния новых изменений без запуска A/B. Суть Back-Door Adjustment заключается в правильном подборе ковариат для оценки влияния целевого изменения на метрику. Помимо этого необходимо брать одинаковый период по pre- и post- периодам (например, 14 до публикации изменений и 14 после). Здесь главное правильным образом подобрать ковариаты, чтобы учесть факторы, влияющие на метрику кроме тестируемого изменения

В статье приводится пример с быстрой отладкой приложения. Эксперимент держать дорого, поэтому изменения публикуют на 100% пользователей и потом уже оценивают влияние на метрики.

Сама статья обзорная с кейсом без приведения источников, формул и т.п. По второй ссылке можно почитать подробнее про Back-Door Adjustment, а по третьей еще ноутбучек

https://doordash.engineering/2022/06/02/using-back-door-adjustment-causal-analysis-to-measure-pre-post-effects/

https://medium.data4sci.com/causal-inference-part-xi-backdoor-criterion-e29627a1da0e

https://github.com/DataForScience/Causality/blob/master/3.3%20-%20Backdoor%20Criterion.ipynb

456 viewsIskαnder, 09:26

Открыть/Комментировать

2022-05-30 11:59:17 Несколько статей для тех, кто собрался делать свою экспериментальную платформу:

- Overlapping Experiment Infrastructure:
More, Better, Faster Experimentation
- From Infrastructure to Culture: A/B Testing Challenges in
Large Scale Social Networks
- Designing and Deploying Online Field Experiments
- Our evolution towards T-REX: The prehistory of experimentation infrastructure at LinkedIn

926 viewsIskαnder, 08:59

Открыть/Комментировать

2022-02-17 12:59:37 Какие алгоритмы хэширования лучше работают при сплитовании?

Таким вопросом мы совсем недавно задались. Самым популярным на текущий момент является старый добрый MD5. Почему? Просто никто не запаривается что выбрать. MD5 выбирают, потому что его легко заимплементить и он обладает нужным свойством детерминированности. По крайней мере, мы знакомы с десятками разных больших компаний, где он используется. Поэтому вопрос о том что выбрать не стоИт.

Однако, мы натолкнулись на статью, где сраниваются разные алгоритмы, в том числе и MD5. Из нее следует, что равномерность бакетов, которые дальше играют ключевую роль в равномерности распределения пользователей между ветками и экспериментами, зависит от их количества (тут Америку не открыли). И чем выше, тем лучше: 50 работают хуже, чем 100. Правда, тоже не было замечено, что кто-то берет именно такое число. Нормальный диапозон находится в отметке 1000-10000, что позволяет брать сотые доли трафика и получить нужную равномерность при >миллионном MAU.

Помимо того, что пользователи должны быть распределены согласно мат.ожиданию (50/50, например) и попадать в ту же ветку при повторном посещении сайта (свойство детерминированности), автор еще отмечает отсутствие корреляции между параллельными экспериментами (один эксперимент не должен влиять на вероятность того, что он будет назначен в каком-либо варианте в любом другом эксперименте) и монотонное нарастание пользователей в ветке без изменения в уже определившихся пользователей в соответствующей ветке. И бонусом – скорость, которую Microsoft отмечают как фактор эффективности алгоритма.

И вот MD5 тут проигрывает SpookyHash, входящий в семейство хеш-функций Дженкинса на ~50% по скорости. Было бы интересно среди прочих увидеть бенчи MurmurHash2, который тоже используют для сплитовщиков.

747 viewsIskαnder, 09:59

Открыть/Комментировать

2022-02-15 12:17:51

Когда останавливать A/B-тест? Часть 2: Monte Carlo

Мы написали вторую часть статьи по планированию времени на проведение эксперимента. На этот раз речь пойдет про метод Монте-Карло. Он универсален для любых метрик и любых статистических критериев (включая ранговых). В статье подсвечиваются моменты, в которых он лучше аналитического подхода по расчету MDE, а также с кодовыми примерами

Читать статью на медиуме

535 views09:17

Открыть/Комментировать

2022-02-10 16:24:57 Десятый и можно сказать юбилейный поток интенсива EXPF по A/B тестам пройдет с 15 марта по 29 марта.

Что будет нового
1. Обновление и дополнение программы
2. Большая Q&A сессия с преподавателями
Билеты уже в продаже и их достаточно, чтобы успели все желающие.
Ссылка на регистрацию – https://expf.ru/ab_course
Промокод для подписчиков канала на 3 000 руб. – expf10

Программа

15 МАРТА, 19:00–21:00
-Какие бывают эксперименты: типы экспериментов, типы метрик и обзор тем курса
-Описательные статистики: дисперсия, стандартное отклонение, квадратичная ошибка и ЦПТ

17 МАРТА, 19:00–21:00
-Обзор классических статистических критериев: параметрические и непараметрическиеA/B/X-тестирования и множественная проверка гипотез

22 МАРТА, 19:00–21:00
-Способы определения минимального объема выборки и расчет MDE
-A/B/X-тестирования и множественная проверка гипотез

24 МАРТА, 19:00–21:00
Бутстрап: повторные выборки и квантильная оценка метрик
Нормализация и трансформирование метрик
Методы проверки качества систем сплитования: A/A-тестирования

29 МАРТА, 19:00–21:00
Ускорение экспериментов: CUPED и стратификация
Увеличение чувствительности ratio-метрик

749 views13:24

Открыть/Комментировать

2022-02-07 20:15:19 Как раскатывать фичи в A/B с помощью подхода CRL

Все мы привыкли, что фазы раскатки фичи в A/B следуют планомерному увеличению траффика по ходу эксперимента (например, с 1% до 100%). В этом подходе мы хотим учесть, что на маленькой доле траффика много не потеряем на случай, если вдруг целевые метрики просели. Если все ок, то выкатываемся на полную. Такой подход понятен, он работает как часы. Однако, в таком подходе все равно всегда есть риск, что плохой эффект заметен будет не сразу, а чуть погодя. В первую очередь это может коснуться метрик лояльности (например, spu – sessions per user)

В Microsoft и других крупных компаниях практикуется альтернативный подход, в котором фазы лишь условно следуют этому правилу. Подход именуем как Controlled Rollout (CRL). Условность в том, что раскатка зависит не от доли траффика, а от аудитории. Пользователей можно поделить на 4 сегмента: Dogfood, Internal, Insiders, Production.

- Dogfood – по сути внутренняя разработка, оунеры фичи и интересанты
- Internal – внутренние сотрудники, которые могут исчисляться сотнями или тысячами в зависимости от размера компании
- Insiders – внешние пользователи/потребители продукта, которые ранее проявляли интерес к новшевствам сервиса и готовые получать их как можно раньше
- Production – все внешние пользователи

Для каждой аудитории выделены свои критерии и чекеры, говорящие об успешной фазе раскатки и не везде нужно ориентироваться на целевые (OEC) метрики, как это принято при поэтапной раскатке, постепенно увеличивая долю траффика. Что это за метрики и как устроена методология – можно почитать в пейпере

1.6K viewsedited 17:15

Открыть/Комментировать

2022-02-03 11:59:27 16 февраля пройдет online митап EXPF x Skyeng

Поговорим про метрики, эксперименты и инструменты автоматизации.

Во сколько – c 18:00 до 19:30
Кто – SkyEng, EXPF, CберМегаМаркет

Программа

18:00–18:30
Как выстраивать отдел аналитики
Михаил Морозов, Chief Analytics Officer skyeng

18:30–19:00
Мифы и реальность в А/Б
Искандер Мирмахмадов, co-founder EXPF

19:00–19:30
Разработка внутренней платформы экспериментов и работа с метриками
Анна Хряпина, менеджер по продукту платформы экспериментов СберМегаМаркет
Ажар Сарбасова, продуктовый аналитик СберМегаМаркет

Ссылка на регистрацию – https://expf.ru/expf_skyeng

1.0K views08:59

Открыть/Комментировать

2021-11-11 14:55:46

Митап EXPF x Delivery Club

На митапе обсудим:
1.Инструменты моделирования качества метрик и статистических инструментов
2.Поиск точек роста в продукте
3.Альтернативные способы сплитования в экспериментах

Где: online
Когда: 25 ноября 2021 с 18:00

Среди спикеров представители AVITO, EXPF, Delivery Club, Ситимобил

Регистрация – https://expf.ru/expf_dc
Информация о актуальных и прошедших событиях – https://expf.ru/events

680 views11:55

Открыть/Комментировать