EXPF – математическая статистика и эксперименты

Логотип телеграм канала @exp_fest — EXPF – математическая статистика и эксперименты E
Актуальные темы из канала:
Interpreting
Gid
آب
Логотип телеграм канала @exp_fest — EXPF – математическая статистика и эксперименты
Актуальные темы из канала:
Interpreting
Gid
آب
Адрес канала: @exp_fest
Неактивный
Категории: Образование , Познавательное
Язык: Русский
Количество подписчиков: 7.03K
Описание канала:

Канал про эксперименты, статистику и анализ данных
Черемисинов Виталий - @vitche (сотрудничество)
Мирмахмадов Искандер - @iskndr_m (гл автор)
A/B платформа Sigma – https://expf.ru/sigma
Консалтинг – https://expf.ru
Курс по A/B - https://expf.ru/ab_course

Рейтинги и Отзывы

3.50

2 отзыва

Оценить канал exp_fest и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

0

4 звезд

1

3 звезд

1

2 звезд

0

1 звезд

0


Последние сообщения

9 июл 2024
Precision-based designs for sequential randomized experiments Для тех кто привык следовать Fixed Horizon или mSPRT дизайну появилась альтернатива от Spotify. В пейпере рассматриваются два типа дизайна и их достоинства перед Sequential Test / FH: - FWCID…
2.5K viewsIskαnder, 09:44
Подробнее
Поделиться:
Открыть/Комментировать
8 июл 2024
Precision-based designs for sequential randomized experiments

Для тех кто привык следовать Fixed Horizon или mSPRT дизайну появилась альтернатива от Spotify. В пейпере рассматриваются два типа дизайна и их достоинства перед Sequential Test / FH:
- FWCID (fixed-width confidence interval design)
- FPD (fixed power design)

В отличие от подхода Wald'а, который принято чаще остальных использовать в качестве инструмента для последовательного тестирования, который отвечает на вопрос "есть ли эффект?", мы хотели бы ответить на вопрос "какова величина эффекта?".

Помимо этого, авторы ссылаются на другие недостатки классического подхода: меньшая мощность, чем у fixed-sample дизайна, а также ожидание конечного рассчитанного времени.

Подкреплено это все симуляциями MC на julia + python

Подробнее изучить на архиве:
https://arxiv.org/pdf/2405.03487
3.0K viewsIskαnder, edited  10:29
Подробнее
Поделиться:
Открыть/Комментировать
20 мая 2024
Самый важный SQL-запрос в моей карьере.

Сегодняшний пост про анализ аб-тестов. Будет полезен всем аналитикам и bi-девелоперам.

Создатель in-house платформы для A/B-тестирования в Авито Данила Леньков делится лайфаком: как свести задачу расчета Minimum Detectable Effect к простому SQL-запросу.

Читайте и делитесь в комметриях своими лайфхаками про анализ #аб!
5.7K viewsIskαnder, 10:20
Подробнее
Поделиться:
Открыть/Комментировать
3 мая 2024
Choosing a Proxy Metric from Past Experiments

Пейпер от Гугла на тему поиска прокси для экспериментов к таргет метрике

Из интересного:
- Авторы вводят свое понимание термина proxy quality. Они ссылаются на то, что в литературе это обычно не подсвечивается, но ничего нового по сути в определении нет. Нужно чтобы была высокая чувствительность и сонаправленность изменений у прокси с таргетом

- Они не выделяют какую-то одну прокси, а предлагают использовать composite proxy metric, которая по сути является набором нескольких ATE, что логично, в целом. Все это сопутствуется оптимизацией шума для получения более высокой чувствительности и направленности

- Ну и показывают результаты на 307 отобранных АБ, где иллюстрируют эффективность подобранной прокси (по их формуле, им удалось достигнуть 0.666 proxy score)

Что мне кажется является упущением в расчете Proxy Score (Detection-Mistake) / Number of experiments where the north star is significant – строгое определение detection и mistake. У Detection знаки прокси и таргета одинаковые, у Mistake разные. Нередко бывает ситуация, если одна метрика падает, то другая, наоборот, будет расти (банально до нельзя – снизил расходы, вышел в плюс в прибыли). Но это так, возможно мелочи.

https://arxiv.org/pdf/2309.07893
7.1K viewsIskαnder, edited  11:27
Подробнее
Поделиться:
Открыть/Комментировать
19 апр 2024
Давно EXPF не проводил митапов и это пора исправлять!

25 апреля с 18:00 до 20:00 по Мск онлайн митап EXPF в партнерстве с прекрасными DataGo!

Традиционно, будем говорить про метрики, эксперименты и автоматизацию.

Программа:

18:00 – 18:30 Как из подручных средств организовать процесс А/В тестирования
Макс Шевченко, Head of Experimentation Platfrom OKKO

18:30 – 19:00 Критерии валидности АБ-тестов
Полина Ревина, руководитель платформы экспериментов СберМаркет

19:00 – 19:30 Поиск Эффективных Прокси-Метрик,
Александр Кузнецов, ведущий аналитик EXPF

19:30 — 20:00 Сбор качественных данных для проведения А/Б тестов
Константин Елисеев, Product manager DataGo!

Зарегистрироваться на мерприятие можно по ссылке:
https://expf.ru/expf_datago
10.0K viewsIskαnder, 12:13
Подробнее
Поделиться:
Открыть/Комментировать
26 мар 2024
Друзья,

По решению организаторов, митап был перенесен на 4 апреля в 18.00 по Москве

Просим прощения за доставленные неудобства

https://sbermarket.timepad.ru/event/2813000/
7.8K viewsIskαnder, 10:43
Подробнее
Поделиться:
Открыть/Комментировать
20 мар 2024
митАп vs митBп

У нас A/B-платформа, а у вас?

28 марта в 18:00 по Москве мы соберемся на онлайн-митап, чтобы поговорить про А/В-платформы, тесты и процессы, с этим связанные.

Вас ждут доклады и панельная дискуссия:

Система автоматического расчёта А/В тестов. Рамиль Чермантеев, руководитель команды аналитиков-инженеров платформы экспериментов СберМаркета, расскажет, что автоматический расчет из себя представляет и с какими трудностями мы столкнулись при его развитии.

Как привести эффекты от A/B-экспериментов к масштабу всей компании? Артем Дронов, аналитик АВ-платформы, Авито, поделится методологией приведения и оценки результатов экспериментов к масштабу всей компании.

Система офлайн-экспериментов. Полина Ревина, и.о. руководителя A/B-платформы в СберМаркете, расскажет о свитчбэк-тестах и тестах в магазинах, сплитование для которых делается офлайн.

Open Talks: Как развивать и масштабировать платформы и процесс проведения экспериментов. Модератор дискуссии со спикерами – Искандер Мирмахмадов, co-founder EXPF.

Регистрируйтесь, чтобы получить ссылку на трансляцию
8.0K viewsIskαnder, 11:30
Подробнее
Поделиться:
Открыть/Комментировать
12 мар 2024
Мы открыли вакансию middle-аналитика в EXPF
Вакансия https://hh.ru/vacancy/82857282

Откликнуться i@expf.ru или в личку @iskndr_m.
Предпочтительно на почту или тг

https://hh.ru/vacancy/94622691
6.2K viewsIskαnder, 13:54
Подробнее
Поделиться:
Открыть/Комментировать
12 мар 2024
P-value Misinterpretations – Annotated References

Основная тема документа - критика и переоценка использования p-value в научных исследованиях, особенно в контексте стат. значимости и доказательства наличия эффектов.

В нем обсуждаются ограничения и потенциальные проблемы, связанные исключительно с опорой на p-value при совершении вердикта, и предлагаются альтернативные пороги стат. значимости для решения проблемы высокого уровня FPR.

Кроме того, подчеркивается важность учета предшествующих шансов и контекста при интерпретации p-value. Документ затрагивает последствия этих обсуждений в таких областях, как психология, биомедицинские исследования и A/B-тестирование

Этот список источник собрал R. Kohavi, не нуждающийся в представлении. По его мнению, пейперы являются наиболее качественными в вопросе интерпретации и использовании p-value. Enjoy.

https://docs.google.com/document/d/11wuWeRn-BZKqI14yodnoGlv6TuVefzML/edit
6.0K viewsIskαnder, 12:32
Подробнее
Поделиться:
Открыть/Комментировать
4 мар 2024
Как мы в EXPF пришли к своему продукту, как выбирать платформу и просто поговорим про эксперименты.

7 марта в 15:00 (по Мск) вместе с Александром Игнатенко обсудим развитие платформ экспериментов

https://marketinganalysis.timepad.ru/event/2805105/
6.7K viewsIskαnder, 13:18
Подробнее
Поделиться:
Открыть/Комментировать
26 фев 2024
Развитие культуры экспериментирования в компании

Совсем недавно мы проводили исследование для одного из клиентов, где необходимо было разработать action-план на будущие кварталы. Один из множества аспектов экспериментирования был культурный аспект.

Для исследования мы нашли десятки источников и я готов поделиться тремя достойными, которые включают в себя ценности, принципы и инструменты, позволяющие драйвить экспериментирование в компании:

The Evolution of Continuous Experimentation in Software Product Development – видение Microsoft затрагивает 3 трэка эволюции экспериментов, в которых 6 категорий: a) Techinical focus of product dev. Activities; b) Experimentation platform complexity; c) Experimentation pervasiveness; d) Engineering team-self-sufficiency; e) Experimentation team org.; f) OEC. Док представляет удобную концептуальную схему эволюции, можно брать на вооружение для понимания "где мы сейчас"

Organising for scaled experimentation – мало кому известная в России компания Vista, в которой сейчас работает Lukas Vermeer (ex. Booking Chief Exp Officer), описывает в этом доке организационную структуру команды экспериментов. Частично идейность перекликается с тем, что описано в Microsoft. А именно внедрение Experimentation Ambassadors в компанию с частичной централизацией в Center of Excellence.

Democratizing online controlled experiments at
Booking.com – в авторах этого пейпера также числится Lukas Vermeer. Материал описывает ценности, обеспечивающие экспериментирование в Booking'е. На мой взгляд к нескольким ценностям отсюда можно придти, только когда все детские проблемы уже решены. Но как полезный источник взглядов выглядит неплохо
10.2K viewsIskαnder, edited  13:51
Подробнее
Поделиться:
Открыть/Комментировать
10 янв 2024
Наиболее цитируемые статьи по экспериментам

Мы в EXPF ведем свою базу знаний по всему, что связано с экспериментированием. Она включает в себя внешние источники, такие как публичные github репозитории и интересные статьи. Очевидно, нам это необходимо для более эффективной реализации проектов, а также для понимания рынка экспериментирования.

Иногда мы заглядываем в открытые сборники с пейперами. Ниже дана ссылка на такой сборник от Ронни Кохави со списком наиболее цитируемых статей от авторитетных авторов.

Эта коллекция регулярно обновляется, поэтому рекомендую также добавить к себе в закладки:

https://docs.google.com/spreadsheets/d/1PAWG7NWVEwAwwfrd9b-V5o5q4nB6i67N2ITrzyrIdP0/edit#gid=224694437
13.8K viewsIskαnder, edited  15:53
Подробнее
Поделиться:
Открыть/Комментировать
28 дек 2023
Increase A/B Testing Power by Combining Experiments & Weighted Z-test

В ситуациях когда несколько раз перезапускается один и тот же эксперимент в разные временные периоды, можно использовать мета-анализ для получения более высокой мощности.

Для этого ebay приводит Weighted Z-test, где вес опредялется как w_i = 1 / SE_i (i – эксперимент).

В статье можно подробнее изучить на примерах как это работает

https://innovation.ebayinc.com/tech/engineering/increase-a-b-testing-power-by-combining-experiments/
10.7K viewsIskαnder, 15:58
Подробнее
Поделиться:
Открыть/Комментировать
22 дек 2023
Lessons learned from running 127,000 experiments

Оптимайзли привели интересную статистику, собранную из 127 тыс экспериментов. Хайлайты приводить не буду, в отчете хорошая и понятная верстка, можно самому изучить

https://www.optimizely.com/the-evolution-of-experimentation/
9.3K viewsIskαnder, 09:02
Подробнее
Поделиться:
Открыть/Комментировать
15 дек 2023
Свершилось невозможное. Google отказался от байесианства в пользу частотки

Это не совсем общая стратегическая позиция, но в Firebase это уже на продакшене. Не прошло и 100 лет (но 10 прошло), мы увидели у них p-value

https://firebase.google.com/docs/ab-testing/ab-concepts?hl=en&authuser=0&_gl=1*1d9asms*_ga*NjcwMDg4NzIyLjE2MTIzNDIwMzY.*_ga_CW55HF8NVT*MTcwMjY1NTg5MC4xMTEuMS4xNzAyNjU2MDQ2LjYwLjAuMA..#interpreting_test_results
10.2K viewsIskαnder, 16:16
Подробнее
Поделиться:
Открыть/Комментировать
11 дек 2023
Как Walmart встроил CUPED в свой экспериментальный пайплайн

CUPED уже не считается каким-то рокет-саенсом и его можно встретить не только в inhouse платформах, но и на рынке SaaS (EPPO, Statsig в пример). Мы уже и сами планируем встраивать CUPED в стат. движок нашей A/B-платформы (EXPF Sigma), который собираемся выпускать совсем скоро.

Возвращаясь к Walmart, всегда интересно почитать разный опыт, особенно большого enterprise.

https://medium.com/walmartglobaltech/how-walmart-leverages-cuped-and-reduces-experimentation-lifecycle-eae2446c2ee4
9.3K viewsIskαnder, 09:02
Подробнее
Поделиться:
Открыть/Комментировать
14 ноя 2023
Data-Driven Switchback Designs: Theoretical Tradeoffs and Empirical Calibration

Новый пейпер про свитчбэк. В этом пейпере подсвечены проблемы связанные с тем, как:
- эксперимент может иметь отложенный эффект
- у событий может быть неравномерная плотность событий
- у событий может быть зависимость друг от друга
- эксперименты могут проводиться параллельно

Некоторые эти проблемы решаются с помощью применения мета-анализа на историческом пуле экспериментов. В пейпере показаны результаты исследования применения этого инструмента и не только:

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4626245
8.0K viewsIskαnder, 16:50
Подробнее
Поделиться:
Открыть/Комментировать
10 ноя 2023
A/B-тестирование с «толстыми хвостами»

Нам часто приходится сталкиваться с метриками, в которых встречаются «толстые хвосты». Все мы знаем, что от них можно избавиться, обрезав величину по Q квантили и добиться большей робастности. Этот подход можно назвать «быстрым, но грязным», т.к. мы тем самым а) снижаем размер выборки, а значит мощность, б) теряем доп. контекст о результатах ценных пользователей

Попался в руки пейпер, где Microsoft предлагают свое видение работы с «толстыми хвостами»:

Авторы предлагают комплексный подход к анализу A/B тестирования, учитывая распределения с толстыми хвостами. Они используют двухуровневую иерархическую модель для описания распределения данных. Вот ключевые моменты их подхода:

Двухуровневая Иерархическая Модель:
Оценка δ_i (дельта контроль-тест) каждой гипотезы (в пейпере это чаще называют идее) в A/B тесте распределена нормально с известной дисперсией, учитывая истинное качество δ_i этой идеи. Эта предпосылка основана на больших размерах выборки в каждом эксперименте, что делает ошибки приблизительно нормально распределенными.

Определение и оценка Распределения:
Они идентифицируют распределение априорных вероятностей качества идей непараметрически как распределение g. Распределение g описывает априорное распределение неизвестного качества гипотез. Это распределение представляет собой вероятность того, что данное изменение будет иметь определенный уровень воздействия или эффективности. Предполагается, что любое распределение вероятностей характеризуется своей функцией, позволяя им определить g из данных различных A/B тестов.

Empirical Bayes:
Авторы используют Empirical Bayes оценщики, где априорное распределение оценивается на основе данных. Они строят оценщики для функций g, которые важны в проблеме A/B тестирования.

https://eduardomazevedo.github.io/papers/azevedo-et-al-ab.pdf
7.6K viewsIskαnder, 13:28
Подробнее
Поделиться:
Открыть/Комментировать
24 окт 2023
How to Accurately Test Significance with Difference in Difference Models

DID давно и заслуженно стал инструментом в джентльменском наборе аналитика, который работает с A/B-тестами. В статье Spotify можно ознакомиться с тем, как и когда они применяют DID у себя. Вот короткое описание проблемы в абстракте:

«… в некоторых случаях проведение A/B тестов невозможно. Например, когда вмешательство представляет собой внешний шок, который мы не можем контролировать, такой как пандемия COVID. Или когда экспериментальный контроль неприемлем, например, во время ежегодной доставки Spotify Wrapped…»

В статье рассматривается 3 подхода к расчету стат. значимости в A/B при применении DID:
- Усреднение
- Кластеризация
- Перестановки

Как пишут авторы: «…тестирование с помощью перестановок сочетает мощность и fpr для данных с небольшим количеством временных рядов, подход с кластеризированными SE лучше подходит для больших данных, а усреднение в целом защищает от fpr, но сильно снижает мощность»

Ссылка на статью
6.9K viewsIskαnder, 13:14
Подробнее
Поделиться:
Открыть/Комментировать
9 авг 2022
Мой близкий друг Саша Сахнов - человек который на мой взгляд лучше всех разбирается в а/б тестах

Еще в далеком 2018 году мы с ним и рядом других людей начали писать на Хабр про А/Б.
Сейчас он запустил цикл статей про А/Б, где каждая статья будет сложнее предыдущей - первая довольно базовая статья про Бутстрап (Обратите внимание на центральный доверительный интервал)

Также интересен небольшой разбор стратификации для повышения чувствительности тестов
Еще можно посмотреть это видео
1.4K viewsIskαnder, 07:38
Подробнее
Поделиться:
Открыть/Комментировать
14 июл 2022
How Airbnb Safeguards Changes in Production
Статья от Airbnb про их процесс выкатки A/B-тестов:

Introduction
По мере того, как Airbnb выросла до компании с более чем 1200 разработчиками, количество платформ и каналов для внесения изменений в наш продукт — и количество ежедневных изменений, которые мы вносим в прод, — также значительно выросло. Перед лицом этого роста нам постоянно необходимо масштабировать возможности обнаруживать ошибки до того, как они попадут в рабочую среду. Однако ошибки неизбежно ускользают от предварительной проверки, поэтому мы также вкладываем значительные ресурсы в механизмы для быстрого обнаружения ошибок, когда они все же попадают в прод. В этом статье мы рассмотрим причины и фундамент системы защиты изменений в рабочей среде, которую мы называем безопасным развертыванием (Safe Deploys). В двух следующих постах будет подробно рассказано о технической архитектуре, о том, как мы применяли ее к традиционным A/B-тестам и развертыванию кода соответственно

https://medium.com/airbnb-engineering/how-airbnb-safeguards-changes-in-production-9fc9024f3446
3.1K viewsIskαnder, 08:00
Подробнее
Поделиться:
Открыть/Комментировать
11 июл 2022
P-values and surprising results
Ron Kohavi

Бывают ситуации, когда заходит речь про интепретацию результатов, многие обращая внимания на p-value неправильно истолковывают его значение. Во многом это связано с тем, как некоторые коммерческие A/B-платформы объясняют своим пользователям, что 1-pvalue – это «уверенность» в победе treatment’а.
В этом пейпере наглядно объясняется к каким результатам может привести неправильная интерпретация p-value

https://onedrive.live.com/view.aspx?resid=8612090E610871E4!415400&ithint=file,docx&authkey=!ACert2pUTlADS44
2.6K viewsIskαnder, 06:48
Подробнее
Поделиться:
Открыть/Комментировать
30 июн 2022
Meet Dash-AB — The Statistics Engine of Experimentation at DoorDash

Как устроена экспериментальная платформа в DoorDash

https://doordash.engineering/2022/05/24/meet-dash-ab-the-statistics-engine-of-experimentation-at-doordash/
3.2K viewsIskαnder, 07:00
Подробнее
Поделиться:
Открыть/Комментировать
27 июн 2022
Анализ рекомендаций до/без А/Б-тестов

Доклад от Ильдара Сафило (МТС) про тестирование рекомендательных систем



3.6K viewsIskαnder, 07:47
Подробнее
Поделиться:
Открыть/Комментировать
20 июн 2022
Кого читать и за чьими обновлениями следить?
Небольшой список ученых, инженеров и дс-ов, кто вносит существенный вклад в развитие экспериментальной отрасли

Ronny Kohavi
Google Scholar https://scholar.google.com/citations?user=O3RYHGwAAAAJ&hl=en
LinkedIn https://www.linkedin.com/in/ronnyk/

Aleksander Fabijan, Microsoft
Google Scholar https://scholar.google.com/citations?user=gXOUJLQAAAAJ&hl=en
LinkedIn https://www.linkedin.com/in/afabijan/

Pavel Dmitriev, Outreach.io (ex-Microsoft)
Google Scholar https://scholar.google.com/citations?user=Fj2OE3QAAAAJ&hl=en
LinkedIn https://www.linkedin.com/in/paveldmitriev/

Alex Deng, Airbnb, ex-Microsoft
Google Scholar https://scholar.google.com/citations?user=lRHv-7kAAAAJ&hl=en
LinkedIn https://www.linkedin.com/in/alex-shaojie-deng-b572347/

Lukas Vermeer, Vista (ex-Booking)
Google Scholar https://scholar.google.com/citations?user=t02wAMMAAAAJ&hl=en
LinkedIn https://www.linkedin.com/in/lukasvermeer/

Jiannan Lu, Apple
Google Scholar https://scholar.google.com/citations?user=wrKPStwAAAAJ&hl=en
LinkedIn https://www.linkedin.com/in/jiannan-lu-70721436/
948 viewsIskαnder, 08:17
Подробнее
Поделиться:
Открыть/Комментировать
17 июн 2022
Experimentation at FARFETCH
Как устроена экспериментальная культура, платформа и что используют в FARFETCH

https://www.farfetchtechblog.com/fotos/editor2/Greg/Experimentation_at_FARFETCH.pdf
1.4K viewsIskαnder, 07:01
Подробнее
Поделиться:
Открыть/Комментировать
16 июн 2022
Как мы научились А/B-тестировать алгоритмы с помощью switchback-тестов

Опыт внедрения switchback’а наших друзей из Delivery Club

https://habr.com/ru/company/deliveryclub/blog/670762/
1.9K viewsIskαnder, 07:02
Подробнее
Поделиться:
Открыть/Комментировать
15 июн 2022
A/B Testing Intuition Busters
Common Misunderstandings in Online Controlled Experiments (Ron Kohavi, Alex Deng, Airbnb Inc, Lukas Vermeer, Vista)

В статье собраны простые рекомендации, которые помогут избежать ошибок при расчетах метрик в A/B, интерпретации результатов и разработке экспериментальной платформы

https://drive.google.com/file/d/1oK2HpKKXeQLX6gQeQpfEaCGZtNr2kR76/view
1.6K viewsIskαnder, 07:02
Подробнее
Поделиться:
Открыть/Комментировать
14 июн 2022
Variance Reduction for Experiments with One-Sided Triggering using CUPED

https://arxiv.org/pdf/2112.13299.pdf
1.5K viewsIskαnder, 09:16
Подробнее
Поделиться:
Открыть/Комментировать
10 июн 2022
Наиболее цитируемые статьи по экспериментам

Ronny Kohavi составил список самых цитируемых статей по экспериментам и перечислил их в спредшите.

Все статьи отсортированы по цитированию, разделенному по годам с момента публикации

https://docs.google.com/spreadsheets/d/1PAWG7NWVEwAwwfrd9b-V5o5q4nB6i67N2ITrzyrIdP0/edit#gid=0
1.3K viewsIskαnder, 08:49
Подробнее
Поделиться:
Открыть/Комментировать
EXPF – математическа... @exp_fest
Открыть в Telegram