2021-03-27 12:44:02
Что-то в прошлый раз я с графовыми эмбеддингами зажестил. Сегодня будет более простой и прикладной рассказ – про расчёт размера выборки для эксперимента.
Представим, вы хотите попробовать новую рекламную кампанию. Вы платите по 1 рублю за клик, и зарабатываете, если человек, кликнувший по объявлению, совершил покупку. В уже имеющейся кампании конверсия из кликов в покупки 0.5%, а какая будет в новой – вы не знаете. Вопрос: сколько кликов надо оплатить, чтобы сравнить новую кампанию со старой?
Проблема в том, что «настоящую» конверсию невозможно измерить по данным с абсолютной точностью. Вот допустим 160 человек кликнули на баннер, а сделал покупку – один, то есть 0.625% от всех. Значит ли это, что на миллион кликов придётся около 6250 покупок? Не факт. Интуитивно понятно, что для вывода, что конверсия новой кампании больше 0.5%, 160 кликов мало. Ведь может быть, что нам просто повезло, и на самом деле покупку делает один кликнувший из тысячи. Но сколько кликов – достаточно?
Математическая статистика предлагает удобный инструмент для оценки точности: доверительный интервал. Назовём «настоящую» конверсию буквой p, от слова «probability». Вы оплатили n кликов, из них было m покупок, и средняя конверсия в вашей выборке равна k=m/n. Чисто k обычно не равно p, но чем больше n, тем они ближе друг к другу. И оказывается, если кликов было достаточно много, то интервал k ± 2 sqrt (k(1-k)/n) содержит в себе число p с вероятностью около 95%. Sqrt – это квадратный корень.
[Под капотом у этой формулы биномиальное распределение, у которого дисперсия равна p(1-p)n, плюс понимание, что в больших выборках биномиальное распределение по ЦПТ сходится к нормальному, плюс знание, что 95% нормально распределения сосредоточено в пределах 1.96 стандартных отклонений от среднего. Учите матстат!]
Итак, 95% доверительный интервал равен k ± 2 sqrt (k(1-k)/n). Если n=160 и m=1, то интервал будет примерно 0.6% ± 2 *0.6%, то есть от -0.6% до 1.8%. Как видим, точности недостаточно, чтобы сравнить конверсию с 0.5%.
Проблема в том, что в некоторых случаях нам нужны ооооочень большие выборки, чтобы точно сказать, что конверсия больше целевой. Например, на миллион кликов пришлось 5100 покупок, и тогда 95% доверительный интервал – от 0.496% до 0.524%. А значит, конверсия может быть как 0.5%, так и чуть выше, и даже миллиона кликов мало, чтобы сказать точно.
Поэтому, чтобы запланировать размер выборки, надо заранее решить, насколько большой должна быть конверсия, чтобы мы её могли отличить от 0.5%. Например, можно решить, что разница меньше 0.1% для нас не существенна. Это значит, что нам нужно измерить конверсию с погрешностью не больше 0.1%, а погрешность обычно не больше 2 sqrt (k(1-k)/n). Мы можем подставить вместо k ту конверсию, которую мы ожидаем (например, 0.5%), и тогда у нас останется уравнение с одним неизвестным:
0.1% = 2 sqrt(0.5%(1-0.5%) / n)
497 viewsedited 09:44