2021-10-11 14:55:26
Про АБ-тестыДля многих аналитиков анализ АБ-тестов занимает значительную часть рабочей деятельности. Для проформы. АБ-тестирование - метод исследования, при котором показатели одной или нескольких тестовых групп, в которых присутсвуют изменения, сравниваются с показателями контрольной группы, в которую изменения не вносились.
Например, есть страница сайта по аренде недвижимости. Заходя на сайт, пользователи видят строку поиска по адресу/городу/району. Может быть, будет лучше, если пользователей будет встречать карта местности? Для ответов на такие вопросы проводят АБ-тесты. Под тест выделяют определенный процент аудитории (скажем, 10% всех заходящих на сайт пользователей), который разбивают поровну между контрольной и тестовой группой. Контрольная группа, заходя на сайт, видит строку с поиском. Тестовая группа видит карту с отмеченными объектами недвижимости.
Что происходит в отделе аналитики? Выбирается показатель - в данном случае уместно, допустим, рассмотреть конверсию из посещения сайта в заявку - и анализируется, насколько он различается в контрольной и тестовой группе. Вообще, показатели могут быть разные. Могут быть временные ряды, могут быть накопительные/ненакопительные значения показателей на пользователя, но подход к анализу примерно одинаков.
1. Расчет необходимого кол-ва посетителей в группах. На самом деле, нарушая хронологический порядок событий в посте, этот этап нужно делать перед запуском теста. Он необходим для того, чтобы избежать так называемой
проблемы подглядывания, когда при недостаточном наборе можно ошибочно принять различия между группами за значимые, хотя значимость на самом деле "мигает" от наблюдения к наблюдению. Если набор рассчитан заранее, то нужно единожды посчитать значимость тогда, когда кол-во пользователей в группах достигло заданного значения, а после этого набралось достаточно значений для расчета. Не углубляясь в математику, расчет необходимого кол-ва участников теста можно произвести в одном из онлайн-калькуляторов, например, вот этом.
2. Определение статистической значимости различий. Необходимое кол-во пользователей в тест набрано, тест шел 2 недели, допустим, у нас есть почасовые данные по конверсиям из посещения в заявку, всего 336 значений конверсий в каждой группе. Далее применяя статистические критерии, можно определить, случайные или нет различия в выбранном показателе между группами. Данный пост скорее ознакомительный и направлен на то, чтобы обрисовать общую логику без погружения в математику, но немного статистики тут все равно понадобится, потому что возникает вопрос: а как считать?
2.1. Если показатель имеет
нормальное распределение, применяем t-тест Стьюдента, рассчитываем p-value (можно интерепретировать как вероятность того, что наблюдаемые нами различия случайны). Если p-value оказывается меньше уровня значимости (общепринято 0,05), делаем вывод о том, что различия между группами статистически значимы. Тут стоит, конечно, отметить, что нормальность распределения самого показателя - необязательное требование. Нормальными (согласно ЦПТ) должны быть распределены выборочные средние из наших данных. Но сейчас пока обойдемся такой вот грубой классификацией
2.2. Если распределение показателя
не является нормальным, то тут можно:
а) не анализировать ряд, а свести все к анализу четырехпольных таблиц с помощью критерия Хи-квадрат. Из 10 000 пользователей в группе А конверсию совершили 500 человек, а из 10 500 пользователей в группе Б - 550 человек. Судя по вот таком калькулятору, такие различия не являютя значимыми.
б) использовать bootstrap
в) использовать непараметрические критерии, один из самых распространенных - критерий Манна-Уитни.
Если хотите углубиться подробнее в суть и реализацию t-теста, bootstrap и Манна-Уитни, советую посмотреть вебинар от Анатолия Карпова, ни убавить ни прибавить, там все отлично расписано )
2.0K viewsedited 11:55