Налейте аналитику

Адрес канала:

Категории: Без категории

Язык: Русский

Количество подписчиков: 1.04K

Описание канала:

Мысли вслух лида аналитики ЛитРес, уроки по SQL/Python для новичков и не только, рассуждения о том, как делать надо и главное - как не надо, что должен уметь начинающий аналитик и чем дата-саентист отличается от дата-инженера
karaulovandrey@yandex.ru

▲ Vote (1)

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал naleite и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения

2021-10-11 14:57:55 Налейте аналитику pinned «#дайджест В последнее время все посты выходили по теме разбора простеньких задач из тренажера SQL (уже скоро начнутся задачи поинтереснее), поэтому предыдущие посты немного затерялись, возможно, часть аудитории о них и не знает ) Поэтому небольшой дайджест…»

11:57

Открыть/Комментировать

2021-10-11 14:55:26 Про АБ-тесты

Для многих аналитиков анализ АБ-тестов занимает значительную часть рабочей деятельности. Для проформы. АБ-тестирование - метод исследования, при котором показатели одной или нескольких тестовых групп, в которых присутсвуют изменения, сравниваются с показателями контрольной группы, в которую изменения не вносились.

Например, есть страница сайта по аренде недвижимости. Заходя на сайт, пользователи видят строку поиска по адресу/городу/району. Может быть, будет лучше, если пользователей будет встречать карта местности? Для ответов на такие вопросы проводят АБ-тесты. Под тест выделяют определенный процент аудитории (скажем, 10% всех заходящих на сайт пользователей), который разбивают поровну между контрольной и тестовой группой. Контрольная группа, заходя на сайт, видит строку с поиском. Тестовая группа видит карту с отмеченными объектами недвижимости.

Что происходит в отделе аналитики? Выбирается показатель - в данном случае уместно, допустим, рассмотреть конверсию из посещения сайта в заявку - и анализируется, насколько он различается в контрольной и тестовой группе. Вообще, показатели могут быть разные. Могут быть временные ряды, могут быть накопительные/ненакопительные значения показателей на пользователя, но подход к анализу примерно одинаков.

1. Расчет необходимого кол-ва посетителей в группах. На самом деле, нарушая хронологический порядок событий в посте, этот этап нужно делать перед запуском теста. Он необходим для того, чтобы избежать так называемой проблемы подглядывания, когда при недостаточном наборе можно ошибочно принять различия между группами за значимые, хотя значимость на самом деле "мигает" от наблюдения к наблюдению. Если набор рассчитан заранее, то нужно единожды посчитать значимость тогда, когда кол-во пользователей в группах достигло заданного значения, а после этого набралось достаточно значений для расчета. Не углубляясь в математику, расчет необходимого кол-ва участников теста можно произвести в одном из онлайн-калькуляторов, например, вот этом.

2. Определение статистической значимости различий. Необходимое кол-во пользователей в тест набрано, тест шел 2 недели, допустим, у нас есть почасовые данные по конверсиям из посещения в заявку, всего 336 значений конверсий в каждой группе. Далее применяя статистические критерии, можно определить, случайные или нет различия в выбранном показателе между группами. Данный пост скорее ознакомительный и направлен на то, чтобы обрисовать общую логику без погружения в математику, но немного статистики тут все равно понадобится, потому что возникает вопрос: а как считать?
2.1. Если показатель имеет нормальное распределение, применяем t-тест Стьюдента, рассчитываем p-value (можно интерепретировать как вероятность того, что наблюдаемые нами различия случайны). Если p-value оказывается меньше уровня значимости (общепринято 0,05), делаем вывод о том, что различия между группами статистически значимы. Тут стоит, конечно, отметить, что нормальность распределения самого показателя - необязательное требование. Нормальными (согласно ЦПТ) должны быть распределены выборочные средние из наших данных. Но сейчас пока обойдемся такой вот грубой классификацией
2.2. Если распределение показателя не является нормальным, то тут можно:
а) не анализировать ряд, а свести все к анализу четырехпольных таблиц с помощью критерия Хи-квадрат. Из 10 000 пользователей в группе А конверсию совершили 500 человек, а из 10 500 пользователей в группе Б - 550 человек. Судя по вот таком калькулятору, такие различия не являютя значимыми.
б) использовать bootstrap
в) использовать непараметрические критерии, один из самых распространенных - критерий Манна-Уитни.

Если хотите углубиться подробнее в суть и реализацию t-теста, bootstrap и Манна-Уитни, советую посмотреть вебинар от Анатолия Карпова, ни убавить ни прибавить, там все отлично расписано )

2.0K viewsedited 11:55

Открыть/Комментировать

2021-09-23 19:19:01 Друзья, всем привет ) Давно не было постов на канале по одной простой причине - как ни странно, сейчас банально не хватает времени и оперативки в голове, чтобы уделять время каналу. С сентября я ушел из ЛитРеса, в котором провел почти 6 лет (буду впоминать это время с теплотой), и перешел в другой проект, в рамках которого в скором времени релоцируюсь на Кипр.

Новая компания = новые задачи + терабайты новой информации. По мере того, как в голове будет освобождаться место под что-то еще, регулярность постов будет стабилизироваться.

В связи с последними событиями в жизни, пост будет посвящен советам, как проще адаптироваться на новом месте работы.

1. Морально подготовьтесь к началу работы на новом месте. Моей стратегической ошибкой было то, что между последним днем в ЛитРесе и началом работы в новой компании прошло 2 дня. По возможности, не делайте так, возьмите перерыв хотя бы в неделю. Потому что первые недели (а то и месяцы) на новом месте потребуют куда более интенсивной работы мозга и памяти, чем впоследствии. "Как зовут людей вокруг? Кто чем занимается? Чем я должен заниматься? Где почитать про структуру БД? Как устроен такой-то процесс?" - вопросов будет миллион, а ответы на эти вопросы надо будет запоминать. С другой стороны, отдыхать 3 месяца тоже не стоит: все мы помним еще со школьной парты, как стираются за лето все знания предыдущего года. Оптимальный срок - 1-2 недели, как будто настал очередной отпуск.

2. Не стесняйтесь задавать вопросы всем подряд. Если вы задаете много вопросов - это не значит, что вы туго соображаете. Это значит, что вы хотите во всем разобраться. Даже если вам кажется, что ваши вопросы покажутся глупыми - это вообще никак не должно вас смущать. Лучше задать глупый вопрос, получить на него ответ и навсегда для себя этот вопрос закрыть, чем умолчать, но впоследствии сделать ошибку. Временно забудьте пословицу "Промолчишь - за умного сойдешь". Обычно в мире взрослых воспитанных индивидов люди рады помогать новичкам. Конечно, везде есть грань, почувствовать которую поможет эмоциональный интеллект и здравый смысл, но поверьте, перейти эту грань довольно сложно.

3. Фиксируйте знания. Вы точно забудете 80% информации, полученной устно. Информации поначалу так много, что в голове все уместить нереально. Поэтому конспектируйте, записывайте в блокнот, записывайте видеовстречи. Если вам кто-то что-то объясняет, начинайте встречу с фразы "Я буду тезисно конспектировать, если что, попрошу помедленее". Это поможет вам не задавать одни и те же вопросы.

4. Не вы*бывайтесь. У вас за плечами докторская диссертация, 73 года опыта в похожей сфере и трехзначный IQ - в бизнесе и процессах той компании, куда вы пришли, вы все равно разбираетесь хуже своих новых коллег. Со временем вы органическим образом наберете "вес" и авторитет в компании, если вы действительно хороший специалист. Навсегда стоит забыть фразы "Я в этом разбираюсь лучше", "Вы это так считаете? Какой ужас, все неправильно", "Никто уже давно это не использует, удивлен, что у вас до сих пор Windows Vista", "А у нас вот было вот так вот в сто раз лучше".

5. Уточните максимально четко круг своих обязанностей. Не сделать то, что от вас ждали и делать много "чужой" работы - одинаково плохо. Вы должны как можно четче понимать и дать понять другим, с какими вопросами стоит обращаться к вам, а с какими - не к вам. Хороший руководитель старается этот круг более-менее четко очертить для своих подчиненных, но иногда приходится чертить самому. Главное, как и всегда, не забывать про вежливость.

2.2K viewsedited 16:19

Открыть/Комментировать

2021-09-06 18:03:02 Налейте аналитику pinned «#дайджест В последнее время все посты выходили по теме разбора простеньких задач из тренажера SQL (уже скоро начнутся задачи поинтереснее), поэтому предыдущие посты немного затерялись, возможно, часть аудитории о них и не знает ) Поэтому небольшой дайджест…»

15:03

Открыть/Комментировать

2021-09-06 17:46:01

Что интересно видеть в данном канале?

Anonymous Poll

23%

Разбор задач SQL

10%

Работа в питоне (начальный уровень)

Работа в питоне (продвинутый уровень)

38%

Разбор реальных (или приближенных) аналитических задач

Абстрактные размышления об аналитике (пример - пост о типах аналитиков)

Мемы об аналитике

15%

Всего понемногу

Свой вариант (в комментах)

384 voters1.8K views14:46

Открыть/Комментировать

2021-08-18 14:45:29

Я абсолютно уверен, что тренажер, подсунув эту задачку с небольшой хитростью, обманул сам себя. Пассажир совершил 3 полета, но чтобы получить выполнение задания, нужно в запросе поставить COUNT(*), который вернет для этого пассажира число 4. Ай-яй-яй, тренажер!

2.0K views11:45

Открыть/Комментировать

2021-08-18 14:44:05

Лезем дальше в таблицы. Пропускаю этап, где я определил, что id этого пассажира Passenger.id = 14, и что мы видим по нему в таблице Pass_in_trip? Видим, что на одном рейсе 7771 он купил 2 места! Поэтому COUNT(DISTINCT trip) = 3, а COUNT(*) = 4.

1.7K viewsedited 11:44

Открыть/Комментировать

2021-08-18 14:42:50

В разборе задачи №5 я писал, что COUNT(DISTINCT id) лучше, чем COUNT(*), т.к. помогает в том числе избежать дублей при джоинах. В текущей задаче дублей при джойнах не наблюдается, но все равно пример показательный. Видим, что для пассажира 'Michael Caine' COUNT(DISTINCT trip) дал результат 3, а COUNT(*) = 4.

1.5K viewsedited 11:42

Открыть/Комментировать

2021-08-18 14:38:37

SELECT

p.name,

COUNT(DISTINCT pit.trip) AS count

FROM Pass_in_trip AS pit

JOIN Passenger AS p ON p.id = pit.passenger

GROUP BY p.id

ORDER BY count DESC, p.name ASC

1.4K views11:38

Открыть/Комментировать

2021-08-18 14:37:06

Как уже было упомянуто, задачка интересна тем, что в ней есть ошибка в онлайн-тренажере. Для начала - как бы я решал эту задачу. Запрос несложный, но... неправильный!

1.1K views11:37

Открыть/Комментировать