No Data No Growth | Pavel Bukhtik

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 2.23K

Описание канала:

О карьерном росте при работе с данными и развитии аналитической культуры в компаниях.
Менторю специалистов и руководителей продуктовых компаний.
Для связи: @pbukhtik

▲ Vote (1)

Рейтинги и Отзывы

3.00

3 отзыва

Оценить канал nodatanogrowth и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 2

2023-02-08 10:02:09 4 этапа развития а/б экспериментов в компаниях. Введение.

Эта серия постов базируется на опыте мирового эксперта – Рона Кохави. Он 20+ лет работал в Amazon, Microsoft и Airbnb, где занимался преимущественно построением платформ для а/б экспериментов.

Разработанная им платформа в Microsoft по сей день используется для проведения 25 000+ а/б тестов в год (до 100 новых каждый день).

В своей книге «Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing» Рон выделяет 4 этапа развития а/б экспериментов:

1. Подготавливаются инструменты, и создаются необходимые условия для проведения экспериментов. Результаты по экспериментам обсчитываются вручную. Компания проводит ~1 А/Б тест в месяц (~10 в год).

2. Начинают появляться стандартизированные метрики. А/А тесты и анализ статистической мощности становятся нормой. Компания начинает использовать готовые решение для автоматизации проведения А/Б или появляются зачатки самописного решения. Тесты проводятся каждую неделю (~50 в год)

3. Имеется исчерпывающий набор и понимание метрик. Также они становятся более абстрактными: появляются метрики “лояльности”, “успеха” и другие. Завершенные А/Б тесты начинают использоваться для извлечения знаний из них. Появляются автоматические алерты на инциденты. Ведется работа над созданием общего критерия оценки экспериментов – единой составной метрики, которая учитывает в себе компромиссные взаимосвязи метрик. Эксперименты запускаются каждый день (~250 в год)

4. Обнаружение влияния одного эксперимента на некоторый другой происходит автоматически. Остановка а/б теста в случае инцидента также автоматизирована и происходит в реальном времени. Общий критерий оценки экспериментов стабилен и лишь периодически дорабатывается. На этом этапе проводится 1000+ экспериментов в год.

В следующих постах я остановлюсь и расскажу детальнее о каждом из этапов.

Кто не готов довольствоваться выжимкой из книги Рона и статей, на которую она ссылается, крайне рекомендую книгу к самостоятельному ознакомлению.

#продуктоваяаналитика #абтесты

822 viewsПавел Бухтик, edited 07:02

Открыть/Комментировать

2023-02-07 10:32:45

Если оператор SELECT выполняется после HAVING, а ORDER BY — после SELECT, почему тогда запрос на картинке выполнится корректно?

В прошлом посте я рассказал о порядке выполнения SQL запросов.

Напомню, что порядок выполнения операторов в SQL следующий: FROM → WHERE → GROUP BY → HAVING → SELECT → ORDER BY → LIMIT.

Да, существуют СУБД, для которых выполнение запроса на картинке вернет ошибку (например, в старых версиях MySQL). Но есть и те, для которых эти запросы будут корректными, и для них будут возвращены адекватные результаты (например, в ClickHouse).

Как считаете, за счет чего это возможно и как это работает?

#задачи #sql

703 viewsПавел Бухтик, edited 07:32

Открыть/Комментировать

2023-02-06 11:55:11 ~80% начинающих аналитиков не знают порядок выполнения SQL запроса на собеседовании.

Это число я получил на основе проведения 200+ собеседований кандидатов на позицию продуктового аналитика и mock-интервью со своими менти.

Задумайтесь на минутку об одном из последних своих запросов. В каком порядке у него выполняются операторы SELECT, FROM, WHERE, GROUP BY, HAVING, ORDER BY и LIMIT?

Правильный порядок будет следующим:

1. FROM (а не SELECT) — так как сначала “машине” нужно определить из какой таблицы брать данные. Без этого, остальные операторы не имеют никакого смысла: над какими данными тогда проводить дальнейшие манипуляции?

2. WHERE — ведь зачем тянуть и выполнять вычисления над записями, которые не релевантны? Можем сразу же их отфильтровать;

3. GROUP BY – сгруппируем релевантные записи;

4. HAVING – исключим группы, которые не релевантны.

5. SELECT – и только теперь выберем поля, которые выведем на экран. Лишние, опять же, ни к чему;

6. ORDER BY – упорядочим результат для наглядности;

7. LIMIT – выведем только N первых строк, если не нужны сразу все.

Зачем знать порядок SQL запроса?

Понимание того, как и в каком порядке выполняются запросы, помогает отлаживать случаи, когда запрос выдает не то, что ожидалось. А также оптимизировать скорость их работы.

А теперь вопрос знатокам. Как в этот порядок вписываются: (a) JOIN, (b) UNION, (c) DISTINCT, (d) оконная функция, (e) агрегационная функция, (f) WITH CUBE?

660 viewsПавел Бухтик, 08:55

Открыть/Комментировать

2023-02-03 12:45:02

Не уделяйте много времени инструментам визуализации…

…если только не хотите быть BI-аналитиком.

Или топ-3 темы, на которые начинающему аналитику не нужно тратить время. Часть 3.

На рынке множество инструментов визуализации – Redash, Metabase, Superset, Tableau, PowerBI. Каждый инструмент с особенностями в работе.

Фундаментально – они похожи, и не требуют много времени на изучение, если вы уже знакомы хотя бы с одним.

Если взглянуть на вакансии, используемые решения настолько разнятся, что сложно выделить с каким прийдется работать.

По моему опыту, на них мало смотрят на собеседованиях. Потому начинающему аналитику не стоит изучать десятки решений. А как только вы устроитесь на работу и начнете использовать конкретный инструмент – быстро в него втянитесь.

Если и выбирать инструмент для освоения, то советую обратить внимание на Tableau / PowerBI / Qlik Sense и подобных, вместо open source решений. Они раскроют большее количество доступных в визуализациях фич.

#продуктоваяаналитика

604 viewsПавел Бухтик, 09:45

Открыть/Комментировать

2023-02-02 11:21:23 Правильный ответ к задаче «Что случилось с метрикой?»

Если еще не пробовали решить задачу, рекомендую это сделать до прочтения поста.

От кандидата ожидается не то, что он угадает с первой попытки что произошло с метрикой на самом деле. Ожидается, что кандидат набросает исчерпывающее количество конкретных гипотез, которые впоследствии будут проверены на практике.

Из моего опыта, падение метрик часто происходит по причинам:

Поломки логирования на клиенте или в доставке логов на бекенде

Возникновения бага в некотором разрезе (типе устройства, стране, локализации, источнике трафика) в результате выкладки новой версии продукта;

Внешнего фактора или сезонности.

От этих причин можно отталкиваться для генерации более конкретных гипотез.

В случае с задачей, могла бы оказаться правдивой гипотеза о том, что на рынок РФ вышел Spotify, и пользователя Яндекс Музыки побежали пробовать триал.

Но источники сообщают, что случилась банальная потеря данных (сломалось логирование). Так что никаких интриг и заговоров, лишь человеческий фактор.

А звездочка за количество гипотез достается @maxlukyanenko

#задачиссобеседований

553 viewsПавел Бухтик, 08:21

Открыть/Комментировать

2023-02-01 11:13:46

Что случилось с метрикой?

На скриншоте представлена метрика музыкального стримингового сервиса. Пусть этим сервисом будет Яндекс Музыка. Метрика показывает количество прослушиваний в динамике по дням.

Как считаете, что с ней могло произойти?

P. S. эта задача взята из тестового задания компании. Сохранены оригинальные формулировки. Подобные задачи помечаются хештегом:

#задачиссобеседований

528 viewsПавел Бухтик, 08:13

Открыть/Комментировать