2022-08-07 14:47:52
День рождения и подготовка к свадьбе забрали меня с головой на 2 недели (устроил себе отпуск в канале )
Возвращаюсь к просветительской деятельности)
На работе сейчас много
задач с БД:
— написание SQL запросов в MySQL (пока все еще версия 5 — без оконок ) и в Clickhouse,
— построение дашбордов в SuperSet
— за эти 2 недели написал уже 3 ETL скрипта в питоне по переносу данных из разных источников в Clickhouse (Клик).
Обнаружил такую приколюху с
join в Клике: при left join пустые значения Клик заполняет их 0, и при distinct count считает их.
Есть 2 пути решения:
1. Просто вычитать этот 0 при distinct count
2. Добавить в конец запроса SETTINGS join_use_nulls = 1 — вместо 0 будут NULL
Вообще
тема join в SQL очень важная при работе с >2 таблиц (в работе аналитика обычная ситуация), тк результат может оказаться не тем, что ты ожидаешь. В данном посте разбирать эту тему подробно не буду, но дам вам
источники, где можно капнуть тему join поглубже:
1. Мое собеседование на продуктового аналитика (смотреть с 40:20): блок разбора работы join
2. Статья на хабре: "Понимание джойнов сломано. Это точно не пересечение кругов"
"Инсайдерская" информация только для подписчиков моего канала: ко мне снова пришел МФТИ с предложением
создать бесплатный курс по Анализу Данных (у них уже есть курсы по ИИ и алгоритмическому программированию) — на следующей неделе приму решение вписаться или нет))
@Data New Gold
1.6K views11:47