2021-11-11 11:28:01
Что делает Data Engineer?На днях мне написал двоюродный брат, который закончил свою первую книжку по питону. Он спросил, куда дальше двигаться, если он хочет найти работу дата инженера.
Я сторонник учиться на практике, поэтому сразу отмёл идею дать ему очередную книжку/курс. Подумав, а чем я, собственно, занимаюсь, выписал для него список из трёх с половиной задач, которые занимают около 80% рабочего времени.
Чтобы упростить жизнь, мы взяли гугловское облако (можно амазон или ажур, но я больше знаком именно с GCP), которое позволит многие вещи сделать в один клик. Кроме того, для начинающих оно даёт 300$ на 90 дней практики и лимитированные free-tier потом.
Вот список:
0.
Создать аналитическое хранилище данных (упрощенно, Google BigQuery просто резиновая SQL база данных) — обычно оно уже есть в компании, но если начинать с чистого листа, придётся его поднимать самому. Благо, делается в пару кликов в GCP.
1.
Перелить в BigQuery несколько таблиц из обычной БД. Для этого придётся поднять, например, Postgres (тоже один клик), создать и наполнить в нём таблицы (можно, например, наимпортировать csv-шек из интернетов). Перелить их питоном в аналитическое хранилище.
2.
Залить в аналитическое хранилище данные из любого публичного API. Например, прогнозы погоды Яндекса.
3.
Поставить эти переливки на ежедневный запуск (например, подняв для этого Apache Airflow из докер образа)
Если выполнить эти задачи и залить на гитхаб, можно смело идти джуном дата инженером. Тем более, что у вас уже будет портфолио в репозитории.
351 viewsedited 08:28