2021-04-09 14:28:01
ETL vs. ELT
До меня только недавно дошло, что такое ELT и зачем. Раньше я думал, что это опечатка или прикол а-ля HODL. Но нет.
Когда ты дата инженер, тебе нужно перетаскивать данные из одного места в другое. Бывает, что ты добавляешь новый источник данных в свой Data Lake (например, начинаешь парсить что-то).
Так вот, в этом случае правильным и масштабируемым подходом будет
ELT (extract-load-transform), а не
ETL (extract-transform-load). Лучше сохранять максимально сырые данные (+ timestamp), а потом отдельной таской переводить их в нужный формат в новую таблицу.
Да,
занимает больше места (хранение сырых и обработанных данных),
дольше прогать (нужно писать скрипт, форматирующий данные). Но в будущем, когда окажется, что нужно было что-то ещё сохранять или форматирование было ошибочное, вы всегда сможете все переделать без потерь данных, так как у вас сохранены исходники.
554 views11:28