Получи случайную криптовалюту за регистрацию!

ETL vs. ELT До меня только недавно дошло, что такое ELT и зач | Dan Okhlopkov - канал

ETL vs. ELT

До меня только недавно дошло, что такое ELT и зачем. Раньше я думал, что это опечатка или прикол а-ля HODL. Но нет.

Когда ты дата инженер, тебе нужно перетаскивать данные из одного места в другое. Бывает, что ты добавляешь новый источник данных в свой Data Lake (например, начинаешь парсить что-то).

Так вот, в этом случае правильным и масштабируемым подходом будет ELT (extract-load-transform), а не ETL (extract-transform-load). Лучше сохранять максимально сырые данные (+ timestamp), а потом отдельной таской переводить их в нужный формат в новую таблицу.

Да, занимает больше места (хранение сырых и обработанных данных), дольше прогать (нужно писать скрипт, форматирующий данные). Но в будущем, когда окажется, что нужно было что-то ещё сохранять или форматирование было ошибочное, вы всегда сможете все переделать без потерь данных, так как у вас сохранены исходники.