Получи случайную криптовалюту за регистрацию!

Зачем Data-инженеру Spark В Почте Mail.ru работают со стеком | Machinelearning

Зачем Data-инженеру Spark

В Почте Mail.ru работают со стеком Hadoop, Hive, Clickhouse, Spark. В данной статье на Хабре Data-инженер из команды Почты Mail.Ru остановился на некоторых аспектах работы с данными в Spark.

Он ответил на следующие вопросы: как превратить 7 петабайт в 0,5 петабайт, что позволило сэкономить годовой бюджет по закупке серверов и построить своё классное хранилище без последующей переделки.

Также в статье: архитектурные паттерны в хранилище Почты, эффективное хранилище данных, форматы хранения данных, параллельная обработка данных в Spark, запись колоночных файлов, запросы к данным в Spark и др.

Хабр: https://habr.com/ru/companies/vk/articles/742084/

ai_machinelearning_big_data