Получи случайную криптовалюту за регистрацию!

Apache Parquet — это высокоэффективный бинарный column-oriente | Типа про IT

Apache Parquet — это высокоэффективный бинарный column-oriented формат, который помимо самих данных содержит заодно и метаданные к ним, c типами и структурой. Считайте, что это как CSV, только сильно быстрее, занимает сильно меньше места у вас в облаке и, следовательно, дешевле в эксплуатации (иногда на порядки).

Про “паркет” хорошо знают все, кто работает с big data или ML, потому что там, на дне data-озёр, жирным слоем накапливаются мегатонны parquet-файлов, в которых большие компании хранят большие массивы данных.

Но мне кажется, что Parquet может быть полезен и в проектах поменьше, без сотен терабайт данных в S3. Где-то можно сэкономить на табличном процессинге используя Pandas (у которого, к слову, первоклассная поддержка формата), где-то можно разгрузить основную базу, ну или просто поближе познакомиться с технологией, которая лежит в основе всей современной data-движухи.

Если очень интересно и есть лишние 40 минут, посмотрите клёвый доклад от WeWork по теме.