Как быстро разрабатывать сервисы обработки данных в реальном времени с помощью PySpark Structured Streaming и Kafka?
Об этом в нашей новой статье на Хабр рассказывает
Дмитрий Жданов, разработчик бизнес-направления FastData.
Для кого: для Python-разработчиков, специалистов по Big Data и Data-инженеров
Что делаем: учимся писать простейшие процессы потоковой обработки с применением фреймворка PySpark, взаимодействовать с Kafka и читать/писать сообщения в форматах JSON и AVRO
Зачем: такой подход позволяет в короткие сроки сделать выгодное предложение клиенту, вовремя заметить аномалию в системе или же отображать актуальные данные
На каком языке: Python
Смотрите пошаговый гайд в статье #neo_хабр