Apache Spark и PySpark для аналитика
Есть много статей, которые дают инструкции по оптимизации Spark. Но, всё-таки, оптимизация запросов — штука непростая. По мнению автора статьи это не первый навык, который нужно освоить аналитику. Важнее как можно раньше научиться читать план запроса и следить за прогрессом исполнения расчётов в SparkUI.
В этой статье автор разберёт:
• что такое план запроса и чем он может помочь;
• как Apache Spark формирует план запроса;
• как пользоваться Spark UI, чтобы следить за планом запроса и прогрессом его исполнения;
• практические советы.
Секреты аналитики