Типичная задача аналитика — посчитать и выгрузить что-то на | Бизнес-анализ & IT
Типичная задача аналитика — посчитать и выгрузить что-то на pySpark. Способов несколько — от маленьких табличек в Excel до объемных датасетов.
Делать все быстро и правильно поможет этот гайд от Александра Ледовского — тимлида команды аналитики и DS, который строит рекламные аукционы в Авито. Он рассказывает, как работать в Apache Spark, в том числе:
как использовать функцию toPandas вместе с библиотекой pyArrow; как обходить ограничения Arrow; когда toPandas не стоит использовать и какие еще есть варианты.
Справиться с проблемами гораздо легче, перенимая опыт лучших. Так что переходите по ссылке и пользуйтесь — там все доступно, понятно и четко.