2021-02-18 00:58:26
Спросили: Что такое Databricks?
Ответ: Это managed spark. То есть compute engines, которых можно создать сколько хочешь и любого размера. Подключить к озеру данных на AWS/Azure и делать processing на Python/Scala/SQL. Можно хранить результат в parquet и использовать delta log = delta lake, озеро данных с функцией ACID. Можно и без databcricks все построить на Hadoop+Spark и хранить все тоже самое в HDFS, но уже надо все ручками настраивать.
Другими словами мы создаем Lakehouse. Когда данные в виде файлов в репозитории, а сверху виртуальные машины, которые умеют читать файлы с помощью SQL (в случае Snowflake, Redshift Spectrum, Athena, Synapse). А вот в случае Databricks вы можете использовать Python/Scala/SQL, получаете преимущества cloud computing и заодно можете использовать docker, делать ML&DS и стримить данные и обрабатывать в реальном времени. В общем вещь!
В СНГ все это конечно не так популярно, так как мы отстаем с облаками. На курсах datalearn я хочу восполнить этот проблем. Это моя любимая тема облака+аналитика и всякие платформы. Даже на западном рынке нет таких курсов, которые включает в себя столько, сколько мы засунули в datalearn и самое главное есть контекст, а не просто учим кнопки нажимать, мы учим вас выбирать подходящее решение самостоятельно и самостоятельно достигать поставленных целей.
1.9K viewsDmitry Anoshin, edited 21:58