Получи случайную криптовалюту за регистрацию!

Data Engineering Blueprints Хотел написать этот пост последни | Andrey Osipenko

Data Engineering Blueprints

Хотел написать этот пост последние два месяца, но откладывал, так как эта информация очень полезна, но нужно находиться в рынке, чтобы понять ее. Сегодня данные — это новое золото. А для большинства больших компаний, это и вовсе основной источник прибыли.

— Сначала вам нужно ее где-то получить, потом очистить и привести в единый вид.
— Затем переместить в какое-то хранилище, которое должно быть с одной стороны безопасным, и доступным для вас с другой.
— Потом нужно данные анализировать, и как-то получать инсайты которые и будут вести к большей прибыли.
— А если вы совсем круты, то еще прикрутить предиктивную модель которая будет помогать вам предсказывать как будут выглядеть ваши данные в будущем.

Эта тема очень сложная в целом, и материалов по этому в интернете не так уж и много. Но ребята из a16z ( один из самых успешных венчурных фондов ), недавно выкатили крутейший материал на эту тему, с инструментами, архитектурой и советами по тому как это должно работать, заодно пообщавшись с 20 специалистами с ведущих компаний в штатах: https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/

В прошлом году, я более полугода работал в компании с инвестициями в нее более $200m, данные были одним из наших продуктов из-за которых мы зарабатывали деньги. И спустя почти год работы мы пришли к тому же набору инструментов и архитектуре описанной в документе выше, если бы статья вышла раньше, вполне вероятно, что мы бы сэкономили не один десяток тысяч зеленых президентов.

Эта статья не будет интересна всем, но чисто посмотреть на best practices в этой индустрии и инструменты будет большим плюсом. Если будет интересно, походите по сайтам этих инструментов, посмотрите, что еще можно сделать. Одна эта статья даст вам 80% информации об архитектуре хранения и использования данных с любыми объемами.

Enjoy!