Получи случайную криптовалюту за регистрацию!

Привет! Сегодня я расскажу о типах аналитических хранилищ, с к | Chief Data Officer

Привет!
Сегодня я расскажу о типах аналитических хранилищ, с которыми сталкивался в своей консультационной и не только практиках.

Неструрированная помойка
Это наиболее популярный тип хранилищ, которым как правило больше всего гордятся его создатели. Это либо кликстрим, либо много разрозненных неструктурированных логов. Как правило все данные есть, но никто не знает, где они находятся. Если и знают, то никто не знает всех "приколов" и "фич" в этих данных. С утра до ночи датаинженеры пишут скрипты, которые очищаются всё и складывают в какие-то более менее адекватные витрины. Раз в месяц выясняется, что всё мы делали не так и надо немного подправить весь пайплайн и пересобрать всю историю и займёт это пару дней. Мониторинги в такой системе практически невозможны, почти всё время data science специалистов уходит на найти, выяснить, отфильтровать, вычистить, обогатить. Bus factor минимальный, само собой, потому что человек, который разобрался в какой-то аналитической зоне бизнеса, как правило является единственным, кто может с этими данными адекватно работать. Из плюсов - пиши что хочешь, как хочешь, сколько хочешь. Из минусов, как я и сказал, - неясно что пишется, куда пишется, и пишется ли уже - дада, может быть порядка 5 разных событий, логов, структур про одно и то же с разными значениями метрик. Как правило документация обрывиста и бесполезна. Тут часто бизнесу продаётся как "у нас дешёвая и масштабируемая инфраструктура" - по факту фонд оплаты труда так раздут, что смешно говорить о дешевизне. При этом ещё стоит понимать, что delivery по любого рода аналитике растянут в 10 раз.

Структурированная помойка
Это разновидность помойки, когда бизнес уже достало, что штат аналитиков и датаинженеров разросся, а выхлопа от аналитики кроме графиков нет. Конечно, есть ML кудесники - у них там пайплайны, которые научились выжимать из песка воду. Есть и отдельные крутые Data Science, которые кайфуют от того, что несколько недель тратят на подготовку датасета. Но в целом бизнес осознал проблему и направил усилия в "сделайте это эффективней". Тогда начинаются всякие проекты по таксономии, по привязыванию структур и типов в стиле protobuf, по описанию структур данных, по деланию более прозрачным процесса преобразования данных. Data Science специалисты начинают делиться друг с другом экспертизой, появляются общие скрипты. Но всё равно зачастую это выглядит как ...мы большую помойку разделили на кучки поменьше, подписали, что в этой кучке у нас вот такие данные и приписали "наверное", а вот в той кучке мы уже научились сортировать мусор кое-как, но всё равно иногда в горке пластиковых бутылок появляются стеклянные и наоборот. Тут уже появляются ограничения, что и куда и как писать - потому что если мы эти ограничения не введём, то помоечка быстро станет неструктурированной. А потому - вот вам процесс, ревью, инструкция для разработчиков, кое-какие уже мониторинги появляются. То есть уже, что хочешь и как хочешь писать не получится - то есть получится, но немного сложнее, чем в первом пункте. Есть кое-какая документация - по некоторым областям даже хорошая, авторы гордятся, ФОТ локальный ещё больше, чем в неструктурированной помойке - потому что нужно много ресурсов на переделывание имеющегося. По-прежнему Data Science неэффективен.