Получи случайную криптовалюту за регистрацию!

Тренды в сфере работы с данными 2022. Основной пост Data Me | Datalytics

Тренды в сфере работы с данными 2022. Основной пост

Data Mesh

Признаться честно, меня всегда пугают новые термины, которым нельзя дать конкретное определение. На мой взгляд, такие термины рискуют стать buzzword. Data Mesh как раз такой термин — дать его определение в одном предложении сложно. Это не какая-то конкретная технология/технологический стек или процесс. Правильнее назвать это концепцией хранения данных

Data Mesh появляется в противовес централизованным хранилищам данных. Можно сказать, что это микросервисная архитектура хранения данных, в которой существует некоторое количество разнородных источников данных с высокой атомарностью

У каждого хранилища может быть свой бизнесовый оунер (продуктовая команда, бизнес-юнит, департамент), своя команда дата-инженеров или дата-менеджеров и своя собственная внутренняя архитектура. По сути каждый оунер становится владельцем некоторого куска данных, которым он волен распоряжаться самостоятельно в соответствии с целями, которые стоят перед ним. Такой подход обеспечивает гибкость бизнес-юнитам и позволяет быстрее концентрироваться на стратегических и тактических целях в обход «инфраструктурной бюрократии», которая возникает при централизации. Полная свобода в принятии решении о дата-архитектуре

Но при этом важным моментом является то, что эта свобода налагает ответственность перед любым потребителем данных, например, смежной продуктовой командой или аналитическим отделом любого департамента. Эта ответственность заключается в том, чтобы обеспечить удобный открытый интерфейс к данным, качество данных, их документацию, политики безопасности. То есть любой потребитель должен прийти за данными и получить то, что он хочет с минимумом болей. При этом, потребителем может выступать как менеджер, которому нужен self-service интерфейс, так и data engineer, которому нужен доступ к raw data, так и аналитик, которому необходима некоторая витрина

Как мне кажется, этот подход применим для крупных организаций, где существует несколько бизнес-юнитов или крупных продуктовых команд, но при этом возникает регулярная потребность обмена данными

Почитать про принципы Data Mesh можно вот тут