2022-06-24 09:21:17
Мало кто думает об архивации чего-бы то ни было как потеряв какие-то очень важные данные или файлы. Личное осознание значимости бэкапов - это часто последствия личного же травматического опыта.
Практические механизмы применяемые в корпоративной среде - это, чаще всего, разного рода инструменты входящие в состав операционной системы. А для СУБД - это чаще генерация дампов баз данных специфичных для конкретной СУБД.
Когда речь заходит об архивации на системном уровне то возникает вопрос стандартов и универсальных спецификаций. А их и то оказывается не так много. У библиотеки Конгресса США есть коллекция форматов рассматриваемых для архивации табличных данных/баз данных [1]․
Почти все они - это форматы обмена данными, такие как XML, JSON, CSV, HDF, CDF, XLS и тд. Рекомендуемыми форматами для данных при этом являются CSV/TSV и SQLite [2].
А вот в Швейцарии разработали и приняли ещё в 2013 году стандарт SIARD, его описание также есть в библиотеке Конгресса [3]. Этот стандарт описывает унифицированный экспорт баз данных не только с точки зрения данных, но и всех связанных объектов, понятий, артефактов и метаданных. Стандарт не самый древний, но ограниченный с самого начала такими СУБД как Oracle, Microsoft SQL Server, MySQL, IBM DB2, Microsoft Access. Тут не то что NoSQL нет, но и нет поддержки облачных СУБД, нет многих популярных баз данных и не только. А сам стандарт с 2015 года практически не развивался.
Что характерно, других универсальных стандартов экспорта/импорта СУБД не существует. Что иногда кажется странным, поскольку в ИТ очень любят разрабатывать собственные спецификации. Например, в Modern Data Stack уже есть множество стандартов описания метаданных в СУБД таких как OpenMetadata [4] и OpenLineage [5] которые довольно сильно пересекаются с SIARD в части метаданных описывающих данные, но не заходят в область непосредственно сохранения контента.
Вопрос о том как сохранять унаследованные данные после закрытия проектов по прежнему открытый. Всё что я могу вспомнить даже в довольно крупных организациях - это положенные на сетевое хранилище дампы с кратким описанием содержания.
Ссылки:
[1] https://www.loc.gov/preservation/digital/formats/fdd/dataset_fdd.shtml
[2] https://www.loc.gov/preservation/resources/rfs/data.html
[3] https://www.loc.gov/preservation/digital/formats/fdd/fdd000426.shtml
[4] https://docs.open-metadata.org/metadata-standard/schemas
[5] https://github.com/OpenLineage/OpenLineage
#databases #digitalpreservation
863 viewsIvan Begtin, 06:21