В рубрике интересных инструментов с открытым кодом для работы | Ivan Begtin
В рубрике интересных инструментов с открытым кодом для работы с данными: - sowego [1] утилита и библиотека для Python по линковке больших каталогов данных с Wikidata - vector [2] ETL от Datadog по созданию труб данных для работы с логами и метриками. - RecordLinkage [3] библиотека для Python по связыванию похожих структур - Inception [4] инструмент/платформа для семантического аннотирования текстов - Dedupe [5] ещё один инструмент для избавления дубликатов в Python - Streamlit [6] платформа по быстрому развертыванию дата приложений на Python. - Bdbag [7] инструмент работы со стандартом научных данных BagIT и большими данными - schema.data.gouv.fr [8] исходный код французского правительственного репозитория схем [9]․ Все схемы в JSON, с документацией, отслеживанием изменений и тд. Очень редкий для гос-ва системный подход - NoProto [10] ещё один стандарт сериализации данных, с поддержкой схем, сортировкой и другими фичами. К нему же референсные реализации на JS и Rust - Confluent Schema Registry [11] реестр схем данных для Kafka, на базе JSON Schema - Records [12] библиотека для Python для удобной работы с SQL, поддерживает только SQL СУБД. - Miraql [13] удобный визуализатор API и схем Graphql
I write about Open Data, Data Engineering, Government Technologies, Privacy and Digital Preservation and other gov and tech stuff. Chat https://telegram.me/begtinchat. Facebook - https://facebook.com/...