Получи случайную криптовалюту за регистрацию!

В рубрике интересных инструментов с открытым кодом для работы | Ivan Begtin

В рубрике интересных инструментов с открытым кодом для работы с данными:
- sowego [1] утилита и библиотека для Python по линковке больших каталогов данных с Wikidata
- vector [2] ETL от Datadog по созданию труб данных для работы с логами и метриками.
- RecordLinkage [3] библиотека для Python по связыванию похожих структур
- Inception [4] инструмент/платформа для семантического аннотирования текстов
- Dedupe [5] ещё один инструмент для избавления дубликатов в Python
- Streamlit [6] платформа по быстрому развертыванию дата приложений на Python.
- Bdbag [7] инструмент работы со стандартом научных данных BagIT и большими данными
- schema.data.gouv.fr [8] исходный код французского правительственного репозитория схем [9]․ Все схемы в JSON, с документацией, отслеживанием изменений и тд. Очень редкий для гос-ва системный подход
- NoProto [10] ещё один стандарт сериализации данных, с поддержкой схем, сортировкой и другими фичами. К нему же референсные реализации на JS и Rust
- Confluent Schema Registry [11] реестр схем данных для Kafka, на базе JSON Schema
- Records [12] библиотека для Python для удобной работы с SQL, поддерживает только SQL СУБД.
- Miraql [13] удобный визуализатор API и схем Graphql

Ссылки:
[1] https://github.com/Wikidata/soweego
[2] https://github.com/vectordotdev/vector
[3] https://github.com/J535D165/recordlinkage
[4] https://github.com/inception-project/inception
[5] https://github.com/dedupeio/dedupe
[6] https://github.com/streamlit/streamlit
[7] https://github.com/fair-research/bdbag
[8] https://github.com/etalab/schema.data.gouv.fr
[9] https://schema.data.gouv.fr
[10] https://github.com/only-cliches/NoProto
[11] https://github.com/confluentinc/schema-registry
[12] https://github.com/kennethreitz/records
[13] https://github.com/oslabs-beta/miraql

#datatools #data #opensource