Получи случайную криптовалюту за регистрацию!

В рубрике больших наборов данных, базы событий в Github. Git | Ivan Begtin

В рубрике больших наборов данных, базы событий в Github.

Github - это крупнейшая в мире платформа по работу с открытым кодом, с открытым API и возможностью отслеживать собственные и чужие репозитории кода. Она часто является объектом работы исследователей и существует несколько крупных слепков данных по событиям на платформе.

GHTorrent [1] большой слепок данных за 2019-2020 годы, не обновлявшийся с июля 2020 года. Удобно что сразу можно скачать в формате MongoDB, неудобно неактуальностью

GHArchive [2] база из 20+ событий в Github, в виде файлов дампов для выгрузки и обработки․ Пишут правда что в данных есть существенные пробелы [3].

Копия базы из GHArchive есть в онлайн базе Clickhouse [4] на декабрь 2020 года. Доступ удобнее, но пробелы и устаревание присутствуют.

Альтернативные способы - это использовать открытое API проекта Software Heritage [5] или API самого Github [6]․

Ссылки:
[1] https://ghtorrent.org/
[2] https://www.gharchive.org/
[3] https://medium.com/@jennysahng/how-to-mine-github-data-in-2022-e9c70b3f61d3
[4] https://ghe.clickhouse.tech/
[5] https://archive.softwareheritage.org/api/
[6] https://docs.github.com/en/rest

#opendata #datasets #opensource