Не секрет что поисковиков по данным очень мало, основной - это | Ivan Begtin
Не секрет что поисковиков по данным очень мало, основной - это Google Dataset Search [1] который всё ещё скорее исследовательский проект и где просто ну очень много SEO спама поскольку проект основан на самостоятельной разметке объектов пользователями по стандарту Schema.org объектам типа Dataset [2].
Ещё в прошлом году исследователи Google из MIT проанализировали несколько сотен тысяч страниц с датасетами и разработали классификатор определяющий что на веб странице действительно набор данных [3]․ Они же выложили датасет с результатами такой разметки [4], можно сказать датасет про датасеты.
Лично по мне так той же цели, широкого покрытия наборов данных поиском без потери качества, можно достичь и более простыми методами, а классификация страниц и сам стандарт Schema.org уж очень сильно заточен под поисковые системы в отличие от других протоколов для обнаружения данных (data discovery).
Тем не менее исследование интересное и чуть приоткрывает свет на работу которую проделывают в Google Dataset Search.
I write about Open Data, Data Engineering, Government Technologies, Privacy and Digital Preservation and other gov and tech stuff. Chat https://telegram.me/begtinchat. Facebook - https://facebook.com/...