Получи случайную криптовалюту за регистрацию!

Не секрет что поисковиков по данным очень мало, основной - это | Ivan Begtin

Не секрет что поисковиков по данным очень мало, основной - это Google Dataset Search [1] который всё ещё скорее исследовательский проект и где просто ну очень много SEO спама поскольку проект основан на самостоятельной разметке объектов пользователями по стандарту Schema.org объектам типа Dataset [2].

Ещё в прошлом году исследователи Google из MIT проанализировали несколько сотен тысяч страниц с датасетами и разработали классификатор определяющий что на веб странице действительно набор данных [3]․ Они же выложили датасет с результатами такой разметки [4], можно сказать датасет про датасеты.

Лично по мне так той же цели, широкого покрытия наборов данных поиском без потери качества, можно достичь и более простыми методами, а классификация страниц и сам стандарт Schema.org уж очень сильно заточен под поисковые системы в отличие от других протоколов для обнаружения данных (data discovery).

Тем не менее исследование интересное и чуть приоткрывает свет на работу которую проделывают в Google Dataset Search.

Ссылки:
[1] https://datasetsearch.research.google.com/
[2] https://schema.org/Dataset
[3] http://people.csail.mit.edu/tarfah/papers/dataset.pdf
[4] https://www.kaggle.com/datasets/googleai/veracity-of-schemaorg-for-datasets-labeled-data

#opendata #datasets #search #research