Получи случайную криптовалюту за регистрацию!

RU Dataset | Датасеты

Логотип телеграм канала @dataset_ru — RU Dataset | Датасеты R
Логотип телеграм канала @dataset_ru — RU Dataset | Датасеты
Адрес канала: @dataset_ru
Категории: Софт, приложения
Язык: Русский
Количество подписчиков: 2.53K
Описание канала:

ℹ️ Собираем датасеты! Есть что добавить?!
Пишите @dataset_chat 💬
@daniilak

Рейтинги и Отзывы

5.00

2 отзыва

Оценить канал dataset_ru и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

2

4 звезд

0

3 звезд

0

2 звезд

0

1 звезд

0


Последние сообщения 3

2021-06-19 09:43:46 Фотографии с высоты

Stanford Drone Dataset
cvgl.stanford.edu/projects/uav_data

xView — один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок
xviewdataset.org/#dataset

@dataset_ru
1.2K viewsedited  06:43
Открыть/Комментировать
2021-06-19 09:38:38 Текстовые данные

Датасет с анекдотами
t.me/NeuralShit/2321

Датасет с анекдотами
github.com/e1four15f/TFS19s-NLP-Jokes/blob/master/experiment_1/jokes.csv

Датасет с цитатами
t.me/NeuralShit/2202

Корпус лемматизированных (морфологически нормализованных) текстов российских СМИ
github.com/maxoodf/russian_news_corpus

Сборник новостей gazeta.ru
kaggle.com/phoenix120/gazeta-summaries

Сборник новостей "Россия сегодня"
https://github.com/RossiyaSegodnya/ria_news_dataset

Корпус новостей с Lenta.Ru
github.com/yutkin/Lenta.Ru-News-Datase

Русскоязычный корпус коротких текстов RuTweetCorp состоящий из 17,639,674 записей
study.mokoron.com/#corpora

RuAdapt: параллельный датасет упрощенного русского языка
github.com/Digital-Pushkin-Lab/RuAdapt

Фамилии
t.me/dataset_chat/40

Репозиторий включает в себя Датасет гороскопов с сайта https://horoscopes.rambler.ru
https://github.com/ArmageddonReloadedDK/astro

Русскоязычные NLP датасеты
github.com/Koziev/NLP_Datasets

Набор данных содержит более 40 тысяч игр из магазина Steam с подробными данными.
https://www.kaggle.com/trolukovich/steam-games-complete-dataset

Набор данных из популярного российского коллективного блога Habrahabr
https://github.com/romovpa/habrahabr-dataset

Набор данных с 10 тыс. Решений хозяйственных судов РФ и анализом ggplot2 / dplyr.
https://github.com/alexeyknorre/Rbitrazh

Данные по законопроектам Государственной Думы.
https://github.com/infoculture/lawmon

Датасет русских поэм
https://github.com/Laefye/RussionDatasetPoems

Русские романы
https://github.com/JoannaBy/RussianNovels


@dataset_ru
1.2K viewsedited  06:38
Открыть/Комментировать
2021-06-19 09:20:20 Еда | Продукты питания

Open Food Facts gathers information and data on food products from around the world.
Сентимент-анализ отзывов на еду с Amazon
Recipe Ingredients Dataset (отсутствуют пропорции для ингредиентов)
Recipe1M+ (большое количество рецептов, но необходимо регистрироваться, чтобы скачать данные)
Epicurious — Recipes with Rating and Nutrition (около ~20000 рецептов)
Recipe box (около ~125,000 рецептов с ингредиентами и инструкциями по приготовлению)

#еда #отзывы #рецепты
@dataset_ru
982 viewsedited  06:20
Открыть/Комментировать
2021-06-19 09:11:49 Социальные сети

2 500 000 приватных юзеров инстаграмма

1 000 000 картинок Инстаграмма

Корпус из 17,6 миллионов твитов на русском языке, подходящий для обучения языковой модели для социальных сетей, модерации контента, анализа настроений и многого другого.
Russian Twitter Corpus

Набор данных, содержащий более 200 000 твитов с вредоносными аккаунтами.
Russian Troll Tweets:

Более 20 000 русских твитов с тегами настроений.
SentiRuEval trainset

Каталог пользователей ВКонтакте
https://vk.com/catalog.php

Анонимные текстовые данные со страниц пользователей ВКонтакте
https://www.kaggle.com/oldaandozerskaya/vkontakte-dataset-of-users-textual-data

Информация о 472525 сообществах ВКонтакте
https://www.kaggle.com/kekekek/vk-groups-info

Российские выборы 2018 - активность пользователей vk.com. Сообщения и комментарии пользователей, собранные во время и за 1 месяц до выборов
https://www.kaggle.com/borisch/russian-election-2018-vkcom-user-activity

Новости ВКонтакте
https://www.kaggle.com/ismailgadzhiev/vknews

InstaCities1M . Он состоит из изображений Instagram, связанных с одним из 10 самых густонаселенных англоязычных городов мира
gombru.github.io/2018/08/01/InstaCities1M/

@dataset_ru
979 viewsedited  06:11
Открыть/Комментировать
2021-06-19 04:50:47 Фотографии людей

Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos

Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/

People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt

github.com/BathVisArtData/PhotoArt50

Набор из 13 тысяч размеченных изображений лиц людей
http://vis-www.cs.umass.edu/lfw/

Human3.6M Трехмерные человеческие позы и соответствующие изображения
t.me/dataset_chat/49

@dataset_ru
926 viewsedited  01:50
Открыть/Комментировать
2021-06-19 04:31:57 Адреса России

Города
Открытый слой геоданных по детским учреждениям (детским домам)
Публичная кадастровая карта
Федеральная информационная адресная система
Частотности улиц

@dataset_ru
971 viewsedited  01:31
Открыть/Комментировать