Получи случайную криптовалюту за регистрацию!

Big Data AI

Логотип телеграм канала @bigdatai — Big Data AI B
Логотип телеграм канала @bigdatai — Big Data AI
Адрес канала: @bigdatai
Категории: Технологии
Язык: Русский
Количество подписчиков: 6.19K
Описание канала:

@workakkk - админ
Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям
@data_analysis_ml - анализ данных
@ai_machinelearning_big_data
@itchannels_telegram - важное для программиста

Рейтинги и Отзывы

3.33

3 отзыва

Оценить канал bigdatai и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

1

3 звезд

0

2 звезд

0

1 звезд

1


Последние сообщения

2022-11-08 11:45:38 Датасеты медиа и социальные сети

7 000 000 русских комментов из Инстаграмма
Несколько миллионов хештегов (рус+англ) из инсты с количеством постов, которые были опубликованы с ними за все время.
Московские хештеги с гео привязкой
MADAR SHARED TASK
Московские пользователи Tinder
Московские пользователи Telegram
2 500 000 приватных юзеров инстаграмма
1 000 000 картинок Инстаграмма
Sensortower: аналитика мобильных приложений
Все товары Wildberries (декабрь 2020)
Все товары Ozon (декабрь 2020)
14 000 юзеров Producthunt
Ссылки на все публикации Techcrunch (200k+)
Корпус из 17,6 миллионов твитов на русском языке, подходящий для обучения языковой модели для социальных сетей, модерации контента, анализа настроений и многого другого.
Russian Twitter Corpus

Набор данных, содержащий более 200 000 твитов с вредоносными аккаунтами.
Russian Troll Tweets:

Более 20 000 русских твитов с тегами настроений.
SentiRuEval trainset

InstaCities1M . Он состоит из изображений Instagram, связанных с одним из 10 самых густонаселенных англоязычных городов мира
gombru.github.io/2018/08/01/InstaCities1M/

Каталог пользователей ВКонтакте
https://vk.com/catalog.php

2.5 миллиона новостных записей из пабликов ВКонтакте
kaggle.com/mrdaniilak/25-million-news-posts-from-vkcom

Анонимные текстовые данные со страниц пользователей ВКонтакте
https://www.kaggle.com/oldaandozerskaya/vkontakte-dataset-of-users-textual-data

Информация о 472525 сообществах ВКонтакте
https://www.kaggle.com/kekekek/vk-groups-info

Российские выборы 2018 - активность пользователей vk.com. Сообщения и комментарии пользователей, собранные во время и за 1 месяц до выборов
https://www.kaggle.com/borisch/russian-election-2018-vkcom-user-activity

Новости ВКонтакте
https://www.kaggle.com/ismailgadzhiev/vknews

Датасет ответов сайта Ответы mail.ru
https://www.kaggle.com/datasets/atleast6characterss/otvetmailru-solved-questions

@bigdatai
582 views08:45
Открыть/Комментировать
2022-11-07 12:14:21
Инструмент, который поможет вам разобраться со сверточными нейросетями. Там можно поиграться, позакидывать свои картинки и посмотреть как сеть их предсказывает, а так же почитать теорию:

Попробовать

@bigdatai
1.0K viewsedited  09:14
Открыть/Комментировать
2022-11-06 11:23:08
Awesome Data Journalism Awesome

Открытые данные и просто открытый репозиторий журналистики данных, чтобы изучить и понять практическую журналистику данных.

Github

@bigdatai
1.1K views08:23
Открыть/Комментировать
2022-11-06 11:22:59 Data analytic (middle/senior)

в классном офисе в Москве/удаленно
от 250-350 К руб., белая ЗП или ИП
большой датасет, интересные задачи, возможность влиять на продукт

Ищем аналитиков данных в команду PREDICTO.
Нет долгих согласований, стремимся к быстрому внедрению в production и итеративной работой над улучшениями.

Что нужно делать:
• сегментация пользователей и анализ пользовательских данных;
• проведение ad-hoc исследований и создание аналитических решений для включения в продукт;
• работа с визуализацией данных;
Требования
• знание методов сбора и подготовки данных;
• практический опыт развития продуктов на данных;
• SQL (оконные функции, вложенные запросы, регулярные выражения)
• владение инструментами визуализации данных;
Опционально:
• знание принципов экономико-математических методов прогнозирования, а также методов статического анализа;
• опыт работы с Python или R (как плюс), опыт работы с etl/elt

Присылайте CV в :telegram:@fedosovaAS

#вакансия

@datascienceml_jobs
1.0K views08:22
Открыть/Комментировать
2022-11-05 09:22:06 Фотографии людей наборы данных

Generated Photos — первый крупный открытый датасет, состоящий из изображений лиц, сгенерированных нейросетью
generated.photos

Данные с сайта министерства обороны о ветеранах. Содержат примерно миллион записей.
https://foto.pamyat-naroda.ru/

People-Art - это набор изображений людей из фотографий и произведений искусства
github.com/BathVisArtData/PeopleArt

github.com/BathVisArtData/PhotoArt50

Набор из 13 тысяч размеченных изображений лиц людей
http://vis-www.cs.umass.edu/lfw/

@bigdatai
1.2K views06:22
Открыть/Комментировать
2022-11-04 11:02:04
evidently- интерактивные отчеты для анализа моделей машинного обучения во время проверки или мониторинга в продакшене

Evidently, помогает анализировать модели машинного обучения во время проверки или мониторинга продакшена. Инструмент генерирует интерактивные визуальные отчеты и профили JSON из файлов pandas DataFrame или csv. На данный момент доступно 6 отчетов:
- Data Drift - обнаруживает изменения в распределении фичей
- Numerical Target Drift - обнаруживает изменения числового таргета и поведение фичей
- Categorical Target Drift - обнаруживает изменения в категориального таргета и поведение фичей
- Regression Model Performance - анализирует производительность регрессионной модели и ошибки модели
- Classification Model Performance - анализирует производительность и ошибки модели классификации. Работает как для бинарных, так и для мультиклассовых моделей.
- Probabilistic Classification Model Performance - анализирует производительность модели вероятностной классификации, качество калибровки модели и ошибки модели. Работает как для бинарных, так и для мультиклассовых моделей.

$ pip install evidently

Github
Документация

@bigdatai
1.2K viewsedited  08:02
Открыть/Комментировать
2022-11-04 10:12:23 Data pipeline: наглядная иллюстрация от бразильский компании Semantixai.

@bigdatai
1.8K viewsedited  07:12
Открыть/Комментировать
2022-11-04 08:57:15
Подборка шпаргалок по matplotlib от простых до высокого уровня

#cheatsheet #python

@bigdatai
1.3K views05:57
Открыть/Комментировать
2022-11-03 10:02:04 18 Общедоступных источников бесплатных наборов данных

Список

@bigdatai
1.1K views07:02
Открыть/Комментировать
2022-11-03 08:56:21 Анализ сцен по фото

Набор данных ADE20K
sceneparsing.csail.mit.edu

Набор данных Places. Содержит более 10 миллионов изображений, содержащих более 400 уникальных категорий сцен
places2.csail.mit.edu

LSUN: Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных
yf.io/p/lsun

Датасет статьи "Оценка стоимости недвижимости на основе видения" 9 Гб
omidpoursaeed.github.io/publication/vision-based-real-estate-price-estimation

House Rooms Image Dataset. Содержит 5000 фото 5 типов (ванная, спальня, обеденная, кухня, гостиная) комнат в квартире
kaggle.com/robinreni/house-rooms-image-dataset

Indoor Scene Recognition. Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий.
web.mit.edu/torralba/www/indoor.html

@bigdatai
1.1K views05:56
Открыть/Комментировать