Big Data Science [RU]

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 1.79K

Описание канала:

Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career

▲ Vote (1)

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал bdscience_ru и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 28

2021-05-05 12:31:40 Слишком много данных? Маркируйте их метаданные и разделите на 3 категории: технические (логические и физические), операционные (статистика происхождения и профилирования данных) и метаданные команды от Data Scientist’ов и аналитиков.
Чтобы лучше понять каждый набор данных, задайте следующие вопросы:
1. Что логически представляют данные? Что означают атрибуты? Это источник истины или получен из другого набора данных?
2. Какова схема данных? Кто этим управляет? Как это было преобразовано?
3. Когда он последний раз обновлялся? Данные многоуровневые? Где предыдущие версии? Можно ли доверять этим данным? Насколько надежно качество данных?
4. Кто и/или какая команда является владельцем? Кто пользователи?
5. Какие механизмы запросов используются для доступа к данным? Версии наборов данных?
6. Где находятся данные? Где это тиражируется и в каком формате?
7. Как физически представлены данные и можно ли получить к ним доступ?
8. Существуют ли аналогичные наборы данных с общим похожим или идентичным содержанием как в целом, так и для отдельных столбцов?
Когда у вас есть ответы на эти вопросы по всем наборам данных, можно создать службу каталога метаданных, которая является важным строительным блоком платформ Data Lake / Data Mesh / Data Lakehouse. Эта служба обычно собирает метаданные после того, как наборы данных были созданы или обновлены различными конвейерами, не мешая владельцам или пользователям наборов данных.
https://medium.com/wrong-ml/why-is-understanding-datasets-hard-in-the-real-world-6eec47cafaa1

71 viewsedited 09:31

Открыть/Комментировать

2021-05-01 09:16:17 Мир, труд, МАЙ! В последний весенний месяц 2021 года нас ждут интересные онлайн и офлайн митапы, конференции, форумы и прочие познавательные мероприятия для DS-любителей и профессионалов. Увидимся на новых DS-встречах!
13 мая - Цифровой четверг Х5 – Открытая дискуссия экспертов из НИУ ВШЭ, X5, Сибур, HeadHunter и других компаний о проблемах и задачах развития цифрового интеллекта для бизнеса и людей. https://x5-retail-group-event.timepad.ru/event/1615219/
14-21 мая - первый совместный хакатон от ВТБ и Магнит - регистрация до 12 мая. Выбирайте свой вариант из 17 бизнес-проектов и вместе с разработчиками, UI/UX-дизайнерами, маркетологами и аналитиками создайте рабочий прототип, чтобы 21 мая в самом центре Москвы представить его топ-менеджерам двух крупных корпораций. Победителей ждет призовой фонд 1 000 000 рублей. https://vtbxmgnt.ru/
17-18 мая HighLoad++ - Крупнейшая IT-конференция в России и Европе – онлайн трансляция из главного зала московского Крокус-Экспо, где для всех участников спикеры из Ozon, ВК, Mail.ru Group, Яндекса, Лаборатории Касперского и других крупных корпораций и интересных ИТ-компаний поделятся своим опытом построения высконагруженных систем для Data Science и не только https://www.highload.ru/spring/2021
25 мая – онлайн-конференция CNews "Интернет вещей 2021: тренды, проекты, результаты". Спикеры из S7, Сибур, МТС и пр. расскажут об интересных кейсах и трендах развития IoT/M2M-рынка https://events.cnews.ru/events/internet_veschei_2021__trendy__proekty__rezultaty.shtml
29-30 мая 2021 - CodeFest 11. Новая надежда, Новосибирск, Экспоцентр. Билеты офлайн уже закончились, но можно смотреть онлайн-трансляцию интересных докладов от разработчиков, product- и project-менеджеров, а также тим/тех-лидов из Яндекса, Тинькоф, 2ГИС, Самоката, DeepPavlov, ВК, EPAM и десятка других ИТ-компаний https://11.codefest.ru/

94 views06:16

Открыть/Комментировать

2021-04-28 20:24:39 Новое поколение AI-приложений с открытым API для продвинутой аналитики, от семантического поиска, обобщения и анализа тональности до генерации и перевода контента с GPT-3.
С момента первого коммерческого релиза OpenAI API от GPT-3 более 300 приложений используют его в различных категориях и отраслях, от производительности и образования до творчества и игр. Читайте 3 истории успеха https://openai.com/blog/gpt-3-apps/ и попробуйте сам продукт для своих DS-задач https://beta.openai.com/

83 views17:24

Открыть/Комментировать

2021-04-25 16:30:18 Что такое Graph Transformer и как работает эта NN-модель
Нейронные сети на основе трансформаторов в NLP-задачах позволяют обойти ограничения рекуррентных нейронных сетей (RNN), вызванные последовательной обработкой. Сопоставляя слова в предложении и комбинируя полученную информацию, они могут генерировать абстрактные представления его признаков. Обучение на графах с графическими нейронными сетями (GNN) из нескольких параметризованных слоях стало мощным инструментом глубокого обучения. Каждый слой GNN берет граф с функциями узлов и ребер, строя абстрактные представления их признаков на основе доступной явной структуры связности (структуры графа). Сгенерированные таким образом признаки затем передаются на следующие уровни, чтобы спрогнозировать целевую фичу. Обобщение нейронных сетей-трансформеров до графов позволяет обучаться на графах и наборах данных с произвольной структурой, а не только на последовательных преобразователях NLP.
https://www.topbots.com/graph-transformer/

103 views13:30

Открыть/Комментировать

2021-04-21 17:11:46

Методы удаления дубликатов в Apache Spark

103 views14:11

Открыть/Комментировать

2021-04-21 17:11:17 Как удалить дубли в датасете при работе с Apache Spark?
Используйте следующие методы API-интерфейсов фреймворка:
• distinct() ¬- самый простой и часто использующийся способ убрать из датафрейма идентичные повторяющиеся строки
• dropDuplicates() – в отличие от distinct(), который не принимает аргументов вообще, в аргументах dropDuplicates() можно указать подмножество столбцов для удаления повторяющихся записей. Поэтому dropDuplicates(Seq colNames) больше подходит, когда нужно обработать только некоторые столбцы из исходного набора данных.
• reduceByKey() – возвращает новый RDD - распределенный набор данных из пар «ключ-значение» (K, V), в котором все значения для одного ключа объединяются в кортеж - ключ и результат выполнения функции reduce для всех значений, связанных с этим ключом. Этот метод удаления дублей ограничен размером Scala-кортежа, который содержит от 2 до 22 элементов. Поэтому reduceByKey() не стоит использовать, когда в ключах или значениях Spark RDD более 22 столбцов.
• collect_set() - функция из API-интерфейса Spark SQL собирает и возвращает набор уникальных элементов. Она не является детерминированной, т.к. порядок результатов зависит от порядка строк, который может измениться после перемешивания, и представляет собой не «настоящую» дедупликацию. По сути, collect_set() – это сворачивание записей путем выполнения groupBy() и сбора уникальных значений для столбца, относящегося к каждой группе.
• написать собственную оконную функцию, чтобы обойти ограничение размера кортежей Scala. Например, разделить RDD по столбцам, отсортировать их и отфильтровать нужные значения.

95 views14:11

Открыть/Комментировать

2021-04-18 16:33:18 Как понять и разработать ИИ путем поиска и выделения репрезентативных сценариев: инструмент Bayes-TrEx от исследований MIT
Одной точности ML-результатов недостаточно, чтобы уверенно использовать их в любой области. Фокус только на этом показателе может привести к опасным упущениям. Модель может совершать ошибки с высокой степенью уверенности, сталкиваясь с чем-то ранее невидимым, например, когда беспилотный автомобиль видит новый дорожный знак. Чтобы улучшить взаимодействие человека и ИИ, группа исследователей из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института создала новый инструмент под названием Bayes-TrEx, который позволяет разработчикам и пользователям повысить прозрачность своих AI-моделей. Это делается за счет поиска конкретных примеров, которые приводят к определенному поведению. В методе используется байесовский апостериорный вывод, широко используемый математический аппарат для рассуждения о неопределенности модели.
В ходе экспериментов метод Bayes-TrEx тестировался на нескольких наборов данных, позволив обнаружить новые идеи, которые ранее не учитывались стандартными оценками, сосредоточенными исключительно на точности прогнозов. Bayes-TrEx можно применять в медицинской диагностике, системах автономного вождения, робототехнике и пр. Метод поможет разрешить новые проблемные ситуации заранее и позволит разработчикам исправить любые нежелательные результаты до того, как случатся потенциальные трагедии или впустую потратятся ресурсы.
https://news.mit.edu/2021/more-transparency-understanding-machine-behaviors-bayes-trex-0322

101 views13:33

Открыть/Комментировать

2021-04-16 18:28:18 6 типов RNN для моделирования последовательных данных
Зачем моделировать последовательные данные и почему это не так-то просто. Решаем задачу с помощью рекуррентных нейросетей: много математики и наглядных иллюстраций, а также подробный пример реализации RNN в Keras / Tensorflow и Python.
https://neptune.ai/blog/recurrent-neural-network-guide

137 views15:28

Открыть/Комментировать

2021-04-13 10:01:00 З простых Python-функции для работы с пропусками в датасете для ML
• fillna() - функция из пакета Pandas для заполнения нулевых (NA/NaN) значений в данных. Она возвращает объект, в котором заполнены нулевые и отсутствующие значения: Series.fillna (значение = None, method = None, axis = None, inplace = False, ** kwargs)
• dropna() - функция для удаления нулевых значений из данных разными способами. Она анализирует и удаляет строки/столбцы, в которых есть отсутствующие или неопределенные значения (NaN). Значение параметра axis указывает, со строками или столбцами нужно работать: 0 – удаление строк с пропущенными значениями, а axis=1 удалит столбцы с пропусками. DataFrame.dropna (axis = 0, how = ’any’, thresh = None, subset = None, inplace = False)
• interpolate() – функция для заполнения отсутствующих значений/NaN с использованием разных методов интерполяции. DataFrame.interpolate(method=’linear’, axis=0, limit=None, inplace=False, limit_direction=’forward’, limit_area=None, downcast=None, **kwargs)

124 views07:01

Открыть/Комментировать

2021-04-11 11:42:21 Pandas – отличная Python-библиотека для анализа данных, которой должен владеть каждый Data Scientist. Однако, у этого инструмента нет многопроцессорной поддержки и он довольно медленно работает с большими наборами данных. Поэтому для быстрой обработки действительно больших массивов информации следует выбирать Vaex и Dask.
Dask https://dask.org/ - библиотека анализа данных на базе Pandas с параллельными вычислениями и масштабируемой производительностью. Кроме Pandas, она также интегрирована с библиотеками Numpy и Scikit-learn, упрощая переключение между ними за счет API-интерфейсов на Python и структур данных.
Vaex https://vaex.io/docs/index.html - высокопроизводительная Python-библиотека для отложенных вычислений с «ленивыми» датафреймами, аналогичных Pandas, а также визуализации и агрегирования Big Data. Она позволяет вычислять базовую статистику по миллиарду строк в секунду, но, в отличие от Dask, не полностью интегрирована с другими библиотеками.

131 views08:42

Открыть/Комментировать