Big Data Science [RU]

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 1.79K

Описание канала:

Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career

▲ Vote (1)

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал bdscience_ru и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 2

2022-08-15 06:53:53 3 типа аномалий в данных
Дата-аналитики и специалисты по Machine Learning часто сталкиваются с аномалиями в данных – случаями, которые не принадлежат к известному шаблону и выделяются, статистически отличаются от остальных наблюдений. Существует 3 типа аномалий:
• точечная аномалия, когда одна точка данных (наблюдение) в датасете находится далеко от остальных данных и представляет собой экстремум, неравномерность или отклонение, возникающее случайным образом и не связанное с общей закономерностью в данных. Точечная аномалия также известна как глобальный выброс, поскольку она значительно отличается от остального набора данных.
• контекстная аномалия, когда отдельный экземпляр выпадает из рассматриваемого контекста. Например, в случае данных временных рядов, таких как записи определенного количества во времени, контекст является временным. Точки данных, которые сильно отличаются от других данных в том же контексте, называются контекстуальными выбросами. К примеру, когда количество автомобилей, проезжающих через КПП на границе региона в марте, в среднем равно 1 тыс. за последние 20 лет. А в июне, когда стартует отпускной период, это число возрастает до 8 тысяч. Если число достигает 9 тысяч в марте, это будет считаться аномалией, а в летний период – не будет аномалией. Для ритейла характерно наблюдать всплеск числа покупателей в праздничный сезон. Но резкое увеличение продаж вне праздников или распродаж, можно назвать контекстуальным выбросом.
• Коллективная аномалия, когда группа коррелированных, взаимосвязанных или последовательных экземпляров значительно отличается от остальных данных, то эти точки данных в совокупности считаются аномальными. Для данных временных рядов это может выглядеть как типичные пики и спады, происходящие за пределами периода времени, когда сезонная последовательность является обычной, или как набор временных рядов, которые находятся в условиях выброса. Например, когда сразу большое количество компаний демонстрируют падение продаж в одно и то же время, хотя до этого был тренд на повышение.
https://medium.com/datadailyread/types-of-data-anomalies-2f6fb1747eb1

1.0K views03:53

Открыть/Комментировать

2022-08-13 05:48:54

#тест
На каких выборках можно применять t-критерий Стьюдента для проверки статистических гипотез?

Anonymous Quiz

25%

на любых

63%

на выборках с Гауссовским распределением вероятностей

на выборках с Лаплассовским распределением вероятностей

на выборках с распределением вероятностей по Парето

242 voters922 views02:48

Открыть/Комментировать

2022-08-09 10:32:37

11 августа состоится Alfa Data Science MeetUp#2

Участие бесплатное, необходимо зарегистрироваться на сайте, чтобы получить ссылку на онлайн-трансляцию.

Темы и спикеры:
Развитие клиентской базы: моделирование LTV и прогноз будущих доходов
- Сергей Королёв, Middle Data Scientist Альфа-Банк
Uplift-моделирование в ценообразовании кредитных продуктов
- Максим Коматовский, Junior Data Scientist Альфа-Банк
Совершенный код расчёт
- Максим Cтаценко, Team Lead/Senior DWH Developer в Яндекс
Побеждаем смещение распределения в задаче нейросетевого кредитного скоринга
- Алексей Фирстов, Senior Data Scientist Альфа-Банк

Митап пройдет в интерактивном формате, вопросы спикерам приветствуются, авторы лучших вопросов получат призы от Alfa Digital.

1.0K views07:32

Открыть/Комментировать

2022-08-08 14:13:26

Фантазии нейросети на стихи А.С. Пушкина

Видео сделано в DALL-E 2.
Озвучено нейросетью через сервис для озвучки текста - CyberVoice – генератор голоса на основе ИИ.
На данный момент использовать можно абсолютно бесплатно.

Регистрируемся > заходим в раздел тарифы > выбираем самый дорогой листая вниз (в данный момент всё бесплатно) > меню > свободный текст > новый проект > далее выбираем голос и вводим текст > жмём иконку в виде микрофона.

Голос с видео "Убийца чудовищ".

@digitaldiner

896 views11:13

Открыть/Комментировать

2022-08-08 12:52:36 Нужны данные для обучения ML-модели? Сгенерируй сам: 3 Python-пакета для генерации синтетических данных
Синтетические данные – это искусственно сгенерированный, а не собранный датасет по определенной тематике для обучения ML-модели или отработки техник анализа. Их можно создать самостоятельно, используя следующие Python-пакеты:
• Faker — очень простой и интуитивно понятный Python-пакет для генерации синтетических данных. Он отлично подойдет, когда нужно загрузить данные в базу, создать образцы XML-документов, подготовиться к нагрузочному тестированию или анонимизировать данные, полученные из реальных сервисов. https://github.com/joke2k/faker
• SDV (Synthetic Data Vault) — синтетическое хранилище данных для создания синтетических данных на основе заданного датасета. Сгенерированные данные могут быть одной таблицей, несколькими таблицами или временными рядами, и имеют те же свойства и статистику, что и исходный датасет. SDV генерирует синтетические данные с помощью DL-моделей. Даже если исходный датасет содержит несколько типов данных и пропуски, SDV обработает их. https://sdv.dev/SDV/
• Gretel Synthetics - пакет с открытым исходным кодом на базе рекуррентной нейронной сети для генерации структурированных и неструктурированных данных. Пакетный подход рассматривает набор данных как текстовые данные и обучает модель на их основе. Затем модель будет создавать синтетические данные с текстовыми данными. Поскольку Gretel основан на RNN-сетях, он требует больше вычислительной мощности, поэтому при работе с ним лучше использовать Google Colab, а не грузить личный компьютер. https://synthetics.docs.gretel.ai/en/stable/

790 views09:52

Открыть/Комментировать

2022-08-04 07:16:59 4 утилиты для работы с JSON-файлами
Hadoop и Spark, самые популярные фреймворки стека Big Data предназначены для работы с большими данными – файлами большого размера. Но часто нужно обработать много маленьких файлов, например, в формате JSON, которые в Hadoop HDFS будут распределены по множеству блоков данных и разделов. Количество разделов определяет количество задач, поскольку 1 задача может обрабатывать только 1 раздел за раз. Это будет большая нагрузка для Application Master и замедляет работу всего кластера. Кроме того, большая часть времени при этом тратится только на открытие и закрытие файлов, а не на чтение данных из файла.
Поэтому целесообразно объединить множество маленьких файлов в 1 большой, который Hadoop и Spark сможет обработать очень быстро. В случае JSON-файлов сделать такое объединение в массив записей помогут следующие утилиты:
• jq – часто используется для фильтрации и обработки входящих данных JSON, отлично подходит для анализа и обработки существующих данных https://stedolan.github.io/jq/
• jo - позволяет создавать структуры данных JSON проще и быстрее, чем вручную https://github.com/jpmens/jo
• json_pp – может отображать объекты JSON в более удобном формате, а также конвертировать их между разными форматам https://github.com/deftek/json_pp
• jshon - парсер JSON с возможностями быстрого анализа больших объемов данных http://kmkeen.com/jshon/
https://sidk17.medium.com/boss-we-have-a-large-number-of-small-files-now-how-to-process-these-files-ee27f67dc461

898 views04:16

Открыть/Комментировать

2022-08-02 09:17:55 Дата-аналитики говорят на SQL. Как им понять друг друга?
Каждый аналитик знает 5 правил форматирования SQL-запросов, чтобы их было легче читать:
• Писать ключевые слова (SELECT, FROM и WHERE) с новой строки без отступа
• Писать имя каждого столбца после SELECT с новой строки
• Делать отступы перед элементами условий с новой строки
• Писать подзапросы в круглых скобках с новой строки и отступами
• Писать каждое условие оператора Case с новой строки
Однако, на практике не все следуют этим простым правилам. Разумеется, специализированные IDE берут на себя функцию форматирования, например, в Visual Studio Code есть встроенные возможности форматирования запросов, и возможность подключения внешних плагинов типа SQLTools или SqlBeautifier. А если нужно прочитать 3-х этажный запрос от коллеги, представленный в виде плоского текста, помогут онлайн-форматеры, которые приведут текст SQL-запроса к читаемому виду:
• https://codebeautify.org/sqlformatter
• https://www.freeformatter.com/sql-formatter.html
• https://sqlformat.org/

807 viewsedited 06:17

Открыть/Комментировать

2022-07-30 07:57:43 В последний месяц лета 2022 можно успеть на следующие ивенты:
3 августа - вебинар «Возможности Yandex SpeechKit и голосовых роботов МТТ VoiceBox». Онлайн, 16:00 МСК https://cloud.yandex.ru/events/593
4 августа - митап «Виртуализация на отечественном: готовы ли отечественные решения к применению в реальных проектах?». Москва, StartHub.Moscow Красный Октябрь, Берсеневская набережная д. 6, с. 3, этаж 4 https://meetup.jet.su/virtualization
4 августа - вебинар "Public cloud на российской виртуализации vStack: обзор и сценарии применения". Онлайн, 11:00 МСК https://itglobal.com/ru-ru/company/events/public-cloud-na-rossijskoj-virtualizaczii-vstack-obzor-i-sczenarii-primeneniya/
5-7 августа - хакатон DATA HACK от компании SENSE Group, ГК «Иннотех» и «Акселератор Возможностей» при ИНТЦ МГУ «Воробьёвы Горы». Кейсы: разработка статического анализатора Spark SQL-кода, разработка генератора фейковых данных для сложных запросов, создание прототипа ETL-движка из Postgres, Oracle, ClickHouse в HDFS на Spark, который будет шаблонизирован через конфигурацию. Регистрация до 01.08.2022. Призовой фонд — 300 000 рублей, а также специальные призы и подарки от партнёров. https://data-hack.ru/
11 августа – вебинар «Управляемый сервис YDB: настройка, применение, мониторинг». Онлайн, 21:00 МСК. https://cloud.yandex.ru/events/597
13 августа - Auto Tech Challenge 2022 - технологический конкурс, призванный найти инновационные решения для автомобильной промышленности и внедрить востребованные продукты и сервисы в корпорации. Конкурс проводится под эгидой группы «ГАЗ», с привлечением экспертов из «Меркатор Холдинг», «АИР Магистраль», НТИ «Автонет», МГТУ им. Н. Э. Баумана и Московского политехнического университета. https://i.moscow/tech_contests/autotech2022

1.3K views04:57

Открыть/Комментировать

2022-07-27 07:33:56 Нужен MLOps на Python? Легко с PyMLPipe!
PyMLPipe - это легковесный Python-пакет для MLOps-процессов. Он помогает автоматизировать:
• Мониторинг модели и схемы данных
• Версионирование ML-модели и данных
• Сравнение производительности моделей
• Развертывание API в один клик
Эта библиотека с открытым исходным кодом поддерживает Scikit-Learn, XGBoost, LightGBM и Pytorch. Она имеет модульную структуру, представленную набором Python-функций, упакованных в API, и наглядный GUI. PyMLPipe отлично подходит для работы с табличными данными.
https://neelindresh.github.io/pymlpipe.documentation.io/

943 views04:33

Открыть/Комментировать

2022-07-26 19:08:23

@machinelearning_interview - здесь мы собираем все возможные вопросы и ответы с собеседований по Машинному обучению, нейронным сетям и Глубокому обучению. Для всех уровней разработчиков при поддержке авторов популярного канала Machine learning. Канал реально поможет пройти data science собеседование.

944 views16:08

Открыть/Комментировать