Big Data Science [RU]

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 1.79K

Описание канала:

Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career

▲ Vote (1)

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал bdscience_ru и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 7

2022-04-20 07:12:50 3 Python- библиотеки для работы с URL
Задача обработки URL-адресов на практике встречается довольно часто. Например, составить список наиболее часто посещаемых сайтов или тех, визиты на которые разрешены в рабочее время с корпоративных компьютеров. Для автоматизации подобных кейсов пригодятся следующие Python- библиотеки:
• Yarl – позволяет извлекать фичи из URL-адреса, предоставляет удобный класс для анализа и изменения адреса веб-ресурса. Но работает только с Python 3 и не принимает логические значения в API – необходимо самостоятельно преобразовывать логические значения в строки, используя нужный протокол перевода. https://github.com/aio-libs/yarl
• Furl – упрощает разбор и манипулирование URL-адресами. Библиотека имеет широкий набор возможностей, но и ряд ограничений. В частности, объект furl может изменяться, поэтому могут случиться проблемы при передаче его во вне. https://github.com/gruns/furl
• URLObject – служебный класс для управления URL-адресами с помощью понятного API с фокусом на правильных именах методов, а не на переопределениях операторов. Сам объект здесь неизменяем, каждое изменение URL-адреса создает новый объект URL-адреса. Но библиотека не выполняет никаких преобразований декодирования/кодирования, с чем приходится пользователю разбираться самостоятельно. https://github.com/zacharyvoase/urlobject

277 views04:12

Открыть/Комментировать

2022-04-18 17:11:46 С практической точки зрения особенно важно, что реализация Z-скоринга очень проста: ее можно написать как небольшой программный скрипт или даже набор SQL-запросов, чтобы быстро получить легковесный MVP и оперативно проверить гипотезу.
https://towardsdatascience.com/anomaly-detection-in-sql-2bcd8648f7a8

320 views14:11

Открыть/Комментировать

2022-04-18 17:11:30

Простое и быстрое обнаружение аномалий методом Z-скоринга
Обнаружение аномалий — довольно распространенная проблема, которая охватывает множество сценариев, от финансовых мошенничеств до сбоев в компьютерной сети. Некоторые проблемы требуют сложных моделей машинного обучения, но чаще всего достаточно каких-то более простых и дешевых методов. Например, есть данные о продажах за период времени, где нужно отметить дни с аномально высокими объемами или выделить клиентов с аномально большим количеством считываний кредитной карты для проверки рисков.
Для таких случаев подойдет простой статистический метод отметки выбросов, называемый Z-скоринг. Оценка равна разнице текущего и среднего значений, разделенной на стандартное отклонение. Z-скоринг предполагает классическое нормальное распределение случайных величин. Преобразование значений в номинальной шкале в логарифмическую шкалу улучшит способность большинства ML-моделей различать взаимосвязи и улучшит способность Z-показателей отмечать выбросы.

302 views14:11

Открыть/Комментировать

2022-04-15 09:15:33

#тест
Метод опорных векторов (SVM) подойдет для

Anonymous Quiz

задач прогнозирования в условиях сильного зашумленния

81%

задач классификации

12%

разработки рекомендательных систем

задач генерации текста в NLP

170 voters455 views06:15

Открыть/Комментировать

2022-04-13 06:46:42 Зачем вам Modin: альтернатива Pandas для быстрой обработки Big Data
Обработка больших датафреймов с помощью Pandas происходит медленно, поскольку эта Python-библиотека не поддерживает работу с данными, которые не помещаются в доступную память. В результате рабочие процессы Pandas, которые хорошо работают для прототипирования нескольких МБ данных, не масштабируются до десятков или сотен ГБ реального датасета. Поэтому из-за однопоточного выполнения операций в оперативной памяти Pandas не очень подходит для обработки действительно больших наборов данных. с большими наборами данных. Есть альтернатива – Python-библиотека Modin с Pandas-подобным API, которая масштабируется по всем ядрам процессора, используя Dask или Ray движок.
Modin поддерживает работу с данными, которые не помещаются в памяти, так что вы можете комфортно работать с сотнями ГБ, не беспокоясь о существенном замедлении или ошибках памяти. Благодаря поддержке кластера и вне ядра Modin представляет собой библиотеку DataFrame с отличной производительностью на одном узле и высокой масштабируемостью в кластере.
В локальном режиме (без кластера) Modin создаст и будет управлять локальным (Dask или Ray) кластером для выполнения. При этом не нужно указывать, как распределять данные, или даже знать, сколько ядер у системы. Фактически, можно продолжать использовать код с Pandas, просто изменив оператор импорта библиотек с pandas на modin.pandas и получая значительное ускорение даже на одной машине. Modin обеспечивает ускорение до 4 раз на ноутбуке с 4 физическими ядрами.
Документация: https://modin.readthedocs.io/en/latest/index.html
Github: https://github.com/modin-project/modin

498 views03:46

Открыть/Комментировать

2022-04-11 17:40:14 Валидация датафреймов с Python-библиотекой Pandera
В крупных DS-проектах для валидации датасета и проверки качества данных можно использоваться фреймворк Great Expectations. Однако, для более мелких задач нужны более простые инструменты. Например, легковесная Python-библиотека Pandera, которая явно проверяет информацию в датафреймах во время выполнения. Pandera позволяет определить схему данных один раз с помощью API на основе классов с pydantic-синтаксисом и использовать ее для проверки различных типов датафреймов, включая pandas, dask, modin и pyspark.pandas. Можно проверять типы и свойства столбцов в pd.DataFrame или значения в pd.Series, выполняйте более сложную статистическую проверку, например проверку гипотез. Из объектов схемы можно синтезировать данные для тестирования на основе свойств с помощью структур данных pandas.
Декораторы функций позволяют интегрироваться с существующими конвейерами анализа/обработки данных с помощью декораторов функций. Благодаря отложенной проверке, можно валидировать датафреймы до возникновения ошибок. Наконец, совместимость с другими Python-инструментами, таких как pydantic, fastapi и mypy, делают Pandera полезным средством для ML-разработчика и аналитика данных.
Документация: https://pandera.readthedocs.io/en/stable/
Практический пример: https://towardsdatascience.com/validate-your-pandas-dataframe-with-pandera-2995910e564

481 views14:40

Открыть/Комментировать

2022-04-08 09:37:40

#тест
Чем отличаются XGBoost и LightGBM

Anonymous Quiz

14%

В XGBoost есть встроенный метод для категориальных признаков, а в LightGBM - нет

34%

В LightGBM есть встроенный метод для категориальных признаков, а в XGBoost - нет

12%

XGBoost является алгоритмом градиентного спуска, а LightGBM основан на логистической регрессии

40%

они ничем не отличаются, это один и тот же алгоритм от разных разработчиков

164 voters555 views06:37

Открыть/Комментировать

2022-04-06 17:29:32 После переноса знаний из большой модели в более эффективную модель меньшего размера, чтобы преобразовать модель Pegasus в гибридную архитектуру кодировщика Transformer и декодера RNN, для повышения эффективности было уменьшено количество слоев декодера RNN. В полученной модели улучшены задержки и объем памяти, сохранив исходное качество.
https://ai.googleblog.com/2022/03/auto-generated-summaries-in-google-docs.html

573 views14:29

Открыть/Комментировать

2022-04-06 17:29:31 Автогенерация резюме из Google-документов
Google-документы теперь автоматически генерируют резюме их содержания. резюме содержания, когда они доступны. Хотя все пользователи могут добавлять сводки, автоматически созданные предложения в настоящее время доступны только бизнес-клиентам Google Workspace.
Это достигается за счет ML-моделей понимания естественного языка (NLU) и генерации естественного языка (NLG), особенно Transformer и Pegasus. Популярным методом объединения NLU и NLG является обучение модели машинного обучения с использованием обучения от последовательности к последовательности, где входными данными являются слова документа, а выходными данными — итоговые слова. Затем нейронная сеть учится сопоставлять входные токены с выходными токенами. Ранние приложения парадигмы последовательности к последовательности использовали рекуррентные нейронные сети (RNN) как для кодировщика, так и для декодера.
Внедрение Transformers обеспечило многообещающую альтернативу RNN благодаря внутреннему вниманию для лучшего моделирования длинных входных и выходных зависимостей, что имеет решающее значение при резюмировании документов. Тем не менее, эти модели требуют больших объемов размеченных вручную данных для достаточного обучения, поэтому одного появления Transformers было недостаточно, чтобы значительно продвинуться вперед в области суммирования документов.
Комбинация Transformers с самоконтролируемой предварительной подготовкой (BERT, GPT, T5) привела к крупному прорыву во многих задачах NLU, для которых доступны ограниченные размеченные данные. В предварительном обучении с самоконтролем модель использует большие объемы немаркированного текста, чтобы изучить общие возможности понимания языка и генерации. Затем, на последующем этапе тонкой настройки, модель учится применять эти способности к конкретной задаче, такой как подведение итогов или ответы на вопросы.
Работа Pegasus продвинула эту идею еще на один шаг вперед, введя предтренировочную цель, приспособленную к абстрактному обобщению. В предварительном обучении Pegasus, также называемом прогнозированием пробелов в предложениях (GSP), полные предложения из немаркированных новостных статей и веб-документов маскируются от входных данных, и модель требуется для их восстановления в зависимости от оставшихся немаскированных предложений. В частности, GSP пытается замаскировать предложения, которые считаются важными для документа, с помощью различных эвристик, чтобы сделать предварительную тренировку как можно ближе к задаче подведения итогов. Компания Pegasus добилась самых современных результатов на разнообразном наборе наборов данных для суммирования.
Используя преимущества Transformer и Pegasus, исследователи Google AI тщательно очистили и отфильтровали данные тонкой настройки, чтобы они содержали обучающие примеры, которые были более последовательными и представляли связное определение резюмирующего текста. Несмотря на уменьшение количества обучающих данных, это привело к более качественной модели. Затем была решена проблема обслуживания высококачественной модели в производстве. Хотя версия Transformer архитектуры кодер-декодер является доминирующим подходом к обучению моделей для задач последовательного преобразования последовательностей, таких как абстрактное суммирование, она может быть неэффективной и непрактичной для использования в реальных приложениях. Основная неэффективность связана с декодером Transformer, где токен выходной сводки генерируется последовательно посредством авторегрессионного декодирования. Процесс декодирования становится заметно медленнее, когда сводки становятся длиннее, поскольку декодер обрабатывает все ранее сгенерированные токены на каждом этапе. RNN представляют собой более эффективную архитектуру для декодирования, поскольку при использовании предыдущих токенов отсутствует внутреннее внимание, как в модели Transformer.

500 views14:29

Открыть/Комментировать

2022-04-04 07:10:15 Снижение шума в квантовых компьютерах: исследование MIT
Квантовые компьютеры очень чувствительны к шумовым помехам, которые вызываются несовершенными управляющими сигналами, возмущениями окружающей среды и нежелательными взаимодействиями между кубитами. Поэтому исследователи из MIT создали QuantumNAS - структуру, которая может идентифицировать наиболее надежную квантовую схему для конкретной вычислительной задачи и генерировать шаблон отображения, адаптированный к кубитам целевого квантового процессора. устройство. QuantumNAS требует гораздо меньше вычислительных ресурсов, чем другие методы поиска, и может идентифицировать квантовые схемы, повышающие точность задач машинного обучения и квантовой химии. В классических нейронных сетях включение большего количества параметров часто повышает точность модели. Но в вариационных квантовых вычислениях для большего количества параметров требуется больше квантовых вентилей, что вносит больше шума.
Для этого сперва была спроектирована супер-схема со всеми возможными параметризованными квантовые элементы в пространстве проектирования. Затем эта схема была обучена и использовалась для поиска схемных архитектур с высокой устойчивостью к шуму. Процесс включает в себя одновременный поиск квантовых схем и отображений кубитов с использованием эволюционного алгоритма поиска. Этот алгоритм генерирует несколько кандидатов на отображение квантовых схем и кубитов, а затем оценивает их точность с помощью модели шума или на реальной машине. Результаты возвращаются обратно в алгоритм, который выбирает наиболее эффективные части и использует их для повторного запуска процесса, пока не найдет идеальных кандидатов. Разработчики собрали полученные результаты исследования в библиотеку с открытым исходным кодом TorchQuantum https://github.com/mit-han-lab/torchquantum.
https://news.mit.edu/2022/quantum-circuits-robust-noise-0321

513 views04:10

Открыть/Комментировать