Big Data Science [RU]

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 1.79K

Описание канала:

Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career

▲ Vote (1)

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал bdscience_ru и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 5

2022-05-30 16:50:08 Оперативный мониторинг ML и ПО-метрик в одной платформе
В реальных системах машинного обучения важно вести непрерывное наблюдение за данными и моделями. Даже сама ML-модель осталась прежней, характер данных мог измениться, что может непосредственно повлиять на пользователей. Сегодня на рынке существует множество платформ, предназначенных для мониторинга ПО, куда собираются различные системные и бизнес-метрики, чтобы отражать наиболее важные данные на наглядных дэшбордах и генерировать уведомления. Например, Grafana, Datadog, Graphite и пр.
Также есть средства для мониторинга ML-систем машинного обучения типа Neptune, Amazon SageMaker Model Monitor, Censius и прочие MLOps-средства. Но можно объединить наблюдение за работой системы машинного обучения с классическим инженерным мониторингом ПО на одной платформе. Это достижимо с помощью New Relic, телеметрической платформы удаленного мониторинга мобильных и веб-приложений, которая позволяет собирать, исследовать и получать оповещения обо всех данных телеметрии из любого источника в одном месте. Благодаря интеграции со многими open-source инструментами New Relic может работать с различными источниками и приемниками данных.
Отправка данных из ML-систем в New Relic реализуется с помощью Python-библиотеки ml-performance-monitoring с открытым исходным кодом, которая доступна на GitHub (https://github.com/newrelic-experimental/ml-performance-monitoring).
https://towardsdatascience.com/monitor-easy-mlops-model-monitoring-with-new-relic-ef2a9b611bd1

178 views13:50

Открыть/Комментировать

2022-05-27 09:50:39

#тест
Shuffle-операции влияют на скорость выполнения распределенной программы

Anonymous Quiz

14%

положительно (ускоряют выполнение запроса)

68%

отрицательно (снижают выполнение запроса)

18%

вообще не влияют на скорость программы

77 voters177 views06:50

Открыть/Комментировать

2022-05-25 06:30:26 МЕГАмасштабирование при квантовом ML
Теоретически квантовые компьютеры могут оказаться более мощными, чем любой обычный компьютер, особенно в задачах нахождения простых множителей чисел — математической основы современного шифрования, которое защищает банковские и другие важные данные. Чем больше компонентов, известных как кубиты, связаны друг с другом в квантовом компьютере, когда несколько частиц могут мгновенно влиять друг на друга, независимо от того, насколько далеко они друг от друга, тем больше его вычислительная мощность может расти в геометрической прогрессии.
Одним из потенциальных применений квантового ML является моделирование квантовых систем, например, химических реакций, чтобы создать новые лекарства. Но средняя производительность ML-алгоритма зависит от того, сколько у него данных. Объем данных в итоге ограничивает производительность машинного обучения. Поэтому для моделирования квантовой системы количество обучающих данных, которые могут потребоваться квантовому компьютеру, будет расти экспоненциально по мере того, как моделируемая система становится больше. Это потенциально нивелирует преимущество квантовых вычислений над классическими.
Ученые предложили связать дополнительные кубиты с квантовой системой, которую должен моделировать квантовый компьютер. Этот дополнительный набор «вспомогательных» кубитов может помочь схеме квантового ML одновременно взаимодействовать со многими квантовыми состояниями в обучающих данных. Так схема квантового ML может работать даже с относительно небольшим количеством вспомогательных устройств. На практике реализовать эту идею пока довольно сложно, но проверить ее можно в рамках экспериментов ЦЕРНа, крупнейшей лаборатории физики элементарных частиц в мире.
https://spectrum.ieee.org/quantum-machine-learning

185 views03:30

Открыть/Комментировать

2022-05-24 14:06:04

X5 Group запускает собственную платформу Salt

Когда в мире сгущаются тучи – самое время создать собственное облако!

Ритейлер запустил частое облако Salt на основе open source технологий и разработок Х5, которое, как отмечается, позволит сократить стоимость владения IT-инфраструктурой, ускорить time-to-market цифровых проектов и сократить углеродный след за счёт «зелёных» технологий в дата-центрах.

Отдельные компоненты платформы предоставляются внутренним клиентам Х5 как сервис, включая ЦОД как услугу в части хранения и обработки данных. Это позволяет обеспечить доступность на уровне 99,9%.

369 views11:06

Открыть/Комментировать

2022-05-23 06:09:12 Сколько информации в ваших данных? Ответ от MIT
Информация и данные – это разные вещи. Не все данные одинаковы. Но сколько информации может содержать любой фрагмент данных? Впервые этот вопросы был раскрыт в статье 1948 года «Математическая теория коммуникации» почетного профессора MIT Клода Шеннона. Одним из прорывных результатов Шеннона является идея энтропии, которая позволяет количественно оценить количество информации, присущей любому случайному объекту, включая случайные величины, которые моделируют наблюдаемые данные. Результаты Шеннона заложили основы теории информации и современных телекоммуникаций. Концепция энтропии также оказалась центральной в информатике и машинном обучении.
Но использование формулы Шеннона может быстро стать неразрешимым с вычислительной точки зрения. Это требует точного расчета вероятности данных и всех возможных способов возникновения данных в рамках вероятностной модели. Это становится проблемой в реальных случаях, например, медицинское тестирование, где положительный результат теста является результатом сотен взаимодействующих переменных, и все они неизвестны. Имея всего 10 неизвестных, у данных уже есть 1000 возможных объяснений. С несколькими сотнями возможных объяснений больше, чем атомов в известной Вселенной, что делает вычисление энтропии абсолютно неразрешимой проблемой.
Исследователи MIT разработали новый метод оценки приближений ко многим информационным величинам, таким как энтропия Шеннона, с помощью вероятностного вывода. Работа представлена в статье конференции AISTATS 2022. Ключевой вывод в том, чтобы вместо перечисления всех объяснений, использовать алгоритмы вероятностного вывода. Это поможет сначала сделать вывод, какие объяснения вероятны, а затем использовать их для построения высококачественных оценок энтропии. Доказано, что этот подход, основанный на выводах, может быть намного быстрее и точнее, чем предыдущие подходы.
Оценка энтропии и информации в вероятностной модели принципиально сложна, поскольку часто требует решения многомерной задачи интегрирования. Во многих предыдущих работах были разработаны оценки этих величин для некоторых особых случаев, но новые оценки энтропии через вывод (EEVI) предлагают первый подход, который может дать точные верхние и нижние границы для широкого набора величин, основанных на теории информации. Верхняя и нижняя границы означают, что, хотя мы не знаем истинной энтропии, мы можем получить число, которое меньше ее, и число, которое выше ее. Разница между верхней и нижней границами дает количественное представление о том, насколько мы должны быть уверены в оценках. Используя больше вычислительных ресурсов, можно свести разницу между двумя границами к нулю, что «сжимает» истинное значение с высокой степенью точности. Также можно составить эти границы, чтобы сформировать оценки многих других величин, которые говорят, насколько информативны разные переменные в модели друг для друга.
Новый метод особенно полезен для запроса вероятностных моделей в таких областях, как медицинская диагностика. Например, решать новые запросы, используя богатые генеративные модели для сложных заболеваний, ранее изученных медицинскими экспертами.
https://news.mit.edu/2022/estimating-informativeness-data-0425

288 views03:09

Открыть/Комментировать

2022-05-20 17:48:06

#тест
Ключевое отличие оконных и агрегатных функций в том, что

Anonymous Quiz

разницы в результате нет, но оконные функции сложнее агрегатных

39%

оконные функции сворачивают результат вычислений над группой строк в одно значение

46%

оконные функции не сворачивают результат вычислений над группой строк в одно значение

15%

в агрегатных функциях все строки сохраняют исходную идентичность, результат возвращается для каждой

59 voters138 views14:48

Открыть/Комментировать

2022-05-18 07:03:42 Визуализация графов с PyGraphistry
PyGraphistry — это ИИ-библиотека Python для визуальных графов, позволяющая извлекать, преобразовывать, анализировать и визуализировать большие графы вместе со сквозными сеансами графического сервера Graphistry. Graphistry создан специально для больших графов. Пользовательский механизм рендеринга WebGL клиента рендерит до 8 миллионов узлов + ребер за раз, а большинство клиентских GPU поддерживают от 100 000 до 2 миллионов элементов. Механизм аналитики графического процессора на стороне сервера поддерживает графы еще большего размера. Graphistry сглаживает графические рабочие процессы в экосистеме PyData, включая датафреймы Pandas/Spark/Dask, графического процессора Nvidia RAPIDS, графы GPU, графовые нейросети DGL/PyTorch и различные коннекторы данных.
PyGraphistry — это дружественный и оптимизированный нативный интерфейс PyData для API-интерфейсов REST Graphistry, не зависящих от языка. Можно использовать PyGraphistry с традиционными источниками данных Python, такими как CSV, SQL, Neo4j, Splunk и другими.
Клиент PyGraphistry Python пригодится следующим категориям пользователей:
• Data scientist: переходите от данных к ускоренным визуальным исследованиям за пару строк, делитесь результатами в реальном времени, создавайте сложные представления в Jupyter Notebook и Google Colab.
• Разработчик: быстро создавайте прототипы потрясающих решений Python с помощью PyGraphistry, встраивайте независимый от языка способ с помощью API REST, настраивая цвета, значки, макеты, JavaScript и пр.
• Аналитик: стройте наглядные дэшборды, используя интерактивный поиск, фильтры, временные шкалы, гистограммы и др., встраивая их в любые фреймворки.
https://github.com/graphistry/pygraphistry

231 views04:03

Открыть/Комментировать

2022-05-16 06:03:45 ТОП-5 новинок Python Alpha 5
В апреле 2022 года вышла новая версия Python - Alpha 5 (3.11). Главные фичи:
• Улучшение отладки с цепочкой исключений и сообщениях. В Python 2022 исключения будут включать в себя подробное свойство с местоположением обратной трассировки, указывающее прямо туда, где произошла ошибка. Python 2 имел аналогичную функцию, но требовал добавления context в код, что усложняло реализацию. Теперь__context__ добавляется автоматически.
• Вариативная обработка исключений – теперь можно по-разному обрабатывать исключение в зависимости от того, с какими другими исключениями оно связано. Можно использовать несколько операторов исключений с явным числом отдельных исключений в каждом. Просто создайте большой блок try/except со всеми возможными именами исключений, а затем добавьте в него дополнительные операторы exclude. Именно для этого и предназначены группы исключений, которые позволяют логически сгруппировать множество различных исключений вместе и применить единую функцию-обработчик, вызываемую только если внутри программы возникает какое-либо из этих отдельных исключений.
• Variadic Generics — теперь можно создавать функции, которые принимают переменное количество аргументов (до 22). Раньше нужно было определить функцию, которая могла бы принимать любое количество аргументов, а затем явно передавать каждый параметр. Variadic Generics в Python 3.6 позволяет отправлять любое количество параметров за один раз, что полезно при повторе нескольких операций.
• Оптимизация производительности CPython. Изменения для функций, связанных с вызовами и поиском ключевых слов, должны уменьшить накладные расходы, вызванные стеком C, ускоряя все, от разработки объектно-ориентированного кода до доступа к словарям данных.
• Упрощение работы других языков, таких как JavaScript, поверх Python, за счет высокопроизводительных и параллельных вычислений.
https://morioh.com/p/af7debd024e2
https://medium.com/@Sabrina-Carpenter/python-alpha-5-is-here-5-promising-features-that-will-blow-your-mind-a4abd406d0ad

316 views03:03

Открыть/Комментировать

2022-05-13 06:25:11

#тест
Главное отличие выполнения операций MapReduce в Hadoop и Spark

Anonymous Quiz

10%

Hadoop быстрее

26%

никаких отличий нет, все одинаково

32%

Spark быстрее

33%

отличия только в объеме обрабатываемых данных

101 voters202 views03:25

Открыть/Комментировать

2022-05-11 06:42:09 Loguru для логгирования Python-скриптов
Эта библиотека пригодится ML-специалистам и дата-инженерам, которые часто пишут на Python. Она автоматизирует логирование и упрощает процесс отладки. Кроме того, Loguru включает ряд полезных функций, которые устраняют предостережения стандартных средств ведения журнала.
Loguru работает по принципу plug-and-play и имеет такие функции, как свертывание журналов несколькими способами, автоматическое сжатие лог-файлов и регулярное их удаление. А также поддерживает многопоточную безопасность и подсветку логов. Эту open-source библиотеку можно использовать вместе со средствами уведомлений по электронной почте для получения электронных писем при сбое программ или для отправки других типов уведомлений.
Наконец, Loguru поддерживает совместимость с собственным модулем ведения журнала Python, позволяя передавать всю информацию, записанную исходным стандартным регистратором, в Loguru.
Исходный код: https://github.com/Delgan/loguru
Пример использования: https://medium.com/geekculture/python-loguru-a-powerful-logging-module-5f4208f4f78c

276 viewsedited 03:42

Открыть/Комментировать