Big Data Science [RU]

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 1.79K

Описание канала:

Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career

▲ Vote (1)

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал bdscience_ru и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 8

2022-04-01 07:43:59

#тест
Градиентный бустинг основан на

Anonymous Quiz

13%

линейной регрессии

74%

ансамбле деревьев решений

опорных векторах

логистической регрессии

223 voters615 views04:43

Открыть/Комментировать

2022-03-30 06:27:30 Генерация трехмерных сцен из 2-мерных фото с NeRF от NVIDIA
Инверсный рендеринг давно использует ИИ для аппроксимации поведения света в реальном мире, что позволяет реконструировать 3D-сцену из нескольких 2D-изображений, снятых под разными углами. Исследовательская группа NVIDIA разработала подход, который решает эту задачу почти мгновенно, сочетая сверхбыстрое обучение нейронной сети и быстрый рендеринг.
NVIDIA применила этот подход к популярной новой технологии, называемой нейронными полями излучения, или NeRF. Результат, получивший название Instant NeRF, является самой быстрой технологией NeRF на сегодняшний день, достигающей в некоторых случаях более чем 1000-кратного ускорения. Модели нужно всего несколько секунд, чтобы обучиться на нескольких десятках неподвижных фотографий — плюс данные о ракурсах камеры, с которых они были сделаны — и затем она может визуализировать результирующую 3D-сцену в течение десятков миллисекунд.
NeRF используют нейронные сети для представления и рендеринга реалистичных 3D-сцен на основе входной коллекции 2D-изображений. Сбор данных для передачи NeRF напоминает работу фотографа на красной ковровой дорожке: нейросети надо несколько десятков изображений, сделанных с разных точек сцены, а также положение камеры каждого из них.
Обычно создание 3D-сцены традиционными методами занимает несколько часов или больше, в зависимости от сложности и разрешения визуализации. Внедрение ИИ в картину ускоряет работу. Ранние модели NeRF рендерили четкие сцены без артефактов за несколько минут, но на обучение уходили часы. Instant NeRF сокращает время рендеринга на несколько порядков. Он основан на кодировании хэш-сетки с несколькими разрешениями, которая оптимизирована для эффективной работы на графических процессорах NVIDIA. Так можно добиться высококачественных результатов, используя быструю и небольшую нейронную сеть.
Модель разработана с использованием набора инструментов NVIDIA CUDA и библиотеки нейронных сетей Tiny CUDA. Благодаря легковесности нейросеть можно обучить и запустить на одном графическом процессоре NVIDIA — быстрее всего она работает на картах с тензорными ядрами NVIDIA.
Эта технология пригодится для обучения роботов и беспилотных автомобилей, чтобы они могли понимать размер и форму объектов реального мира путем захвата их 2D-изображений или видеозаписей. Его также можно использовать в архитектуре и развлечениях для быстрого создания цифровых представлений реальных сред, которые создатели могут изменять и использовать.
https://blogs.nvidia.com/blog/2022/03/25/instant-nerf-research-3d-ai/

685 views03:27

Открыть/Комментировать

2022-03-28 06:34:16 В нестабильном мире любимая профессия остается стабильной - повышаем свой профессиональный уровень. Главные апрельские Data Science ивенты 2022:
• 4 апреля - Greenplum Community Meetup, Москва, Мулен Руж https://cloud.yandex.ru/events/485
• 5 апреля - конференция «Цифровизация промышленности 2022» от CNews https://events.cnews.ru/events/it_v_promyshlennosti__ot_avtomatizacii_k_cifrovizacii.shtml
• 6 апреля - Конференция Banks IT Day от TAdviser https://www.tadviser.ru/index.php/Конференция:Конференция_Banks_IT_Day_2022
• 7 апреля - конференция «Большие данные и бизнес-аналитика 2022» от CNews https://events.cnews.ru/events/bolshie_dannye_i_biznes_analitika_2022.shtml
• 12-14 апреля - Конференция Retail TECH 2022, Москва, Центр Международной Торговли, Краснопресненская наб., д. 12 https://retailtech.ru/retailtech2022/

619 views03:34

Открыть/Комментировать

2022-03-25 09:23:40

#тест
Первым шагом в дизайне эксперимента будет

Anonymous Quiz

определение p-value

формирование выборок для тестирования

90%

формулирование гипотез

заполнение матрицы ошибок

183 voters600 views06:23

Открыть/Комментировать

2022-03-23 08:39:48 Полезные ML-сервисы: Everypixel API для распознавания изображений
Продолжаем знакомиться с полезными ML-инструментами. Встречаем Everypixel API - простой, но мощный метод визуального распознавания, который использует машинное обучение для понимания изображений.
API использует набор предварительно обученных моделей, которые анализируют изображения и возвращают полезную информацию. Он обрабатывает изображения, а затем помечает их соответствующими ключевыми словами, что помогает в их категоризации и модерации. Кроме того, он оценивает изображения в соответствии с их качеством и эстетической ценностью. Отлично подходит для интернет-магазинов и маркетплейсов, чтобы дополнить данные о продуктах и изображениях. Позволяет загружать изображения без написания описаний, так как они заполняются автоматически. Благодаря генерации ключевых слов для изображений, поможет в задачах SEO, а категоризация изображений улучшит поиск и навигацию по каталогам.
Плюсы Everypixel API:
• работает даже тогда, когда конечный пользователь делает снимок под неправильным углом или в условиях плохого освещения;
• видит изображения так, как их видит человек;
• может создавать ключевые слова, связанные с изображениями;
• делает выбор лучшего снимка из нескольких похожих фотографий;
• может оценивать изображения от 0 до 100 в зависимости от их качества.
Недостатки Everypixel API:
• Бесплатный план ограничен 100 запросами в день;
• не может оценивать исторические фотографии, иллюстрации или 3D-визуализации.
https://labs.everypixel.com/api

652 views05:39

Открыть/Комментировать

2022-03-21 06:19:34 Основы MLOps: 5 форматов для переноса ML-моделей
Для ML-систем важна переносимость между разными этапами жизненного цикла, от разработки до развертывания в production. Например, Data Scientist пишет код в блокнотах типа Jupyter Notebook или Google Colab. При переносе этого кода в производственную среду его следует преобразовать в легковесный формат обмена, сжатый и сериализованный, который не зависит от языка разработки. Такими форматами являются следующие:
• Pickle – бинарный вариант Python-объекта для сериализации и десериализации его структуры, т.е. преобразования иерархии объектов Python в поток байтов и наоборот;
• ONNX (Open Neural Network Exchange) - формат с открытым исходным кодом для ML-моделей, обеспечивающий общий набор операторов и универсальный формат файла для различных платформ и инструментов. ONNX-формат описывает граф вычислений (ввод, вывод и операции) и является автономным. Он ориентирован на глубокое обучение, поддерживается Microsoft и Facebook, отлично работает с TensorFlow и PyTorch.
• PMML (Predictive Model Markup Language) — формат обмена предиктивными моделями на основе XML, позволяющий разработать модель в одной системе для одного приложения и развернуть ее в другой с помощью другого приложения, передав конфигурационный XML-файл.
• PFA (Portable Format for Analytics) – стандарт для статистических моделей и механизмов преобразования данных, который отличается легкостью переносимости между различными системами и моделями. Функции предварительной и последующей обработки могут быть объединены в цепочку и встроены в сложные рабочие процессы. PFA может быть простым преобразованием необработанных данных или сложным набором параллельных моделей интеллектуального анализа данных с файлом конфигурации JSON или YAML.
• NNEF (Neural Network Exchange Format) – формат, который облегчает процесс развертывания машинного обучения, позволяя использовать набор инструментов обучения нейросетей для приложений на различных устройствах и платформах.
Также есть форматы, специфичные для отдельных фреймворков, например, POJO/MOJO для AutoML-платформы H2O и Spark MLWritable для Apache Spark.

622 viewsedited 03:19

Открыть/Комментировать

2022-03-18 14:18:15 Что в глубинах Data Lake?

На Хабр вышел отличный текст от технического руководителя Core Data Lake центра Big Data МТС о том, какие слои находятся внутри Data Lake, как построить архитектуру базы данных и чем распределенный Data Mesh-подход отличается от монолитного хранения данных.

В статье автор рассказал о задачах, архитектуре и проблемах развития Data lake, а также представил способы решения возникающих проблем, специфику процессов и перспективы развития.

Читать тут.

775 views11:18

Открыть/Комментировать

2022-02-28 12:22:26 Повышать свой профессионализм в Data Science сегодня актуально, как никогда прежде. Узнавайте новое – в марте 2022 некоторые конференции теперь доступны и офлайн:
• 1 марта в 10:30 МСК - DataDriven 2022 - ежегодная конференция Яндекса для специалистов, использующих анализ данных для принятия бизнес-решений. Москва, улица Льва Толстого, 16, подъезд Экстрополис https://events.yandex.ru/events/data-driven-2022
• 2 марта в 18:00 МСК – митап об аналитике эффективности в СберМаркете https://sbermarket.timepad.ru/event/1912282/
• 2 марта в 11:00 МСК – вебинар Oracle и Инфосистемы Джет: «Как изменить мир, управляя данными. Традиционные хранилища, Data Lake или Data Mesh: в чем разница?" https://events.webinar.ru/jet/DataLake
• 16 марта в 22:00 МСК - Greenplum Community Meetup – Москва, Мулен Руж https://cloud.yandex.ru/events/485
• 21-24 марта - конференция GTC: 4 дня открытий от ведущих экспертов по искусственному интеллекту и совместной разработки виртуальных миров на платформе NVIDIA Omniverse https://www.nvidia.com/gtc/
• 24 марта - Data Day 2022 – форум, который посвящен новым возможностям работы с данными и их монетизации от организаторов Scoring Day – крупнейшего форума по скорингу в РФ. Москва, Берсеневская набережная, д.6, стр.3, Старт Хаб на Красном Октябре https://data-day.ru
• 24 марта - Форум BIG DATA&AI 2022 – центральное событие года по теме больших данных, продвинутой аналитики и искусственного интеллекта https://www.osp.ru/lp/bigdata2022
• Data Fusion Contest 2022 - соревнование по машинному обучению: 3 задачи, 2 номинации и 2 000 000 рублей. Старт был 3 февраля, финал 4 апреля 2022. https://ods.ai/tracks/data-fusion-2022-competitions

256 views09:22

Открыть/Комментировать

2022-02-27 14:15:23

15 марта Newprolab запускает уже 16-й поток своей флагманской онлайн-программы «Специалист по большим данным» – 12 недель, 36 занятий, 9 инидвидуальных лабораторных работ и 2 командных проекта!

Участники смогут погрузиться в мир больших данных и поработать со всеми значимыми инструментами экосистемы, как это сделали уже более 300 выпускников этой программы

Специально для подписчиков канала действует дополнительная скидка 15% (от цены, указанной на сайте, по 15.03.2022 включительно) по промокоду "BDSCIENCE_0222": https://clck.ru/apR8H

Вы научитесь строить модели машинного обучения, писать MapReduce-джобы, используя Hadoop Streaming и Python, работать с данными на HDFS, проводить анализ при помощи Apache Spark, строить алгоритмы рекомендательных систем.

И все это – на реальных дата-сетах и облачном кластере, живых бизнес-кейсах с преподавателями-практиками и нетворком в сообществе единомышленников.

Оставляйте заявку и задавайте вопросы: https://clck.ru/apR8H

223 views11:15

Открыть/Комментировать

2022-02-25 07:47:49 3 API ML-сервисов для распознавания лиц: выбирайте то, что нужно
• API IBM Watson Visual Recognition для идентификации сцен, объектов и лиц на изображениях, загружаемых в сервис. Может обрабатывать неструктурированные данные в большом объеме и подходит в качестве системы поддержки принятия решений. Но дорог в техническом обслуживании и не обрабатывает структурированные данные напрямую. Метод распознавания лиц не поддерживает общее биометрическое распознавание, а максимальный размер изображения составляет 10 МБ с минимальной рекомендуемой плотностью 32x32 пикселя на дюйм. Походит для классификации изображений с помощью встроенных классификаторов, позволяет создавать собственные классификаторы и обучать ML-модели. https://www.ibm.com/watson
• API распознавания лиц Kairos позволяет разработчикам ML-приложений добавлять в них возможности распознавания лиц, написав всего несколько строк кода. Kairos Face Recognition API показывает высокую точность в реальных сценариях и хорошо работает в условиях низкой освещенности, а также частичного скрытия лица. Применяет этический подход к идентификации лиц, учитывая разнообразие. Это расширяемый инструмент: пользователи могут применять дополнительные интеллектуальные функции для работы с видео и фото в реальном мире. Подходит для работы с большими объемами изображений и обеспечивает конфиденциальность за счет безопасного хранения собранных данных и регулярного аудита. Однако, поддерживает только типы файлов BMP, JPG и PNG, файлы GIF не поддерживаются. В работе немного медленнее, чем API AWS. https://www.kairos.com/docs/getting-started-with-kairos-face-recognition
• API компьютерного зрения Майкрософт в Azure предоставляет разработчикам доступ к расширенным алгоритмам обработки изображений. После загрузки изображения или указания его URL-адреса алгоритмы Microsoft Computer Vision анализируют его визуальное содержимое различными способами в зависимости от пользовательского выбора. Дополнительным преимуществом этого быстрого API является наглядные руководства, учебные пособия и примеры. Высокий уровень SLA гарантирует доступность не менее 99,9 % времени. Благодаря тесной интеграции с другими облачными сервисами Microsoft Azure, API можно упаковать в комплексное решение. Но при превышении лимита транзакций в секунду, время отклика будет сокращено до согласованного предела. Модель ценообразования зависит от спроса, поэтому сервис может оказаться дорогим, если количество запросов резко возрастает. Microsoft Computer Vision API отлично подходит для классификации изображений с объектами, живыми существами, декорациями и действиями, включая их идентификацию, категоризацию и тегирование изображений. Поддерживает распознавание лиц, настроения, возраста и сцен, оптическое распознавание символов для обнаружения текстового содержимого в изображениях. Также обеспечивает интеллектуальное управление фотографиями и ограничение показа модерируемого контента. https://azure.microsoft.com/en-us/services/cognitive-services/computer-vision/

247 views04:47

Открыть/Комментировать