Big Data Science [RU]

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 1.79K

Описание канала:

Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career

▲ Vote (1)

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал bdscience_ru и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 10

2022-02-07 07:20:21 Undouble - Python-библиотека для обнаружения дубликатов изображений с помощью хеш-функций
Поиск идентичных или похожих фотографий вручную – долгая и утомительная задача. Ее не решить просто сравнением размера и имени файлов, т.к. фото берутся из разных источников (мобильные устройства, приложения для социальных сетей и пр.), что приводит к различиям в этих атрибутах и создает разницу в разрешении, масштабировании, сжатии и яркости. Хеш-функции идеально подходят для обнаружения идентичных и похожих фото из-за устойчивости к незначительным изменениям. На этой идее основана Undouble - Python-библиотека, которая работает с использованием многоэтапного процесса предварительной обработки изображений (оттенки серого, нормализация и масштабирование), вычисления хэша изображения и группировки изображений. Порог 0 будет группировать изображения с идентичным хешем изображения. Результаты можно легко изучить с помощью функции построения графика, а изображения можно перемещать с помощью функции перемещения. При перемещении изображений копируется изображение из группы с наибольшим разрешением, а все остальные изображения перемещаются в подкаталог «undouble».
Чтобы попробовать эту библиотеку c открытым кодом (https://github.com/erdogant/undouble), ее сперва надо установить: pip install undouble, затем импортировать пакет в свой проект: from undouble import Undouble. Затем, установив метод хэширования и размер хэша, можно выявляться дубли с помощью undouble. При этом выполняются следующие шаги: рекурсивное чтение всех изображений из каталога с указанными расширениями, вычисление хэша и группировка похожих изображений.
Пример с объяснениями смотрите здесь: https://towardsdatascience.com/detection-of-duplicate-images-using-image-hash-functions-4d9c53f04a75

290 views04:20

Открыть/Комментировать

2022-02-04 06:37:11 Terality - сверхбыстрый serverless-движок вместо медленного Pandas
Terality — это бессерверный механизм обработки данных, работающий на гигантских кластерах для работы с наборами данных любого размера. Благодаря парадигме serverless можно не беспокоиться о масштабировании ресурсов в кластерах или прочей инфраструктуре: практически нет ограничений на память, а значит, и на размер набора данных. Для работы нужно только хорошее подключение к Интернету для обработки сотен ГБ, даже на простом офисном ноутбуке с 4 ГБ ОЗУ. Terality позволяет запускать код Pandas в 10 раз быстрее: синтаксис Terality аналогичен Pandas. Достаточно изменить лишь одну строку кода, чтобы переключиться с Pandas на Terality:
import teratiyu as te.
Пакет Python отправляет HTTPS-запросы движку Terality, когда вы вызываете функции Pandas. Механизм обрабатывает данные и команду и возвращает результат. Однако, Terality – это не просто Python-пакет, а freemium-ПО с бесплатным планом на 1 ТБ. При этом учитывается каждый вызов API, а не только чтение данных.
https://docs.terality.com/
https://towardsdatascience.com/good-bye-pandas-meet-terality-its-evil-twin-with-identical-syntax-455b42f33a6d

88 views03:37

Открыть/Комментировать

2022-02-02 05:35:50 Роботы-курьеры Яндекса в Сеуле
Еще в прошлом году автономные роботы-курьеры Яндекса начали доставлять заказы в России, еду из ресторанов в американском городе Энн-Арбор в штате Мичиган и другие студенческие кампусы США. А в январе 2022 Яндекс заключил соглашение о намерениях с крупной южнокорейской телекоммуникационной компаний KT Corporation на доставку автономными роботами в Сеуле. Так уже в этом году Южная Корея станет первой страной в Восточной Азии, где работают роверы Яндекса. Также компания готовится запустить эту технологию в Дубае.
https://yandex.ru/company/press_releases/2022/2022-01-18

386 views02:35

Открыть/Комментировать

2022-01-31 17:39:12 Новогодняя спячка закончилась, пора выбираться на конференции, митапы и прочие DS-события. Февральский дайджест 2022:
1. 1 февраля в 12.00 МСК - онлайн-конференция «Цифровизация нефтегазовой отрасли: инструменты повышения доходности, эффективности и безопасности» https://www.tbforum.ru/vizit
2. 2 февраля в 16:00 МСК Online-митап компании «Синимекс» по работе с PostGIS, Hadoop и Spark: разбор реальных бизнес-кейсов и технологическая начинка https://www.cinimex.ru/meetup/
3. 3 февраля в 16:00 МСК Online-митап Яндекс.Cloud «Как и для чего решать задачи сбора, репликации и интеграции данных» https://cloud.yandex.ru/events/479
4. 10 февраля в 10:00 МСК - конференция "Искусственный интеллект 2022" от CNews https://events.cnews.ru/events/iskusstvennyi_intellekt_2022.shtml
5. 10 февраля в 11:00 МСК - онлайн-конференция «Интеллектуальное видеонаблюдение и машинное зрение в системах безопасности на крупных объектах» в рамках форума «Технологии безопасности 2022» https://www.tbforum.ru/vizit
6. 12 февраля в 10:00 МСК - New IT Fest: онлайн-фестиваль информационных технологий от Accenture: кейсы по внедрению ML, DS, AI решений https://newitfest.ru/
7. 16 февраля в 10:00 МСК – офлайн-конференция «Качество данных 2022» - по стратегиям и практикам обеспечения качества данных, гарантирующего высокий уровень сервисов и бизнес-процессов. Москва, Отель Palmira Business Club https://www.osp.ru/static/2021121039
8. 17 февраля в 11:00 МСК - Forum.Digital Telecom 2022 - II ежегодная онлайн-конференция по цифровой трансформации телекоммуникационной отрасли https://forum.digital/telecom2022
9. 17-18 февраля - OpenTalks.AI – 5-я ведущая независимая открытая конференция по ИИ в России: лучшие российские докладчики по ML/DL на одной площадке. Конференция пройдет в оффлайне, но с ограниченным количеством участников. Начало 17.02.2022 в 10:00, Москва, Конференц-зал гостиницы "Космос" , Проспект Мира, 150. https://opentalks.ai/
10. 28 февраля Citymobil Data Meetup №7 https://citymobil.timepad.ru/events/

443 viewsedited 14:39

Открыть/Комментировать

2022-01-31 11:05:03 Друзья! 1 марта в NewProLab стартует флагманский 12-недельный онлайн-курс "Специалист по большим данным".

А это значит, вас вновь ждет самая глубокая и объемная программа на рынке Big Data, заслужившая множество восторженных отзывов!

Оставляйте заявку и задавайте вопросы: https://clck.ru/apR8H

Вы:
Владеете основами Python?
Уже умеете создавать SQL-запросы?
Знакомы с прикладными понятиями мат. анализа и линейной алгебры?
Понимаете базовые операции ОС Linux?

Тогда мы приглашаем вас систематизировать текущие навыки и получить полное практическое руководство для подготовки собственных полноценных проектов.

Вы научитесь: строить модели машинного обучения, писать MapReduce-джобы, используя Hadoop Streaming и Python, работать с данными на HDFS, проводить анализ при помощи Apache Spark, строить алгоритмы рекомендательных систем.
И все это на реальных дата-сетах и живых бизнес-кейсах с преподавателями и нетворком в сообществе единомышленников

Эту программу уже прошли более 300 дата аналитиков и разработчиков. Присоединяйтесь и вы!

131 views08:05

Открыть/Комментировать

2022-01-28 08:08:44 Повышаем разрешение в видеоиграх с DLDSR от NVIDIA
DLDSR (Deep Learning Dynamic Super Resolution) – технология улучшения картинки в видеоиграх, которая использует многослойную нейросеть, требующую меньше пикселей. DLDSR с коэффициентом разрешения 2.25X сопоставим по качеству с 4X-разрешением технологии предыдущего поколения DSR. При этом производительность DLDSR намного выше благодаря тензорным ядрам видеокарт RTX, которые ускоряют нейросети в несколько раз. Попробовать DLDSR можно на своем игровом компьютере, обновив драйвер видеокарты и выставив нужные настройки.
https://ru.blogs.nvidia.com/blog/2022/01/14/uluchshaem-proizvoditelnost-s-dldsr/

208 viewsedited 05:08

Открыть/Комментировать

2022-01-26 05:30:31

сравнение метрик LAMDA с человеческими оценками

76 views02:30

Открыть/Комментировать

2022-01-26 05:29:11 LaMDA: безопасная, объективная и высококачественная языковая модель от Google AI
LaMDA создается путем точной настройки семейства нейронных языковых моделей на основе Transformer, специализированных для диалога, с параметрами модели до 137B и обучения моделей использованию внешних источников знаний. LaMDA преследует три ключевые цели:
• Качество (Quality), которое измеряется через Разумность (Sensibleness), Специфичность (Specificity) и Интересность (Interestingness). Эти показатели оцениваются людьми. Разумность говорит о наличии смысла в контексте диалога, например, отсутствие со стороны ML-модели абсурдных ответов и противоречий с более ранними ответами. Специфичность показывает, является ли ответ системы специфичным для контекста предыдущего диалога. Интересность измеряет эмоциональную реакцию собеседника на ответы ML-модели.
• Безопасность (Safety), чтобы ответы модели не содержали оскорбительных и опасных высказываний.
• Объективность (Groundedness) – современные языковые модели часто генерирует утверждения, которые кажутся правдоподобными, но на самом деле противоречат истинным фактам во внешних источниках. Объективность определяется как процент ответов с утверждениями о внешнем мире, которые могут быть подтверждены авторитетными внешними источниками. Родственная метрика, Информативность (Informativeness), определяется как процент ответов с информацией о внешнем мире, которая может быть подтверждена известными источниками.
Модели LaMDA проходят двухэтапное обучение: предварительное обучение и тонкая настройка. Первый этап выполнен на наборе данных из 1,56 тыс. слов из общедоступных данных диалогов и публичных веб-документов. После токенизации набора данных в 2,81T токенов модель была обучена предсказывать каждый следующий токен в предложении с учетом предыдущих. Предварительно обученная модель LaMDA также широко использовалась для NLP-исследований в Google, включая синтез программ, обучение с нулевым выстрелом и пр.
На этапе тонкой настройки LaMDA обучается комбинировать выполнение генеративных задач для создания ответов на естественном языке в заданных контекстах и задач классификации чтобы определить безопасность и качество модели. Так получается единая многозадачная модель: генератор LaMDA обучен прогнозировать следующий токен в наборе данных диалога, а классификаторы обучены прогнозировать оценки безопасности и качества ответа в контексте с использованием аннотированных данных.
Результаты тестирования показали, что LaMDA значительно превосходит предварительно обученную модель в каждом измерении и любом масштабе. Показатели качества улучшаются с увеличением количества параметров модели, с тонкой настройкой и даже без нее. Безопасность не улучшается только за счет масштабирования модели, но компенсируется при точной настройке. Объективность улучшается по мере роста размера модели, благодаря способности запоминать необычные знания. А точная настройка позволяет модели получать доступ к внешним источникам и эффективно переносить на них часть нагрузки по запоминанию знаний. С помощью точной настройки разрыв качества с человеческим уровнем может быть сокращен, хотя производительность модели остается ниже человеческого уровня в плане безопасности и объективности.
https://ai.googleblog.com/2022/01/lamda-towards-safe-grounded-and-high.html

59 views02:29

Открыть/Комментировать

2022-01-24 06:51:48 Комбо Zingg + TigerGraph для удаления дублей и графовой аналитики больших данных
Графовые базы данных со встроенными шаблонами связей отлично подходят для устранения неоднозначности записей и разрешения сущностей. Например, TigerGraph – мощная система графовой аналитики. А если дополнить ее открытым ML-инструментом Zingg (https://github.com/zinggAI/zingg), можно найти дублированные и неоднозначные записи еще быстрее.
Например, один и тот же человек в разных системах записан по-разному. Поэтому проанализировать его пользовательское поведение, например, для генерации персонального маркетингового предложения или включения в программы лояльности, очень сложно. Zingg, имеют встроенные механизмы блокировки, которые вычисляют попарное сходство только для выбранных записей. Это сокращает время вычислений и помогает масштабироваться на большие наборы данных. Не нужно беспокоиться об связывании-группировке записей вручную: об этом позаботится внутренняя структура разрешения сущностей. Так с Zingg и TigerGraph можно объединить лучшее простое и масштабируемое разрешение сущностей и дальнейший анализ графа.
https://towardsdatascience.com/entity-resolution-with-tigergraph-add-zingg-to-the-mix-95009471ca02

35 views03:51

Открыть/Комментировать

2022-01-21 05:46:55 5 англоязычных YOUTUBE-каналов для дата-инженера от популярных DS-блогеров
• Ken Jee https://www.youtube.com/c/KenJee1/videos - 183 тысячи подписчиков и около 200 видео про Data Science, инженерию больших данных, ML и аналитику в спорте
• Karolina Sowinska https://www.youtube.com/c/KarolinaSowinska/videos 30+ тысяч подписчиков и почти 60 отличных роликов про AirFlow, ИИ, ETL и карьеру дата-инженера;
• Shashank Mishra https://www.youtube.com/c/LearningBridge/video 40+ тысяч подписчиков и более 150 видео о буднях дата-инженеры, отзывы о DS-курсах, рекомендации по прохождению интервью и личный опыт автора, работавшего в Amazon, McKinsey&Company, PayTm и других крупных корпорациях, а также в стартапах.
• Seattle Data Guy https://www.youtube.com/c/SeattleDataGuy/videos почти 20 тысяч подписчиков и более 100 видео про soft и hard skills дата-инженера, лайфхаки для решения ежедневных задач по сбору и агрегации данных с помощью Python и не только, лучшие практики SQL, введение в R и еще много всего интересного/
• Andreas Kretz https://www.youtube.com/c/andreaskayy/videos около 27 тысяч подписчиков и более 500 роликов ванильные и проприетарные Hadoop, Spark, Kafka, сервисы AWS и другие облачные платформы, основы ETL, тонкости установки и практического использования разных технологий Big Data и особенности профессии дата-инженера.

287 views02:46

Открыть/Комментировать