Big Data Science [RU]

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 1.79K

Описание канала:

Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career

▲ Vote (1)

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал bdscience_ru и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 4

2022-06-16 12:14:45 Новая SOTA: Mask DINO для обнаружения и сегментации объектов

CNN-сети и трансформерная архитектура активно используется в задачах компьютерного зрения, особенно для обнаружения и сегментации объектов на фото и видео. В последнее время трансформерные архитектуры показывают отличные результаты. Одной из них является DETR (End-to-End Object Detection with Transformers), который вышел в мае 2020 года. Тут трансформеры применяются не к изображению, а к фичам, выделенным сверточной сетью. Хотя DETR открыл путь к возможности использования трансформеров для компьютерного зрения, его тяжело использовать на практике из-за слишком долгого времени обучения и отсутствия универсальности. В июне 2022 года исследователи из Китая представили Mask DINO - унифицированную структуру обнаружения и сегментации объектов.
По сути, Mask DINO можно назвать новым state-of-the-art (SOTA) решением, которое расширяет структуру DINO (DETR с улучшенными блоками привязки шумоподавления), добавляя ветвь предсказания маски. Маска поддерживает все задачи сегментации изображения (инстанс, семантическую и паноптическую). Некоторые ключевые компоненты DINO расширены для сегментации за счет общей архитектуры и процесса обучения.
Структура Mask DINO проста, эффективна, масштабируема и выигрывает от объединенных крупномасштабных наборов данных обнаружения и сегментации.
Примечательно, что Mask DINO показывает наилучшие на сегодняшний день результаты по инстанс сегментации (54,5 AP на COCO), паноптической сегментации (59,4 PQ на COCO) и семантической сегментации (60,8 мМЕ на ADE20K).
Полное описание в статье авторов: https://arxiv.org/pdf/2206.02777v1.pdf
Код на Github: https://github.com/IDEACVR/MaskDINO

419 views09:14

Открыть/Комментировать

2022-06-16 06:24:40 GATO: новая SOTA от DeepMind
19 мая 2022 года исследователи DeepMind опубликовали статью о новом едином универсальном агенте за пределами области текстовых выходов. GATO работает как мульти-модальная, многозадачная, многовариантная универсальная политика. В одной и той же сети с теми же весами можно играть в Atari, записывать изображения, общаться в чате, манипулировать блоками и решать другие задачи на основе своего контекста: генерировать текст, определять оптимальные крутящие моменты в суставах, события нажатия кнопок и пр.
GATO обучается на большом количестве наборов данных, включающих опыт агентов как в смоделированных, так и в реальных средах, в дополнение к множеству наборов данных на естественном языке и изображениях. На этапе обучения GATO данные из различных задач и модальностей сериализуются в плоскую последовательность токенов, группируются и обрабатываются нейросетью-трансформером, аналогичной большой языковой модели. Потери маскируются, поэтому GATO предсказывает только действия и текстовые цели.
При развертывании Gato токенизируется подсказка-демонстрация, образуя начальную последовательность. Затем среда выдает первое наблюдение, которое также токенизируется и добавляется к последовательности. GATO авторегрессивно выбирает вектор действия, по одному токену за раз. После того, как все маркеры, составляющие вектор действия, выбраны (определены спецификацией действия среды), действие декодируется и отправляется в среду, которая выполняет шаги и дает новое наблюдение. Затем процедура повторяется. Модель всегда видит все предыдущие наблюдения и действия в своем контекстном окне из 1024 токенов.
https://www.deepmind.com/publications/a-generalist-agent

448 views03:24

Открыть/Комментировать

2022-06-14 09:16:21 LAION-5B: открытый датасет для мульти-модального ML на 5+ миллиардов пар «текст-изображение»
31 мая 2022 года некоммерческая организация ИИ-исследователей представила крупнейший набор данных из 5,85 миллиардов пар изображение-текст, отфильтрованных с помощью CLIP. LAION-5B в 14 раз больше своего предшественника - LAION-400M, который ранее был самым большим в мире открытым набором данных изображение-текст.
2,3 миллиардов пар англоязычные, а вторая половина датасета содержит образцы из более чем 100 других языков. Еще в набор данных входят несколько индексов ближайших соседей, улучшенный веб-интерфейс для исследования и создания подмножеств, а также оценки обнаружения водяных знаков и NSFW. Датасет рекомендуется для исследовательских целей и специально не контролируется.
Весь 5-миллиардный набор данных разбит на 3 датасета, каждый из которых можно скачать отдельно . Все они имеют следующую структуру столбцов:
• URL-адрес изображения
• TEXT - субтитры, на английском для en, на других языках для multi и nolang
• WIDTH - ширина изображения
• HEIGHT - высота изображения
• LANGUAGE - язык образца, только для laion2B-multi, вычисляется с помощью cld3
• Similarity – подобие, косинус между текстом и изображением эмбеддинга ViT-B/32, clip для en, mclip для multi и nolang
• Pwatermark - вероятность изображения с водяным знаком, рассчитанная с помощью laion-детектора водяных знаков
• Punsafe - вероятность того, что изображение является небезопасным, вычисляется с помощью laion-детектора клипов.
pwatermark и punsafe доступны либо как отдельные коллекции, которые должны быть соединены join’ом с помощью хэша url+text.
Подробности и ссылки для загрузки: https://laion.ai/laion-5b-a-new-era-of-open-large-scale-multi-modal-datasets/

216 views06:16

Открыть/Комментировать

2022-06-10 08:13:12

#тест
В чем разница между проекцией и представлением в реляционных базах данных?

Anonymous Quiz

нет разницы, это одно и то же

21%

представление - это процесс, а проекция - результат

40%

проекция - это процесс, а представление - результат

32%

это вообще не связанные и не сравниваемые понятия

111 voters251 views05:13

Открыть/Комментировать

2022-06-09 12:46:01 В июне можно посетить следующие DS-мероприятия:
• 9 июня - вебинар по BI-сервису Яндекса - Yandex DataLens: безопасность и разграничение прав доступа https://cloud.yandex.ru/events/575
• 10 июня - публичная лекция на тему «Знакомимся с квантовым машинным обучением (QML)». Вебинар ведет доктор технических наук, профессор кафедры прикладной математики и информатики ВШЭ Владимир Крылов. Регистрация
• 14 июня - DataStart - бесплатная онлайн-конференция по Data Science, машинному обучению и нейросетям https://datastart.ru/
• 22 июня - Artificial Intelligence Day – практическая конференция TAdviser https://www.tadviser.ru/a/635999
• 22 июня - Цифровая медицина 2022 – конференция на площадке Конгресс-центра ЦМТ Москвы https://it-events.com/events/22889
• 23 июня - Kuber Conf — главная в России конференция по Kubernetes. Офис Яндекса, Москва, улица Льва Толстого, 16, подъезд Экстрополис. Мероприятие бесплатное, но вход только по приглашениям. https://cloud.yandex.ru/events/579
• 25 июня - DataDriven 2022 - ежегодная конференция Яндекса для специалистов, использующих анализ данных для принятия бизнес-решений. Офис Яндекса, Москва, улица Льва Толстого, 16, подъезд Экстрополис. Мероприятие бесплатное, но вход только по приглашениям. https://events.yandex.ru/events/data-driven-2022

213 views09:46

Открыть/Комментировать

2022-06-08 06:43:43 Разработка на Python по 12 принципам SaaS c библиотекой Python-dotenv
Разработчики ML-моделей и аналитики данных не всегда чисто пишут код, как профессиональные программисты. Улучшить качество кода поможет простая методология разработки веб-приложений или SaaS, которая рекомендует:
• использовать декларативные форматы для автоматизации настройки, чтобы сократить время и силы новых разработчиков, присоединяющихся к проекту;
• иметь чистый контракт с базовой операционной системой, обеспечивающий максимальную переносимость между средами выполнения;
• запускать развертывания на современных облачных платформах, избавляя от необходимости администрирования серверов и систем;
• сокращать расхождения между разработкой и производством, обеспечивая непрерывное развертывание для максимальной гибкости;
• масштабироваться без существенных изменений в инструментарии, архитектуре или методах разработки.
Для реализации этих идей SaaS предлагает строить приложения по 12 принципам:
1. Одна кодовая база отслеживается в системе контроля версий, множество развертываний
2. Явно объявить и изолировать зависимости
3. Хранить конфигурацию в среде
4. Относиться к вспомогательным сервисам как к присоединенным ресурсам
5. Строго разделять этапы сборки и запуска
6. Исполнять приложение как один или несколько stateless-процессов
7. Экспортировать сервисы через привязку к порту
8. Обеспечивать параллелизм через масштабирование с помощью модели процесса
9. Максимальная надежность благодаря быстрому запуску и плавному завершению работы
10. Переносимость и похожесть сред от разработки до производства через тестовую
11. Логировать, чтобы рассматривать журналы как потоки событий
12. Выполнять задачи администрирования/управления как одноразовых процессов
Реализовать все это для Python-программы поможет открытая библиотека Python-dotenv. Она считывает пары ключ-значение из файла .env и может устанавливать их как переменные среды. Если приложение берет конфигурацию из переменных среды, запуск его в процессе разработки не очень практичен, т.к. разработчику нужно установить эти переменные среды самостоятельно. Добавив Python-dotenv в свое приложение, можно упростить процесс разработки. Библиотека сама загрузит конфигурацию из файла .env, оставаясь при этом настраиваемым через среду.
Также библиотека может загрузить конфигурацию без изменения среды, распарсить конфигурацию как поток и загрузить файлы .env в IPython. Инструмент также имеет CLI-интерфейс, чтобы манипулировать файлом .env, не открывая его вручную.
https://github.com/theskumar/python-dotenv

238 views03:43

Открыть/Комментировать

2022-06-06 08:05:07 ИИ + квантовые вычисления = квантовый мемристор
Ученые Австрии и Италии создали первый прототип устройства, известного как квантовый мемристор, который может объединить методы искусственного интеллекта с квантовыми вычислениями. Мемристор, или резистор памяти, является своего рода строительным блоком для электронных схем. Первые идеи об этом устройстве прозвучали еще полвека назад, но впервые оно было создано около 10 лет назад. Оно Эти представляет собой электрический переключатель, который запоминает свое состояние (вкл или выкл) после отключения питания, аналогично синапсам — связям между нейронами в человеческом мозге, электрическая проводимость которых усиливается или ослабевает в зависимости от того, сколько электрического заряда прошло через них в прошлом.
Теоретически мемристоры могут действовать как искусственные нейроны, способные как вычислять, так и хранить данные. Поэтому нейроморфные (мозгоподобные) компьютеры на мемристорах будут хорошо работать с искусственными нейросетями, т.е. системами ML.
В отличие от классических компьютеров, которые включают или выключают транзисторы, чтобы символизировать данные как 1 или 0, квантовые используют кубиты. Кубиты могут находиться в состоянии суперпозиции, когда они одновременно равны 1 и 0. Чем больше кубитов связано вместе в квантовом компьютере, тем больше его вычислительная мощность может расти в геометрической прогрессии.
Квантовый мемристор опирается на поток фотонов, существующих в суперпозициях, где каждый отдельный фотон может путешествовать по двум отдельным путям, нанесенным лазером на стекло. Один из каналов в этой интегрированной фотонной схеме с одним кубитом используется для измерения потока этих фотонов, и эти данные через сложную электронную схему обратной связи контролируют передачи по другому пути. В итоге устройство ведет себя как мемристор.
Обычно мемристивное поведение и квантовые эффекты не существуют вместе. Мемристоры работают путем измерения своих внутренних данных, а квантовые эффекты отличаются хрупкостью, когда речь идет о любом внешнем вмешательстве, таком как измерения. Исследователи преодолели это противоречие, разработав взаимодействия внутри своего устройства, чтобы они были достаточно сильными, чтобы обеспечить мемристивность, но достаточно слабыми, чтобы сохранить квантовое поведение.
Преимущество использования квантового мемристора в квантовом ML по сравнению с обычными квантовыми схемами заключается в том, что мемристор, в отличие от любого другого квантового компонента, имеет память. Следующим шагом является соединение нескольких мемристоров вместе, увеличение количества фотонов в каждом мемристоре и количества состояний, в которых они могут существовать в каждом устройстве.
https://spectrum.ieee.org/quantum-memristor

161 views05:05

Открыть/Комментировать

2022-06-03 08:40:56

#тест
На маленьких связанных (зависимых) выборках для проверки гипотезы о различиях между ними подойдет статистический критерий

Anonymous Quiz

38%

t-критерий Стьюдента

19%

U-критерий Манна — Уитни

24%

Т-критерий Вилкоксона

19%

Критерий согласия Пирсона

86 voters172 views05:40

Открыть/Комментировать

2022-06-01 07:20:14 Как быстро сравнить изменения в моделях данных? Datafold в помощь!
Выявить и оценить изменения в разных версиях одной модели данных можно, собственноручно написав свой скрипт или с помощью встроенной в dbt функции наследования данных. Но для обычного бизнес-пользователя или начинающего дата-аналитика это слишком сложно. В этих случаях пригодится Datafold (https://www.datafold.com/) – облачный продукт с множеством полезных функций, включая проверку качества данных, их каталог, мониторинг и оповещение. Функция происхождения данных основана на столбцах и помогает оценивать последующие изменения в пользовательских моделях, в частности, сравнивать изменения между датасетами на уровне столбца и значения. Для крупных проектов пригодится интеграция с dbt. Datafold работает путем прямого подключения к пользовательскому хранилищу данных и использует Github для сравнения изменений, внесенных в модели dbt, чтобы гарантировать сохранение качества данных.
На практике Datafold пригодится продуктовым аналитикам при A/B-тестировании гипотез о пользовательских предпочтениях и использовании продуктовых фич, дата-инженерам – для регрессионного тестирования ETL-конвейеров и пользователям BI-систем для настройки отчетов.
Пример использования: https://medium.com/geekculture/what-if-you-could-compare-changes-in-your-data-models-now-you-can-75f039580d08

189 views04:20

Открыть/Комментировать

2022-05-31 10:11:36

Отборные и бесплатные подкасты, книги и материалы по IT, бизнесу и личностному росту.

Слушайте лучшие подкасты от самых выдающихся людей планеты на нашем канале и становитесь умнее с каждым шагом

Развивайтесь вместе с нами

236 views07:11

Открыть/Комментировать