Получи случайную криптовалюту за регистрацию!

Big Data Science [RU]

Логотип телеграм канала @bdscience_ru — Big Data Science [RU] B
Логотип телеграм канала @bdscience_ru — Big Data Science [RU]
Адрес канала: @bdscience_ru
Категории: Технологии
Язык: Русский
Количество подписчиков: 1.79K
Описание канала:

Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал bdscience_ru и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

0

2 звезд

0

1 звезд

1


Последние сообщения 6

2022-05-09 04:57:31 YDB: масштабируемая отказоустойчивая NewSQL-СУБД от Яндекса. Теперь open-source
19 апреля 2022 года. Яндекс опубликовал исходный код распределённой NewSQL-СУБД YDB, которая позволяет создавать масштабируемые отказоустойчивые сервисы, способные выдерживать большую операционную нагрузку. Код доступен по лицензии Apache 2.0.
YDB сочетает в себе высокую доступность и масштабируемость со строгой согласованностью и транзакциями ACID. СУБД способна обрабатывать миллионы запросов в секунду и сохраняет работоспособность в случае выхода из строя сервера или даже целого датацентра. Надёжность YDB проверена на сервисах Яндекса (Алиса, Такси, Маркет, Метрика и еще почти 500 проектов). Развернуть YDB можно как на собственных, так и на сторонних серверах, включая Yandex Cloud или провайдеров.
https://ydb.tech/
https://github.com/ydb-platform/ydb
https://habr.com/ru/company/yandex/blog/660271/
https://yandex.ru/company/press_releases/2022/2022-04-19
389 views01:57
Открыть/Комментировать
2022-05-07 10:55:56
#тест
Какой метод Apache Spark работает с файловой системой, а НЕ с памятью?
Anonymous Quiz
19%
coelesce()
36%
repartition()
45%
partitionBy()
113 voters402 views07:55
Открыть/Комментировать
2022-05-04 06:50:35 Непрерывное машинное обучение: CML для CI/CD
Нужно внедрить CI/CD в разработку ML-систем? Попробуйте CML - CLI-средство с открытым исходным кодом от Iterative.ai для реализации CI/CD в рамках MLOps. ОноCML подходит для автоматизации рабочих процессов разработки ML-моделей, включая их предоставление, обучение и оценку, сравнение экспериментов в истории проекта и мониторинг меняющихся наборов данных. CML основан на следующих принципах:
• GitLab или GitHub для управления экспериментами ML, мониторинга обучения моделей и изменения данных с помощью DVC;
• автоматические отчеты для экспериментов машинного обучения с метриками и графиками в каждом pull-запросе Git, чтобы принимать обоснованные решения на основе данных;
• отсутствие дополнительных сервисов – только GitLab, Bitbucket или GitHub, Docker и DVC. При желании можно добавить облачные хранилища, а также самостоятельные или облачные исполнители типа AWS EC2 или MS Azure.
CML внедряет в рабочий процесс автоматизацию в стиле CI/CD: большинство конфигураций определены в файле cml.yaml, хранящемся в репозитории. Этот файл указывает, какие действия должны быть выполнены, когда новая функциональная ветка готова к слиянию с основной. Когда создается pull-запрос, действия GitHub используют этот рабочий процесс и выполняют действия, указанные в файле конфигурации.
Исходный код: https://github.com/iterative/cml
Документация: https://cml.dev/doc
Практический пример: https://towardsdatascience.com/continuous-machine-learning-e1ffb847b8da
243 views03:50
Открыть/Комментировать
2022-05-01 07:35:54 Май и труд еще никто не отменил! Выбирайте подходящее DS-событие, чтобы повысить свой профессиональный уровень:
• 13- 14 мая - HighLoad++ - крупнейшая профессиональная конференция для разработчиков высоконагруженных систем. Москва, Крокус-Экспо https://highload.ru/foundation/2022
• 18–19 мая - Positive Hack Days - выступления отечественных и зарубежных профессионалов в области информационной безопасности, закрытые и открытые круглые столы с участием лидеров мнений, мастер-классы и лабораторные практикумы известных экспертов. Центр международной торговли, Москва, Краснопресненская наб., 12, подъезд 4 https://www.phdays.com/ru/
• 18 - 19 мая - онлайн-конференция «DIGITAL MINING & METALLURGY» https://smartgopro.com/digitalminemet/
• 23-25 мая - Пространственные Данные – ежегодная международная научная конференция в Московском Государственном Университете Геодезии и Картографии https://scidata.ru/
• 25 – 27 мая - XXV Международная конференция по мягким вычислениям и измерениям (SCM'2022) в Санкт-Петербургском государственном электротехническом университете «ЛЭТИ» им. В.И. Ульянова (Ленина) https://scm.etu.ru/2022/ru/
• 28-29 мая – CodeFest 2022, Новосибирск, Экспоцентр, Станционная, 104 https://12.codefest.ru/
• 31 мая - 2 июня Tech Week 2022 - прикладная конференция и выставка об инновационных технологиях для решения задач бизнеса. Технопарк «Сколково» https://techweek.moscow/
234 views04:35
Открыть/Комментировать
2022-04-29 07:46:15
#тест
Предупредить переобучения ML-модели поможет
Anonymous Quiz
11%
Нормализация входных данных
4%
Стандартизация входных данных
80%
Регуляризация
6%
Оптимизация
133 voters205 views04:46
Открыть/Комментировать
2022-04-27 11:34:38
Нейросеть, которая меняет время суток на фото

Исследователи из Apple, Adobe и Университетского коллежа Лондона совместными усилиями разработали нейросеть, которая может менять время дня на фотографиях.

Принцип работы такой: нейронная сеть определят источник света на снимке и объекты, которые отбрасываю тень. В итоге, чтобы поменять освещение на фото, нужно только передвинуть ползунок.

Попробовать новую сеть в действии можно по ссылке https://www.dgriffiths.uk/outcast
164 views08:34
Открыть/Комментировать
2022-04-27 07:57:58 DataSpell: профессиональная IDE для Data Science от JetBrains
Не хватает удобства полноценной среды разработки в легковесном Jupyter Notebook? Хотите писать Python-код в надежной IDE со всеми DS-библиотеками? Попробуйте DataSpell от JetBrains – профессиональная IDE наподобие PyCharm, которое содержит множество популярных библиотек для анализа данных и ML, сочетая их с мощью комплексного инструмента разработчика.
Выпущенный впервые в 2020 году, сегодня DataSpell пользуется спросом у ML-разработчиков и дата-аналитиков по всему миру.
https://www.jetbrains.com/ru-ru/dataspell/
105 viewsedited  04:57
Открыть/Комментировать
2022-04-25 05:06:29 Тонкости дедубликации с DISTINCT
Исключить дубли из выборки можно просто добавив к SQL-запросу ключевое слово DISTINCT. Однако, это простое решение не всегда будет верным. Чтобы гарантировать отсутствие дубликатов в наборе данных, СУБД необходимо сравнить все строки друг с другом, отсеяв повторы. Это требует много ресурсов ЦП и памяти для хранения всех строк, т.к. их нужно сравнивать друг с другом в памяти, даже если на низком уровне идет работа с хэшем. Кроме того, DISTINCT уменьшает параллелизм вычислений, снижая скорость выполнения запроса.
DISTINCT удаляет дубликаты, но не разрешает неправильные соединения и фильтры, которые на практике чаще всего и приводят к повторам, например, из-за CROSS JOIN или использования RANK вместо ROW_NUMBER, что приводит к дублированию из-за плохо определенного окна раздела. Подробности с примерами кода смотрите здесь: https://jmarquesdatabeyond.medium.com/sql-like-a-pro-please-stop-using-distinct-31bdb6481256
216 views02:06
Открыть/Комментировать
2022-04-22 07:05:39
#тест
Чем плоха мультиколлинеарность признаков в обучающем датасете для ML?
Anonymous Quiz
25%
зависимые признаки не влияют на результат моделирования, засоряя пространство признаков
2%
их сложно определить и исключить из обучающего датасета
68%
зависимые признаки дублируют друг друга, увеличивая объем вычислений и снижая точность результатов
6%
повышается сложность вычислений в алгоритмах обучении ML-модели
106 voters190 views04:05
Открыть/Комментировать
2022-04-21 11:59:52
Канадский художник Барри создал артбук из 1000 необычных изображений роботов.

Автор создал все изображения в этой книге, написав оригинальные подсказки для DALL·E 2, системы искусственного интеллекта OpenAI, которая может создавать реалистичные изображения и рисунки из описания на естественном языке. После создания изображений автор курировал и размещал изображения по своему вкусу.
https://archive.org/details/1111101000-robots/page/198/mode/2up
206 views08:59
Открыть/Комментировать