Big Data Science [RU]

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 1.79K

Описание канала:

Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career

▲ Vote (1)

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал bdscience_ru и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 3

2022-07-25 11:00:01 ТОП-4 совета по dbt для дата-аналитика и инженера данных
dbt (data build tool) — это фреймворк с открытым исходным кодом для выполнения, тестирования и документирования SQL-запросов, который позволяет автоматизировать процесс анализа данных, включая структурирование и написание запросов, их поиск, вложенные вызовы, запуск по расписание, документирование и тестирование. Например, можно использовать dbt CLI или dbt Cloud для работы с конвейером данных, чтобы извлекать, преобразовывать и загружать данные в хранилище, создавая БД с динамической архитектурой по расписанию. Повысить эффективность применения dbt для тестирования динамически создаваемых схем, источников и моделей данных помогут следующие советы:
• файл Schema.yml может находиться только в папке моделей dbt. Инструмент позволяет создать модульный тест, который за считанные секунды проверяет столбцы на наличие нулевых значений.
• В тестах данных dbt есть строгое правило, согласно которому они должны возвращать нулевые строки, чтобы пройти тест. Вместо поиска значения, такого как сумма определенного набора строк, тест данных должен быть написан так, чтобы он ожидал найти нулевые строки, если результаты не равны правильному значению суммы. Поэтому при разработке теста данных надо сразу думать, как вернуть 0 строк в рассматриваемом кейсе, но при этом проверить нужное число. Можно использовать операторы != или <= для проверки данных.
• Повысить скорость тестирования можно, увеличив количество потоков в профиле проекта, в файле profiles.yml. Например, если есть 30 тестов, понадобится 40 потоков, определенных в файле profiles.yml. Это позволит запустить 30 тестов данных и схемы за 4 секунды.
• Каждому тесту нужно осмысленное имя. Хотя dbt автоматически присваивает имена тестам схемы, рекомендуется пометить их самостоятельно. Поскольку dbt не дает большого контроля над запуском небольших наборов тестов, нужно иметь возможность видеть все имена запущенных тестов. Аналогично тому, как разработчикам рекомендуют называть функции и переменные семантически понятными именами, так и в тестировании нужно давать тестам осмысленные имена. Иначе во время выполнения тестов будет трудно определить, какой из них прошел или не прошел проверку. При запуске команды тестирования в dbt, все тесты схемы и данных будут выполняться вместе. Нельзя просто запустить один каталог в папке тестов данных, но можно именовать их «тест dbt — схема» или «тест dbt — данные», чтобы быстро определять, какие тесты надо запустить.

https://corissa-haury.medium.com/4-quick-facts-about-dbt-testing-5c32b487b8cd

900 views08:00

Открыть/Комментировать

2022-07-22 07:08:27

#тест
Избежать переобучения ML-модели на большом объеме сильно зашумленных входных данных, выделив наиболее значимые фичи, поможет

Anonymous Quiz

43%

регуляризация L1

22%

регуляризация L2

20%

нормализация

14%

фильтрация

229 voters943 views04:08

Открыть/Комментировать

2022-06-24 08:22:17

#тест
От чего НЕ зависит величина статистической мощности?

Anonymous Quiz

10%

размер выборки для подтверждения статистической гипотезы

16%

величина эффекта (разности между сравниваемыми средними)

59%

матожидание случайной величины

16%

величина уровня значимости

115 voters261 views05:22

Открыть/Комментировать

2022-06-22 08:33:43 Лучшее с майской конференции Airflow Summit 2022!
Любителям и профессионалам дата-инженерии: подборка самых интересных докладов, от тонкостей работы batch-оркестратора до передовых практики управления развертыванием и данными.
https://medium.com/apache-airflow/airflow-summit-2022-the-best-of-373bee2527fa

287 views05:33

Открыть/Комментировать

2022-06-21 07:19:22

Новый Python: теперь намного быстрее!

621 viewsedited 04:19

Открыть/Комментировать

2022-06-21 07:18:56 Новый Python: быстрее более чем в 2 раза!
Выпущенный в апреле 2022 года альфа-релиз Python 3.11 в некоторых случаях может работать на 60% быстрее предыдущей версии. Бенчмаркинговые тесты компании Phoronix, проведенные на Ubuntu Linux и скомпилированные с помощью компилятора GCC, показали, что скрипты на Python 3.11 выполняются в среднем на 25% быстрее, чем Python 3.10, без изменения кода. Это стало возможным благодаря тому, что теперь интерпретатор отвечает за статическое размещение своих объектов кода и ускорению седы выполнения. Каждый раз, когда Python используется для вызова одной из собственных функций, создается новый фрейм, внутренняя структура которого улучшена так, чтобы он сохранял только самую важную информацию без дополнительных данных про управление памятью и отладку.
Кроме того, с релиза 3.11 введено, что при обнаружении CPython'ом функции Python, которая вызывает другую функцию, он устанавливает новый фрейм и переходит к новому коду, содержащемуся в нем. Это позволяет избежать вызова функции, отвечающей за интерпретацию C (раньше каждый вызов функции Python вызывал функцию C, которая ее интерпретировала). Такое нововведение дополнительно ускорило выполнение Python-скриптов.
https://levelup.gitconnected.com/the-fastest-python-yet-up-to-60-faster-2eeb3d9a99d0

393 viewsedited 04:18

Открыть/Комментировать

2022-06-20 20:15:39

Если меня спросить, что лучше: работа мечты или One Day Offer. Я посоветую: «One Day Offer». Потому что One Day Offer может привести к работе мечты.

Сегодня многие компании проводят One Day Offer в том числе и Сбер. Поэтому вы можете стать частью команды Сбера за 1 день!

Сбер ищет дата-сайентистов в Москве и Нижнем Новгороде. Подходит, если вы технарь уровня Middle, Senior или Lead с опытом в DS/ML больше 2 лет, который без труда кодит на Python. А если работали с рекомендательными системами — ещё лучше.

Каков порядок действий?

Посещаете 25 июня One Day Offer → проходите интервью → в тот же день получаете предложение, о котором мечтали → вместе с командой Сбера создаёте платформу, которая поможет создавать персональные рекомендации в разных сферах бизнеса.

Участвовать в One Day Offer

543 views17:15

Открыть/Комментировать

2022-06-18 18:15:37

#тест
Ложное срабатывание датчика автосигнализации (без реальной угрозы) - это пример ошибки

Anonymous Quiz

56%

первого рода

39%

второго рода

зависит от заданного уровня статистической значимости

это вообще не ошибка

82 voters155 views15:15

Открыть/Комментировать

2022-06-17 14:38:25 Imagen от Google AI
В мае 2022 года исследователи Google AI представили Imagen - модель перевода текста в фотореалистичное изображение с глубоким уровнем понимания языка. Imagen основа на больших языковых трансформерных моделях, предварительно обученных на тектстовых корпусах. Эксперименты показали, что Imagen достигает 7,27 баллов по FID в наборе данных COCO, даже без предварительного обучения, превосходя DALL-E 2 от OpenAI по степени реалистичности изображений.
Поскольку Imagen обучалась на неконтролируемом людьми датасете LAION-400M с 400+ миллионами пар изображение-текст, взятых из Интернета, модель подвержена предвзятости. Поэтому Google AI пока не выпускает ее в открытый доступ. Но посмотреть, как это работает и что внутри, можно уже сейчас: https://imagen.research.google/

182 views11:38

Открыть/Комментировать

2022-06-17 10:04:54

Аналитика данных - блог ведущего Дата саентиста, работающего в Uber, одного из авторов Machine Learning ru. Материал канала поможет реально вырасти до профессионала по работе с данными.

1 канал вместо тысячи учебников и курсов, подписывайтесь:

@data_analysis_ml

291 viewsedited 07:04

Открыть/Комментировать