Получи случайную криптовалюту за регистрацию!

Big Data Science [RU]

Логотип телеграм канала @bdscience_ru — Big Data Science [RU] B
Логотип телеграм канала @bdscience_ru — Big Data Science [RU]
Адрес канала: @bdscience_ru
Категории: Технологии
Язык: Русский
Количество подписчиков: 1.79K
Описание канала:

Big Data Science [RU] — канал о жизни Data Science.
Для сотрудничества: a.chernobrovov@gmail.com
🌏 — https://t.me/bdscience — Big Data Science channel (english version)
💼 — https://t.me/bds_job — channel about Data Science jobs and career

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал bdscience_ru и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

0

3 звезд

0

2 звезд

0

1 звезд

1


Последние сообщения

2022-08-31 07:02:45 ТОП-10 DS-событий сентября
Скоро начинается очередной учебный год, а также новый сезон конференций, митапов и прочих DS-тусовок:
• 6 сентября в 18:30 – митап Авито для продуктовых и дата-аналитиков: как оптимизировать сроки доставки и подобрать метрику, которая устроит всю команду, кейс про изменение правил купли-продажи автомобилей через Авито Аукцион. https://avitotech.timepad.ru/event/2136079/ Москва ул. Лесная, 7
• 9-10 сентября - Конференция CrossConf https://crossconf.com/ Казань, Иннополис,
• 18 сентября - HackConf 2022 – большая встреча разработчиков, безопасников, сисадминов из IT сообществ с докладами, холиварами и прочими классическими тематическими развлечениями. Есть секция ML/AI/. https://hackconf.ru/. Санкт-Петербург, пл. Победы, д. 1, Park Inn Пулковская
• 22 сентября – CDI Conf 2022 - конференция IT-компании HFLabs посвящена трендам в работе с клиентскими данными: обмен обезличенными данными, управление клиентскими согласиями, новые инструменты маркетинга. Участие бесплатное, необходима предварительная регистрация. https://cdiconf.ru/ Москва, Цветной бульвар, д. 15 стр. 1, Пространство Omega Rooftop
• 22-23 сентября – Saint HighLoad++ 2022 - профессиональная конференция разработчиков высоконагруженных систем https://highload.ru/spb/2022 Санкт-Петербург, DESIGN DISTRICT DAA
• 23 сентября – Yandex Scale - большая конференция Yandex Cloud, где бизнес и технологии говорят на одном языке https://scale.yandex.ru/. Москва, в кинотеатре Октябрь, ул. Новый Арбат, 24
• 25-27 сентября – ежегодный ИТ-конгресс "Подмосковные вечера 2022" https://pv2022.4cio.ru/ Москва, Подмосковье, СПА-ОТЕЛЬ СВЕЖИЙ ВЕТЕР
• 26-27 сентября - Saint TeamLead Conf 2022 https://teamleadconf.ru/spb/2022 Санкт-Петербург, DESIGN DISTRICT DAA
• 29-30 сентября - форум "Marketing Data Analytics". https://interforums.ru/mda22/home Москва, Холидей Инн Москва Сущевский
• 29 сентября - конференция "Искусственный интеллект: от пилота к промышленной эксплуатации" от CNews https://events.cnews.ru/events/iskusstvennyi_intellekt_2022_2022-09-29.shtml
417 views04:02
Открыть/Комментировать
2022-08-30 18:27:52
Если большие данные — новая нефть, то дата-саентисты — люди, которые её качают.

В Сбере они ежедневно общаются с аналитиками бизнес-направлений банка и создают
прорывные инфопродукты для принятия решений на основе Big Data, ML, AI.

Таких специалистов сейчас набирает команда Сбера. Что предлагают?

• Работу с по-настоящему большими данными. СберБанк проводит 1 млрд новых транзакций
ежедневно. Общий объём данных — 75 ПБ. В вашем распоряжении будут 100 ТБ памяти и
≈7200 ядер CPU в песочницах.

• Интересные задачи: от восстановления информации о клиенте по цифровому следу и
работы с естественным языком до построения моделей ожидаемой доходности.

• У Сбера есть лабораторный кластер с большими данными и разным ПО. А ещё сотрудник
получит доступ к локальным машинам с расширенным количеством оперативной памяти и
GPU.

Вакансия полностью по ссылке: http://sber.me/?p=fM2pP
458 views15:27
Открыть/Комментировать
2022-08-30 07:34:47 Нужно логировать события Python-приложения? Есть специальный модуль!
Python-библиотека logging (https://docs.python.org/3/library/logging.html) определяет функции и классы, реализующие гибкую систему регистрации событий для приложений и библиотек. Главное преимущество API-интерфейса логироавния, предоставляемого модулем этой стандартной библиотеки, - возможность регистрации всех событий. Поэтому лог Python-приложения может включать собственные сообщения, интегрированные с сообщениями из сторонних модулей.
Модуль состоит из следующих классов:
• Регистраторы предоставляют интерфейс, который непосредственно использует код приложения
• Обработчики отправляют записи журнала (созданные регистраторами) в место назначения
• Фильтры обеспечивают более точное определение записей журнала для вывода
• Форматеры определяют расположение записей журнала в конечном выводе.
Уровень лога показывает его серьезность, т.е. насколько важно отдельное сообщение. В базовом уровне логирования DEBUG имеет самый низкий приоритет, а CRITICAL — самый высокий. Если определить регистратор чувствительным к сообщениям журнала, начиная с уровня DEBUG, то все все наши зарегистрированные сообщения будут отображаться, поскольку DEBUG является самым низким уровнем. Можно настроить отображение только событий с типом ERROR и CRITICAL.
Пример кода: https://medium.com/@DavidElvis/logging-for-ml-systems-1b055005c2c2
365 views04:34
Открыть/Комментировать
2022-08-26 16:11:47
Аналитик данных, специалист по Data Science или системный аналитик — что выбрать?
В анализе данных много специальностей, в которых можно начать карьеру. Узнайте о них подробнее на вебинаре Яндекс Практикума.

→ Бесплатно, 30 августа в 18:00

О профессиях расскажут эксперты с опытом в сфере:
Маргарита Нижельская, экс-руководитель команды системных аналитиков «МегаФон»
Кирилл Соколов, специалист по Data Science
Анна Чувилина, экс-руководитель аналитики Яндекс Практикума, Data Engineer
Инна Тетюлина, продакт-менеджер курса «Системный Аналитик»,
Устинова Алла, руководитель сервиса сопровождения направления анализа данных
Алексей Макаров, руководитель сопровождения, трудоустройства и фидбэка в направлении анализа данных Практикума

Вот что вы узнаете о каждой профессии:
— перспективы профессии;
— что должен знать и уметь специалист;
— кому подходит профессия;
— как учиться и начать карьеру;
— требования работодателей к младшим специалистам;
— как расти в профессии.

Вы сможете задать спикерам ваши вопросы о смене профессии и старте карьеры.
→ Зарегистрироваться на вебинар
612 views13:11
Открыть/Комментировать
2022-08-26 08:29:16
#тест
Вероятность отвергнуть нулевую гипотезу при заданном распределении наблюдений это
Anonymous Quiz
58%
Ошибка 2-го рода
16%
Плотность вероятности
17%
Функция мощности
10%
Случайная величина
230 voters644 views05:29
Открыть/Комментировать
2022-08-24 09:18:54 Хозяйке Data Scientist’у на заметку: Python-библиотека для работы с календарем
Python включает встроенный модуль календаря, который обрабатывает операции, связанные с датой и днями недели. Функции и классы этого модуля используют европейский календарь, где понедельник является первым днем недели, а воскресенье — последним.
Чтобы использовать эту библиотеку, ее нужно сперва импортировать в свой код:
import calendar
Затем можно вызвать функции, например, вывести имена месяцев в списке:
month_names = list(calendar.month_name[1:])
print(month_names)
https://docs.python.org/3/library/calendar.html
830 viewsedited  06:18
Открыть/Комментировать
2022-08-22 09:25:28 Вместо циклов: 3 альтернативы в Python
Разработчики и Data Scientist’ы знают, что циклы в Python работают медленно. Вместо них можно использовать следующие альтернативы:
• Map – позволяет применить функцию к каждому значению итерируемого объекта (список, кортеж и т. д.);
• Filter – подойдет для фильтрации значений из итерируемого объекта (списка, кортежа, наборов и т. д.). Условия фильтрации задаются внутри функции, которая передается в качестве аргумента функции фильтра.
• Reduce - применяется итеративно ко всем значениям итерируемого объекта и возвращает только одно значение.
Примеры использования: https://medium.com/codex/3-most-effective-yet-underutilized-functions-in-python-d865ffaca0bb
970 views06:25
Открыть/Комментировать
2022-08-19 07:55:35 Вместо Jupyter Notebook: преимущества Deepnote
Блокноты Jupyter уже много лет активно используются дата-анлитиками и специалистами по ML. Однако, несмотря на его популярность этого инструмента для исследований, он имеет существенные недостатки:
Сложность в управлении версиями кода. Поскольку блокноты Jupyter хранятся в виде больших файлов JSON, объединение двух блокнотов практически невозможно. Как и использование привычного разработчикам Git-подобного инструмента версионности.
Отсутствие интеграции с IDE, подсветки кода и подсказок. Обычно Data Scientist не является профессиональным разработчиком ПО, и поэтому инструменты, которые регулируют качество кода и помогают его улучшить, очень важны.
Трудности в разработке через тестирование. Популярная методология разработки через тестирование (test-driven development) практически нереализуема в блокнотах Jupyter. Поэтому их нельзя использовать в серьезных конвейерах данных.
Нелинейный рабочий процесс из-за перехода от одной ячейки к другой. Это может привести к невоспроизводимым экспериментам. Интерактивный способ кодирования и переходов между ячейками является одновременно одной из лучших функций Jupyter Notebook и его самой большой слабостью.
• Jupyter плохо подходит для выполнения длинных асинхронных задач с огромными объемами данных.

Многие из этих недостатков устранены в альтернативе Jupyter Notebook под название Deepnote. Deepnote, как и Jupyter, представляет собой интерактивный блокнот для решения DS-задач, однако выигрывает у конкурента по ряду преимуществ :
• Совместная работа в реальном времени – подобно Google-документам, можно поделиться ссылкой на свой блокнот с коллегами, предоставив каждому нужный уровень доступа (просмотр, выполнение, комментирование, редактирование и полный доступ). Кроме того, каждая ячейка в Deepnote позволяет соавтору оставлять комментарии, избавляя от необходимости переключаться между приложениями для обмена сообщениями и кодом для предоставления отзыва. Имея доступ к коду разработчика, менеджеры и другие члены команды могут легко отслеживать ход разработки кода и жизненный цикл разработки.
• Простое развертывание управляемой среды - Deepnote берет на себя работу по установке модулей и настройке среды для запуска Python, включая управление версиями. Дополнительно к Python, Deepnote также поддерживает выполнение SQL-запросов.
• Deepnote имеет возможность встраивать блоки кода в блоги и другие репозитории, устраняя необходимость создавать GitHub специально для этой цели. Ячейки Deepnote позволяют встроить только код, встроить только выходные данные и встроить как код, так и выходные данные.
• Визуализация данных - блокноты Jupyter почти не предоставляют способов выполнения EDA без явного написания кода. Deepnote предоставляет инструмент визуализации в самом блокноте - блок визуализации позволяет генерировать информацию, как и с библиотеками Python, но без необходимости написания кода.
• Экономия времени и денег - поскольку Deepnote отвечает за управление кодом и его обработку, командам не нужно передавать свои кодовые конвейеры в такие инструменты, как GitHub, BitBucket и т. д., тем самым снижая эксплуатационные расходы.
Попробуйте бесплатно: https://deepnote.com/
1.6K viewsedited  04:55
Открыть/Комментировать
2022-08-17 08:14:40 10 лучших практик по именованию таблиц и полей в БД
Если бы каждый разработчик и аналитик соблюдал эти простые правила, реверс-инжиниринг стал бы приятным развлечением, а не трудоемкой работой. Чтобы облегчить работу с БД себе и коллегам, попробуйте эти простые правила:
1. Разделять слова подчеркиванием, если имя атрибута или таблицы БД состоит из 2-х и более слов. Это понятнее стиля camelCase, улучшает читаемость и снижает зависимость от платформы. Например, word_count.
2. Называть таблицы и столбцы полным и семантически понятными именами без привязки к типам данных. Экономия пары символов не даст ничего, кроме путаницы. Допустимо применять сокращения только там, где это всем известная аббревиатура.
3. Писать название атрибута со строчной буквы, чтобы избежать путаницы с ключевыми словами SQL в верхнем регистре. Это также повысит скорость набора текста.
4. Не использовать цифры в названии таблиц и столбцов.
5. Называть таблицы понятно, но кратко.
6. Называть таблицы и столбцы в единственном числе. Например, author вместо authors
7. Называть таблицы-связки в алфавитном порядке. Например, author_book
8. При создании индекса называть его по имени таблицы и столбца. Например, CREATE INDEX person_ix_first_name_last_name ON person (first_name, last_name);
9. Для столбцов типа Boolean к имени добавлять префикс is_ или has_ . Например, is_admin или has_membership.
10. Для столбцов типа Date-Time к имени добавлять суффикс _at или _time. Например, ordered_at или order_time.
https://dev.to/mohammadfaisal/how-to-design-a-clean-database-1e83
1.7K views05:14
Открыть/Комментировать
2022-08-15 06:54:29
3 типа аномалий в данных
2.4K views03:54
Открыть/Комментировать