Пристанище Дата Сайентиста

Адрес канала:

Категории: Технологии , Образование

Язык: Русский

Страна: Казахстан

Количество подписчиков: 4.03K

Описание канала:

Канал Рената Алимбекова (@alimbekovkz) про карьеру, применение и обучение Data Science. Веду блог https://alimbekov.com/
По вопросам рекламы на канале обращаться к менеджеру: @hey_renataa

▲ Vote (1)

Рейтинги и Отзывы

3.00

2 отзыва

Оценить канал renat_alimbekov и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 4

2022-04-04 10:02:08 Как развивать уже готовый продукт, расскажет AGIMA 5 апреля на митапе для продактов, аналитиков и руководителей проектов.

Главная тема — как сделать продукт по-настоящему полезным.

Выступят эксперты из AGIMA, AGIMA.AI, Leroy Merlin, AliExpress и других компаний. Они поделятся опытом и приемами работы, дадут советы. Вы узнаете:

— как найти точки роста в компании;
— зачем и чему учить сотрудников;
— какие метрики собирать и как с ними работать;
— почему Metabase — хорошая альтернатива для Tableau и Power BI и др.

Митап будет интересен всем, кто верит в Data Driven-подход. Регистрируйтесь

1.9K views07:02

Открыть/Комментировать

2022-04-01 15:00:39 Яндекс Практикум запускает программу по обучению SQL

За полтора месяца курса студенты с нуля пройдут путь от новичка до уверенного пользователя SQL.

Программа предназначена для:

- начинающих и продолжающих обучение аналитиков;
- продакт- и проджект-менеджеров;
- маркетологов;
- специалистов техподдержки;
- UX-исследователей;
- специалистов по финансам;
- новичков, которые хотят составлять SQL-запросы и - - работать с СУБД, даже если у них нет опыта в базах данных и html.

В рамках курса студенты научатся:

- проводить маркетинговые исследования, чтобы оценить успешность бизнеса или продукта;
- находить и отфильтровывать данные при помощи SQL-запросов;
- рассчитывать продуктовые метрики, чтобы сравнивать товары и услуги;
- хранить, обрабатывать и управлять данными в СУБД.

Создатели и преподаватели курса – действующие специалисты с большим опытом работы в SQL из ведущих российских компаний.

В программе:

- 2 блока учебного материала, каждый из которых представлен в двух форматах: текст и видеоуроки;
- практика в SQL-тренажёре;
- актуальные знания и реальные кейсы;
- разбор заданий на еженедельных воркшопах с наставником;
- 2 бизнес-проекта на основе требований заказчиков.

По завершении обучения студенты получат удостоверение о повышении квалификации.

Стоимость обучения:
Вводная часть бесплатна: пользователи смогут выполнить несколько заданий в SQL-тренажёре, что поможет оценить формат, содержание и уровень сложности.
39 000 ₽ при оплате всего курса.
От 3 898 ₽ в месяц при помесячной оплате.

Подробности по ссылке.

2.4K views12:00

Открыть/Комментировать

2022-03-30 16:00:46 Бесплатный курс MLOps и production подход к ML исследованиям

Продвинутые подходы и инструменты для разработки и внедрения ML-решений в production.

Программа курса:
- Концепция воспроизводимых и масштабируемых исследований. Особенности ML разработки в production. Создание базового ML проекта.
- Хранение и версионирование кода. Gitlab. Общие принципы Git-flow, Github-flow, настройка репозитория, codereview.
- Codestyle, инструменты форматирования, линтеры.
- Шаблонизация. Python пакеты и CLI. Управление зависимостями.
- Инструменты автоматизации воспроизводимых масштабируемых исследований, часть 1. Make, snakemake, DVC.
- Инструменты автоматизации воспроизводимых масштабируемых исследований, часть 2. MLflow
- Разработка сервиса на базе ML моделей. Контейнеризация с Docker.
- Методы и инструменты тестирования кода и данных
- CI/CD (GitLab, nexus)

На курсе вас ждут 9 онлайн занятий, продолжительностью 1,5 - 2 часа, которые будут проходить по понедельникам в 18:30. Все занятия будут доступны в записи. Для дополнительной мотивации будет вестись публичный рейтинг, лучшие участники получат уникальный мерч от ODS.

Ссылка на курс

2.2K views13:00

Открыть/Комментировать

2022-03-27 18:00:50 28 марта Newprolab запускает обновленный 10-й поток программы Data Engineer. Присоединяйтесь: https://clck.ru/eS8sp

Приглашаем аналитиков данных, дата-инженеров, бэкенд-разработчиков и менеджеров систематизировать свои знания и разобраться с практиками и инструментами дата-инжиниринга раз и навсегда.

7-недельная программа включает:
- 21 тематическое занятие в зуме
- 10+ инструментов по работе с данными: Kafka, HDFS, ClickHouse, ELK, Spark, Airflow, Apache Flink, Docker, Grafana, Kubernetes и др.
- 6 лаб для полноценного погружения и работы с облачным кластером (практические задачи, максимально приближенных к реальных задачам дата-инженеров)
- помощь координатора (по технической части) и ментора (опытного дата-инженера) во время всей программы

На программе преподают Андрей Титов (NVIDIA), Егор Матешук (ГПМ Дата), Игорь Мосягин (Klarna), Николай Марков (Aligned Research Group) и другие эксперты-практики в сфере работы с данными.

После нашей программы вы будете ориентироваться в карте инструментов и технологий и легко сможете понять, куда развиваться дальше в своей карьере и по праву сможете называть себя дата-инженером.

Участники, которые успешно пройдут программу, получат сертификат с подтверждением результатов.
По промокоду "ALIMBEKOV_0322" вы можете получить скидку 15% до 28 марта.

2.3K views15:00

Открыть/Комментировать

2022-03-22 16:01:30 Proof of Concept: Как проверить, что внедрение ML стоит свеч

Классный пост о том как правильно "продавать" внутренние проекты по машинному обучению.

https://habr.com/ru/company/ods/blog/438212/

3.1K views13:01

Открыть/Комментировать

2022-03-15 16:01:20 Версионирование файлов jupyter notebooks

Не знаю сталкивались ли вы с этим, но если жупитер ноутбуки хранить в гит репозитории, то нужно очищать его от всех входов и выходов. Например там могут картинки, графики и прочее медиа, что занимает много места, да и не так важно иметь в репозитории.

Наткнулся тут на статью, где подробно описано решение этой проблемы:
https://stackoverflow.com/questions/18734739/using-ipython-jupyter-notebooks-under-version-control

Вкратце, есть решения:

- ipynb_output_filter — смотрит внутрь жупитер ноутбук файла и вычищают блоки выхода.
- nbstripout — pre-commit хук, который вычищает блоки выхода.
- можно просто сохранять ноутбуки как .py файлы

3.1K views13:01

Открыть/Комментировать

2022-03-08 15:00:57 machine learning pipeline - часть 2
В предыдущих частях мы поговорили об основах ML пайплайнов и о структуре проекта и cookiecutter, а сегодня о конфигурациях для проектов машинного обучения - Hydra.

В чем собственно проблема и почему я стал использовать Hydra? При запуске Python скриптов добавляют много аргументов, хотя иногда их можно и сгруппировать. Вот пример такого скрипта:

parser.add_argument('data', metavar='DIR', help='path to dataset')
parser.add_argument('-a', '--arch', metavar='ARCH', default='resnet18', choices=model_names, help='model architecture: ' + ' | '.join(model_names) + ' (default: resnet18)')
parser.add_argument('-j', '--workers', default=4, type=int, metavar='N', help='number of data loading workers (default: 4)')
parser.add_argument('--epochs', default=90, type=int, metavar='N', help='number of total epochs to run')
....

Распространенным решением, позволяющим контролировать растущую сложность, является переход на файлы конфигураций. Файлы конфигурации могут быть иерархическими и могут помочь уменьшить сложность кода, определяющего аргументы командной строки. Но и у них есть свои недостатки.

Например:
- Во время экспериментов вам может понадобиться запустить приложение с различными параметрами конфигурации. Сначала вы можете просто изменять файл конфигурации перед каждым запуском, но вскоре вы поймете, что трудно отслеживать изменения, связанные с каждым запуском.
- Файлы конфигурации становятся монолитными. Но если вы, например, хотите, чтобы ваш код использовал разные параметры конфигурации, скажем, один для набора данных ImageNet и один для набора данных CIFAR-10, у вас есть два варианта: поддерживать два файла конфигурации или поместить оба параметра в один файл конфигурации и каким-то образом используйте только то, что вам нужно во время выполнения.

Ну, а решение всех вышеперечисленных неудобств - Hydra.

Hydra — позволяет создавать композицию конфигураций. Композиция может работает как с файлом конфигурации, так и в командной строке. При этом всё в составленной конфигурации также может быть переопределено через командную строку.

Пример использования:
Файл conf/config.yaml
defaults:
- dataset: cifar10

Файл conf/dataset/imagenet.yaml
dataset:
name: imagenet
path: /datasets/imagenet

Файл app.py
import hydra
from omegaconf import DictConfig @hydra.main(config_path="conf/config.yaml")
def my_app(cfg: DictConfig) -> None:
...
if __name__ == "__main__":
my_app()

При запуске будет использоваться параметр dataset по умолчанию. Но вы так же передать параметр и консоле: python app.py dataset.path = /datasets/cifar10

Еще одна крутая фишка: multirun — это возможность Hydra запускать вашу функцию несколько раз, каждый раз создавая новый объект конфигурации. Это очень удобно для проверки параметров без написания дополнительных функций. Например, мы можем просмотреть все 4 комбинации (2 набора данных X 2 оптимизатора):
python app.py —multirun dataset= imagenet, cifar10 optimizer=adam, nesterov

В этой мини заметке я постарался описать проблемы с конфигами, с которым сталкиваешься при написании пайплайнов и часть функций, которые предлагает Hydra.

Чтобы узнать больше о Hydra предлагаю почитать и посмотреть:
- Сайт Hydra
- Hydra — A fresh look at configuration for machine learning projects
- Как эффективно проводить эксперименты, Роман Суворов
- Артур Кузин: DL Pipelines tips & tricks

PS. То как это выглядит у меня проекте можно увидеть на скрине

3.0K views12:00

Открыть/Комментировать

2022-03-02 09:42:35 machine learning pipeline - часть 1

Когда я только начинал вести канал был опубликован пост об основах ML пайплайнов с ссылкой на репозиторий. Повторюсь: основная цель создания пайплайна - это контроль. Хорошо организованный пайплайн делает реализацию более гибкой.
И вот на работе возникла необходимость рефакторить пайплайны и я решил внести некоторые улучшения в них. Решил поделиться с вами несколькими мини постами.

Первое, что я сделал это перешёл на новую структуру проекта: cookiecutter

Эта структура достаточно логичная, стандартизированная и гибкая. Всё что вам нужно, установить его и стартануть проект:

pip install cookiecutter cookiecutter -c v1
https://github.com/drivendata/cookiecutter-data-science

Структура каталогов вашего нового проекта можно увидеть в скриншоте.

Для своих проектов я немного переделал структуру, например: мне в проектах Computer Vision не нужна папки src/features, reports и references.
Вы тоже можете перекроить структуру под ваши задачи.

Более подробно можно почитать тут:
- Git репозиторий
- Cookiecutter Data Science

757 views06:42

Открыть/Комментировать

2022-02-18 11:10:26 NVIDIA приглашает на весеннюю конференцию NVIDIA GTC, которая пройдет онлайн 21-24 марта 2022. Участие в конференции бесплатно.

На конференции заявлено 910 докладов, 85% из которых для технической аудитории.

Инженерам, работающим над проектами с Computer Vision, NLP, Conversational AI, Recommender Systems, Digital Twin, Predictive Maintenance, Cybersecurity и пр. в течение 4-х дней GTC расскажут, как создавать решения в этих сферах. Руководителям будет интересен опыт ведущих мировых компаний с примерами использования этих технологий в бизнесе.

Зарегистрироваться и посмотреть полный каталог сессий можно по ссылке ниже:
https://bit.ly/3GZTRwa

В рамках GTC также пройдут воркшопы по глубокому обучению, ускоренным вычислениям и кибербезопасности от NVIDIA Deep Learning Institute.

Участникам GTC бесплатно доступно 23 hands-on воркшопа с инструктором. Вне GTC стоимость 1-го воркшопа составляет 149$.

Внимание — количество мест ограничено. Лучше зарегистрироваться и составить расписание сейчас.

524 views08:10

Открыть/Комментировать

2022-02-17 11:00:42 Ждем, когда нейрокомпьютерные интерфейсы заменят классическое обучение.

Ну а пока — онлайн-курс Machine Learning Beginning в Projector. З месяца вебинаров, real-life заданий и регулярного фидбека от кураторов — вполне достаточно, чтобы изучить основы и практику выполнения ML задач.

Актуально для разработчиков, которые хотят перейти в Data Science, а также Data Scientist, ML/Data Engineer и Data Analyst-новичков.

Старт — 28 февраля.

745 views08:00

Открыть/Комментировать