Получи случайную криптовалюту за регистрацию!

PyMagic

Логотип телеграм канала @pymagic — PyMagic P
Логотип телеграм канала @pymagic — PyMagic
Адрес канала: @pymagic
Категории: Технологии
Язык: Русский
Количество подписчиков: 5.93K
Описание канала:

Data Science / ML / Deep Learning
VK group https://vk.com/club211095898

Рейтинги и Отзывы

2.00

2 отзыва

Оценить канал pymagic и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

0

4 звезд

0

3 звезд

1

2 звезд

0

1 звезд

1


Последние сообщения

2022-07-21 13:05:11 PyMagic pinned «Курс по Data Science с нуля Друзья, мы начинаем старт набора на третий потока курса по Data Science для начинающих - PyMagic. Наши выпускники с 1-го пока и часть студентов со 2-го потока уже нашли работу DS/DA. Теперь вы можете вернуть часть оплаты…»
10:05
Открыть/Комментировать
2022-07-21 13:05:05 Курс по Data Science с нуля

Друзья, мы начинаем старт набора на третий потока курса по Data Science для начинающих - PyMagic. Наши выпускники с 1-го пока и часть студентов со 2-го потока уже нашли работу DS/DA.

Теперь вы можете вернуть часть оплаты за обучение в размере 13% в качестве налогового вычета.

Мы добавили блок про Kaggle соревнования. А также блок про введение в production, где сделаем ваш pet-project не просто в виде Jupyter Notebook, это будет целый сервис с обновлением модели

Этот курс подойдет для старта в карьере Data Scientist, который охватывает полный список тем с разборами алгоритмов, SQL, Python, код-ревью и тестовым собеседованием, а также блоком с трудоустройством. Курс был составлен опытными преподавателями, которые уже имеют опыт запуска своих школ по Data Science, обучения студентов в университетах таких как МГТУ им. Баумана, Высшая Школа экономики, Казанский федеральный университет.

Занятия проходят онлайн в течение 6 месяцев. Самое главный плюс, не бросаем вас после обучения, пока вы не дойдете до нужного результата, например, найдете работу, то вы всегда можете задать свой вопрос, получить консультацию.

Поэтому, количество мест ограничено! Мы не сможем набрать большую группу из соображений, что это даже больше микс групповых и индивидуальных занятий. Мы всегда можем дополнительно созвониться и еще раз пройтись по вопросам и теме, и за это не нужно доплачивать.

Занятия проход 2 раза в неделю по 1-1,5 часа, 1 ДЗ в неделю. На выходе вы получите:

- Два pet-project
- Разбор собеседований по популярным и специфичным вопросам
- Понимание, как работают алгоритмы
- Грамотно составленное резюме и сопроводительное письмо
- Рекомендации в компании-партнеров (для выпускников)

Более подробную информацию вы можете узнать из нового видео на канале

а также на сайте PyMagic https://pymagic.ru
883 views10:05
Открыть/Комментировать
2022-07-20 12:21:03 Не могу найти работу Junior Data Scientist

Иногда нам кажется, что мы приложили все усилия для достижения цели, но по какой-то причине у нас ничего не получается и все сыпется. Очень довольно популярные комментарии в стиле: я ищу уже год работу Data Scientist, найти не могу, вакансий нет.

Очень странно, потому что все мои выпускники с 1го потока устроились без поиска в длинной даже пол года.

Ответ на это все достаточно простой, что-то вы делаете НЕ ТАК. Давайте разбираться в причинах.

Слабый pet-project. Либо это типичный проект по шаблону, который дают все массовые курсы, все такие работы видно работодателям (буквально недавно общались на эту тему снова, только подтвердили мои слова лишний раз), либо вы берете уж очень простые датасеты, учебные соревнования с Kaggle, либо работа ограничивается fit_predict и никак не показывает ваши знания и умение

Смотрите только на HeadHunter. Есть множество групп, платформ, сообществ, где также размещаются вакансии. Нужно уметь грамотно их мониторить, стараться искать людей, которые работают в самой компании, чтобы через них передать свое резюме. Не все компании отвечают в HeadHunter

Недостаточно знаний. Возможно, вы уже проходили несколько собеседований, но все безрезультатно. Вам стоит обратить внимание на те вопросы, где вы повалились, необходимо над каждой своей ошибкой делать домашнюю работу. Просто наличие сертификата/диплома вам не дает гарантии трудоустройства. Необходимы глубокие знания

Возможно Data Science это не ваше. Да, и такое может быть. Ваша психика просто выводит вас в ту степь, где вы валите пет-проект, собеседования, не видите вакансий, возможно недостаточная мотивация. Чем раньше вы это поймете, что вам не подходит данная область, тем больше времени вы сэкономите.
1.2K views09:21
Открыть/Комментировать
2022-07-18 14:04:03 Алгоритм решающего дерева в задаче классификации

Мы с вами уже обсуждали общий принцип построения всего дерева, а также дерева для задачи регрессии. Для классификации принцип тот же, но у нас в данном случае будут просто другие метрики информативности

Существуют два критерия: критерий Джини и Энтропиный критерий.

Введем обозначение pk. Так мы будем считать долю объектов k-того класса в вершине R.

Критерий Джини. Хаотичность вершины здесь будет полученная как сумма по всем классам произведение доли объектов k-того класса на разность единицы и доли объектов k-того класса (обращайте внимание на картинку).  

Тут важно помнить, что pk – это доля класса k, соответственно, число неотрицательное, а значит и сам критерий Джини всегда не отрицателен. Давайте представим, что мы рассматриваем вершину, где все объекты только одного класса. Тогда pk будет равно 1, а (1-pk) равно 0, следовательно, критерий Джини окажется равным нулю. Выяснили, что оптимальное значение критерий достигается в случае, если все объекты относятся к одному классу.

Энтропийный критерий. Выглядит немного сложнее, чем предыдущий. Хаотичность вершины задается суммой по всем классам со знаком минус произведение доли объектов k-того класса на логарифм доли объектов k-того класса.

Давайте на этом критерии немного остановимся. Здесь мы смотрим на энтропию распределения классов в рассматриваемой вершине. Энтропия говорит нам о том, насколько распределение классов неопределенное. Энтропия минимальна, если распределение вырождено. Энтропия максимальна, если распределение равномерное. Соответственно, энтропия в вершине может меняться от вырожденной до энтропии равномерного распределения. Значение энтропийного критерия не отрицательное.
1.3K views11:04
Открыть/Комментировать
2022-07-18 14:04:02
1.2K views11:04
Открыть/Комментировать
2022-07-14 12:26:26 Как строится дерево в задаче регрессии?

Друзья, в одном из постов мы уже с вами рассматривали алгоритм построения дерева. Давайте теперь разберемся, как строить оптимальное дерево для задачи регрессии, в этом нам поможет критерий информативности, который уже участвует в самом критерии ошибки (функционал качества).

Мы уже упоминали про критерий информативности как в отдельном посте так и с посте с алгоритмами. Я напомню, что критерий информативности мы обозначаем H(R), он оценивает качество распределения целевой переменной среди объектов, находящихся в вершине R. И, как вы помните, наша задача минимизировать его значение. Сегодня мы начнем обсуждать, какие критерии информативности используются для разных типов задач, начнем с регрессии.

Задача регрессии. Возьмем квадратичную функцию потерь в качестве примера. Вы уже знаете, что минимум квадратичной функции потерь будет достигаться, если целевое значение переменной будет равно среднему. Советую здесь посмотреть на картинку, так станет понятнее. Таким образом, ошибка константного прогноза на какой-либо вершине - это дисперсия, мера разброса значений случайной величины относительно её математического ожидания. Еще раз, мы выяснили, что в данном случае информативность вершины измеряется её дисперсией. Запутано? Смотрим на пример.

Пример. Пусть у нас есть вершина, где пять объектов с одним и тем же прогнозом, пусть прогноз будет равен 7. То есть пять семерок содержится в рассматриваемой вершине. Все объекты с одинаковой целевой переменной. Дисперсия в такой вершине будет равна нулю. Хаотичность вершины минимальная. Вероятно, нам не придется дальше проводить разбиение. Давайте теперь рассмотрим другую вершину, в которую попали следующие прогнозы: 1, 2, 2, 3, 1. Дисперсия такой вершины будет больше нуля. Значит, скорее всего разбиение придется продолжить.

 В регрессии чаще всего при выборе оптимального предиката используют именно дисперсию. Однако, можно использовать и другие функции потерь. Как вариант, если мы предполагаем, что в данных есть достаточное количество выбросов, то в качестве функции потерь можно взять абсолютное отклонение.
1.8K views09:26
Открыть/Комментировать
2022-07-14 12:26:06
1.5K views09:26
Открыть/Комментировать
2022-07-09 14:19:30 Как не оставаться вечным джуном в Data Science

Друзья, давно хотела с вами порассуждать на тему роста. Без вас здесь никак не справиться, делитесь в комментах, что помает вам расти и развивать в DS (и не только). А я пока поделюсь с вами лайфкахами, которыми помогают мне. Поверьте, методы рабочие)

 Начнем с самого банального. Я уже не раз говорила, если мне что-то очень трудно понять, помогает «проветривание головы». Да, просто отключитесь от задачи, прогуляйтесь, не нужно «долбить» ее часами. Поверьте, вдохновение придет.  Мы даже не замечаем, но наш мозг ищет решение проблемы, даже когда мы про нее в данный момент не думаем.

 Совет для стажеров/junior/middle. Хорошо прокачать свои навыки написания кода, помогает код ревью. Да, в первые раз это может быть не совсем приятно, но поверьте, чем больше код ревью вы будете проходить, тем быстрее будете развиваться. Просите старших наставников смотреть ваш код, можно даже предложить парное программирование)

Третий совет работает безотказно. Если вы уверены, что отлично усвоили материал или знаете на 100 процентов, как решать задачу – попробуйте ее объяснить кому-нибудь. Обычно, когда вы пытаетесь донести информацию другому человеку, вы невольно сталкиваетесь с моментами, на которые сами бы не обратили внимание. Объяснение материала отличный способ его качественно усвоить.

 Если поделиться новыми знаниями не с кем. Тогда попробуйте написать на бумаге все, что вы поняли. Выписывайте самые тонкие моменты, продумывайте их, анализируйте.

 Старайтесь разбирать интересные вам статьи по теме DS. Сначала будет непросто, зато такой навык поможет вам на работе быстрее и качественнее понимать документацию, да и просто вас прокачает.

 Очень хорошо работает обратная связь. Попросите старших наставников провести с вами ретроспективу, возможно, вы услышите не только приятные отзывы, но критика еще лучше помогает расти. Составьте план по улучшению тех или иных навыков, смотрите на него ежедневно и отмечайте, над чем сегодня успели поработать.

 И не забывайте себя радовать и хвалить. Помните, что все трудности временные. Вы обязательно достигнете цели, главное не останавливайтесь. Дорогу осилит идущий!
2.6K views11:19
Открыть/Комментировать
2022-07-06 14:07:30 Деревья решений. Критерий информативности
 
Добрый день, друзья! Знаю, что многим тема решающих деревьев кажется чем-то пугающим и сложным. Давайте попробуем вместе обратить внимание на некоторые моменты, считаю, что это будет очень полезно, ведь про решающие деревья любят спрашивать на собеседованиях. Давайте сегодня поговорим про критерий информативности, который мы затронули в одном из прошлых постов. И так разбираемся по порядку…

 Я думаю, вы согласны с тем, что при построении дерева нам необходимо задавать функционал качества. Оценивать качество разбиения выборке нам необходимо на каждом шаге.

Смотрите разбор формулы выше

Обратите внимание на формулу, Q – наш функционал качества: Rm - объекты, попавшие в вершину, разбиваемую на данном шаге, Rℓ и Rr — объекты, в левом и правом поддереве соответственно, при заданном предикате. Обычно критерий информативности принято обозначать как H: чем меньше разнообразие целевой переменной, тем меньше будет критерий информативности. Наша задача как раз минимизировать его значение. А функционал качества Q будем при этом максимизировать. Давайте еще раз обсудим почему? Мы отнимаем минимальное значение критерия информативности, полученные в левом и правом поддереве от критерия информативности, посчитанного для рассматриваемой вершины. Соответственно, нам выгодно, чтобы критерии информативности в левом и правом поддереве были как можно меньше, таким образом отнимаем как можно меньшее значение, следовательно значение Q мы максимизируем.

Идем дальше. Про сам критерии информативности. В каждом листе дерево будет выдавать какую-то константу: вероятность, класс, вещественное число. Еще раз, мы рассуждаем так: предположим в этой вершине мы хотим остановить алгоритм (сделаем вершину листовой), тогда нам потребуется здесь выдавать какой-либо прогноз, мы будем перебирать все константные прогнозы, и наблюдать за поведением ошибки, а далее выберем такой константный прогноз, при котором ошибка, полученная на выборке в вершине, будет минимальная. Это и будет критерий информативности.

 Сложно? Запутано? Давайте рассмотрим примеры. И так, решаем задачу классификации. Нам попалась вершина, в которой находится n положительных объектов (+1)… Понятно, что при любой функции потерь, если мы выберем константу равную +1, то значение функции потерь будет равно нулю, следовательно критерий информативности будет также нуль. Теперь представьте, что у вас в вершине поровну положительных и отрицательных объектов – понятно, что какую бы константу вы не взяли, ошибка будет положительной, критерий информативности не сравниться с нулем, а будет больше.
2.2K views11:07
Открыть/Комментировать
2022-07-06 14:07:18
1.6K views11:07
Открыть/Комментировать