Получи случайную криптовалюту за регистрацию!

Ds.interview

Логотип телеграм канала @ds_interview_helper — Ds.interview D
Логотип телеграм канала @ds_interview_helper — Ds.interview
Адрес канала: @ds_interview_helper
Категории: Технологии
Язык: Русский
Количество подписчиков: 786
Описание канала:

❓ Вопросы и ответы с собеседований на позицию data scientist
🙋🏽‍♀️ Есть предложение по вопросу? Пиши в лс (скоро создам бота)
💬 опыт и личное мнение @RamilyaSharifullina

Рейтинги и Отзывы

4.50

2 отзыва

Оценить канал ds_interview_helper и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

1

3 звезд

0

2 звезд

0

1 звезд

0


Последние сообщения

2023-04-24 13:01:31 38. Предположим, что есть обученная модель градиентного бустинга. Как можно оценить “уверенность” предсказания модели (подсказка - boosting uncertainty)?

Можно построить график, где по оси x - номер дерева (в последовательности деревьев градиентного бустинга), а по оси y - предсказанное значение целевой переменной. Если модель градиентного бустинга “уверенна” в своем ответе, уже на первых деревьях модель сойдётся к какому-либо предсказанному значению, если модель не “уверена”, то значения предсказанной целевой переменной будут колебаться.

#gradient_boosting


Grade: #junior
Subject: #практика
Source: @KarpovCourses
774 views10:01
Открыть/Комментировать
2023-04-21 13:01:16 37. Предположим, что в процессе обучения нейронной сети на одном из слоев мы применяем несколько сверток одинакового размера к одному и тому же изображению. Почему паттерны, на которые будут реагировать такие свертки после обучения, могут получаться разными?

Это происходит за счет случайной инициализации весов сверток.

#cnn

Grade: #junior
Subject: #практика
Source: @vhadzhykhanov
816 views10:01
Открыть/Комментировать
2023-04-20 13:00:36 36. Для чего в свёрточную нейронную сеть добавляют свертки (слои) одинакового размера?

Каждый слой извлекает какие-либо признаки, соответственно, добавление новых слоев увеличивает количество извлеченных признаков.

#cnn

Grade: #junior
Subject: #практика
1.1K views10:00
Открыть/Комментировать
2023-04-19 14:00:34 35. Сколько должно быть деревьев в алгоритме случайного леса?

Увеличение числа деревьев уменьшает разброс случайного леса. Но так как количество параметров и варианты подвыборок обучающей выборки ограничены, то стоит построить график зависимости ошибки случайного леса от количества деревьев и ограничить число деревьев тогда, когда ошибка перестанет существенно уменьшаться от увеличения числа деревьев.

#random_forest

Grade: #junior
Subject: #практика
1.0K views11:00
Открыть/Комментировать
2023-04-18 13:00:23 34. Предположим вы обучили модель. Как не заглядывая в графики функции потерь и графики точности на валидационной выборке определить, переобучилась ли модель?

Надо подать модели 2 экземпляра данных по признакам очень похожих друг на друга. Если предсказание модели по этим двум точкам сильно отличается, то можно судить, что модель переобучилась.

#переобучение

Grade: #junior
Subject: #практика
Source: @victoria_dochkina
1.2K viewsedited  10:00
Открыть/Комментировать
2023-04-17 13:00:26 33. Почему нейронные сети, как правило, усложняют количеством добавленных слоев, а не количеством нейронов в слое? (Ведь известно, что аппроксимацию какой-то зависимости или закономерности в данных можно добиться и тем и другим путем)?

Добавление новых слоев позволяет модели учить более абстрактные и сложные признаки из данных; добавление нейронов так же может этого добиться, однако в то же время привести к переобучению модели, если количество параметров становится слишком большим по сравнению с объемом обучающих данных.

#deep_learning

Grade: #junior
Subject: #практика
1.0K viewsedited  10:00
Открыть/Комментировать
2023-04-14 13:01:41 31. Вы построили матрицу ошибок для модели бинарной классификации. Приведите пару примеров задач, для которых одна из ситуаций выигрышнее - тогда, когда больше значение FP или FN.

В задачи распознавании опухоли лучше лишний раз ошибиться с положительным предсказанием, чем с негативным (лучше когда FP больше); в задачи распознавании спама блокировка не спама хуже нежели отправка спама, т.к. люди не увидят свои сообщения (лучше когда FN больше).

#метрики

Grade: #intern
Subject: #практика
1.1K viewsedited  10:01
Открыть/Комментировать
2023-04-14 13:01:06 32. Пусть у нас есть два продукта: продукт A продаётся в количестве 100 штук, а продукт В в количестве 10 штук. Есть 2 модели: Первая предсказывает продажу товара А в 99 штук, а товара B 8 штук. Вторая предсказывает товар А 98 штук, а товар B 9 штук (т.е. MSE, MAE обоих моделей равны). Какая модель лучше ?

Однозначного ответа нет, вопрос на руссуждение. В целом можно ответить, что лучше - вторая модель, так как она предсказывает товары меньшего количества лучше (это выгодно, если, допустим, товары меньшего количества стоят дороже).

#метрики

Grade: #junior
Subject: #практика
947 views10:01
Открыть/Комментировать
2023-04-13 10:01:24 30. Предположим что вы построили модель оттока клиентов и обучили её. На выходе вы получили вероятность оттока каждого клиента (от 0 до 1). Как оценить такую модель?

В данной задаче мы пытаемся оценить качество предсказанных вероятностей. Необходимо выбрать какой-либо threshold (порог) при котором мы будем решать, потеряли ли мы клиента или нет. Метрики качества модели будут зависеть от выбранного порога. Выбрать оптимальный порог можно путем максимизации метрик качества модели (построить график зависимости значения метрики и выбранного порога).

#метрики

More

Grade: #middle
Subject: #теория
893 viewsedited  07:01
Открыть/Комментировать
2023-04-12 10:15:01 29. Для чего нужна функция super и может ли эта функция ссылаться не только на __init__?

Функция super() позволяет нам явно ссылаться на родительский класс; она может ссылаться не только на функцию __init __(), но также может вызывать все другие функции суперкласса.

#python

More

Grade: #junior
Subject: #практика
834 views07:15
Открыть/Комментировать