Kantor.AI

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 5.27K

Описание канала:

Канал Виктора Кантора про Data Science и образование и карьеру в сфере анализа данных

▲ Vote (1)

Рейтинги и Отзывы

3.33

3 отзыва

Оценить канал kantor_ai и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 2

2022-03-05 20:35:24

Сегодня Курсера объявила об отказе от контента русских преподавателей. К сожалению, наша с коллегами специализация «Машинное обучение и анализ данных», через которую с 2016 года прошло более 150 тысяч человек, через 90 дней станет недоступна даже для тех, кто ее уже проходит. Сейчас думаем, что с этим делать.

8.5K viewsVictor Kantor, 17:35

Открыть/Комментировать

2022-02-16 12:31:11 Что не так с попыткой заработать денег с помощью рекомендательной системы

Допустим, у вас есть интернет-магазин, и на странице товара вы показываете несколько похожих или сопутствующих товаров. Например, можете показывать другие товары из той же категории или популярные. И тут вам приходит в голову персонализировать эти предложения.

Внедрив персональные рекомендации с помощью ML, вы смотрите статистику по кликам и покупкам и замечаете, что через клик на рекомендательный блок товары начали покупать вдвое чаще. Ура, вы поднимаете конверсию в покупку вдвое, теперь заработаете вдвое больше денег. Или нет? Вот, увы, нет.

Во-первых, конверсия с блока рекомендаций и конверсия с захода на сайт в покупку - не одно и то же. Например, если 80% трафика у вас идёт через каталог и игнорирует рекомендации, а 20% пользуется рекомендациями, то увеличение конверсии блока может быть связано, например, с тем, что вы обслуживаете им все те же 20% клиентов, просто более результативно. На практике конечно чем лучше рекомендации, тем больше клиентов вовлекаются в их использование в принципе, но это приводит нас к следующему тезису.

Вторая проблема - тот факт, что люди покупают товар с помощью рекомендаций, ещё не значит, что не купили бы без них. Возможно, они итак бы нашли товар через поиск и навигацию по каталогу, но рекомендации каннибализировали трафик с других элементов интерфейса, т.к. пользователю стало просто удобнее кликать по ним. В чем боль? В том, что рекомендации вроде бы и полезны, но не обязательно создают дополнительные продажи.

Как же тогда понять пользу от рекомендаций? Сделайте А/В тест, в одной группе показывайте новые рекомендации, в другой группе старые неперсонализированные, оцените статзначимость различий в выручке с пользователя или конверсиях с захода на сайт в покупку.

Скорее всего, вас ждёт два грустных открытия:
1) чтобы данных за несколько недель хватало для статзначимости, ваш магазин должен быть Озоном, Яндекс.Маркетом или Wildberries, а гонять тесты дольше при каждой доработке рекомендаций - не рабочая история,
2) конверсию в покупку вы в лучшем случае увеличиваете на несколько процентов, а деньги вовсе не значимы (точнее, не статзначимы).

Итог: миллионные и миллиардные эффекты от рекомендательных систем можно насчитать только в формате «на сколько напродавали с использованием рекомендаций», но не в формате «сколько заработанных денег мы бы недополучили без рекомендаций».

В следующих частях - что люди придумывали, чтобы заставить рекомендательные системы приносить деньги, и что делать, чтобы правда заработать на рекомендациях

3.1K viewsVictor Kantor, 09:31

Открыть/Комментировать

2022-02-11 13:32:14

Тема следующего поста

Anonymous Poll

42%

Как таргетируется реклама и подслушивают ли нас

43%

Какие сервисы умрут без динамического ценообразования с помощью ML

21%

Что полезного даёт рынок кредитных скорингов обычным людям или чем хорошо, если вас посчитали

51%

Почему рекомендательные системы не часто приносят компаниям миллиарды, как это исправить и надо ли

805 voters1.9K viewsVictor Kantor, 10:32

Открыть/Комментировать

2022-02-11 13:10:37 4. Эмбеддинги

Эмбеддинг - это представление примера из выборки в качестве неинтерпретируемого человеком вектора чисел, при этом понятного для методов машинного обучения. При построении эмбеддингов традиционно требования неинтерпретируемости не было - была только задача описать данные максимально компактно и при этом полезно для алгоритмов. Неинтерпретируемость досталась нам "бесплатно": оказалось, что машинному обучению нужно не то же самое, что человеку, нет необходимости притягивать данные к какому-то жизненному опыту и понимать, что "вот это число это возраст, а здесь у нас записан пол, а здесь финансовое положение". На основе эмбеддинга часто можно восстановить исходные данные, но с погрешностью. Эта неточность, однако, не портит или не сильно портит жизнь прогнозным моделям. Говоря о том, насколько опасно обмениваться эмбеддингами, можно заметить, что эмбеддинг из 100 чисел это, считай, те же 100 скоров. Так что подход похож на предыдущий, только теряется интерпретируемость, но может возрастать полезность данных, если эмбеддинги строятся специально под какие-то задачи.

5. Конфиденциальные вычисления

При наличии надежной третьей стороны, возможен следующий подход: третья сторона создает решение, позволяющее записать ваши данные и данные компании-партнера в некоторой защищенной области. При этом доступ к этой области обеспечивается так, что вы не можете посмотреть на сами данные, но сможете обучить на них свои модели. Примером конкретного такого решения может служить Intel SGX, позволяющий "создавать области в виртуальном адресном пространстве, защищённые от чтения и записи извне этой области другими процессами", как емко сообщает нам статья на вики.

6. Федеративное обучение

Но, в конце-концов, зачем вам передавать сами данные, чтобы построить модель? Передавайте модель (параметры модели, настраиваемые при обучении). Обучив модель на своих данных, вы можете свободно передавать владельцам других данных параметры самой модели, а они могут передавать параметры модели, обученной на их данных, вам. Простейшая такая схема - обучить модель у себя, передать модель партнерам и забрать уже доученную на их данных. Но в целом подход более общий, а детали реализации могут немного отличаться. Например, вы можете делать обучение модели в некоторой общей песочнице, которая умеет обращаться к данным нескольких сторон, получая значения текущих ошибок моделей, но не получая сами данные. Общая концепция федеративного обучения в том, что фактического обмена данными не происходит, но модель при обучении использует данные всех участвующих сторон.

Если как-то сравнивать все эти подходы, то наиболее жизнеспособные и перспективные, на мой взгляд, последние четыре. Они приведены исходя из моей субъективной оценки "возрастания секьюрности". Но всегда нужно помнить, что как бы секьюрно вы ни обменивались данными с компанией-партнером, какие-то данные нельзя передавать даже в преобразованном и как угодно зашифрованном виде. Например, в телекоме закон о тайне связи категорически запрещает любые манипуляции с содержанием звонков или сообщений между клиентами, и основывать на этом работу моделей недопустимо не только с моральной точки зрения, но и с точки зрения российского законодательства (а за соблюдением следят соответствующие органы). Деятельность банков и медучреждений в вопросах данных тоже регулируется. Свободней всего себя чувствуют интернет-компании: пока что любые их действия с данными ограничиваются только законом о персональных данных, здравым смыслом и заботой о своей репутации. Но посмотрим, как ситуация изменится через 10-15 лет.

2.0K viewsVictor Kantor, 10:10

Открыть/Комментировать

2022-02-09 11:55:26 2. Синтетические данные

Подход с анонимизацией можно развить: давайте на имеющихся у нас данных научим какую-то модель машинного обучения (например, нейросетку) генерировать новые данные, похожие на настоящие. Верхнеуровнево это работает так: каждый пример из реальных данных рассматривается как набор чисел из некоторого распределения, на известных данных вы восстанавливаете распределение, а потом из него же генерируете новые примеры. Не во всех подходах вы восстанавливаете распределение в явном виде, но главное, что вы можете генерировать синтетические примеры. Если реальных людей, к которым относятся эти данные, просто не существует, то невозможно и выдать чьи-то секреты. Но, к сожалению, есть в машинном обучении явление переобучения. Если ваша модель оверфитнется на данные, то в синтетических примерах могут появляться в точности примеры из исходной выборки. Неприятный риск, неправда ли? Впрочем, это относительно контролируемый риск, т.к. всегда можно проверить, возникла такая проблема или нет, да и несложно явно вычистить какие-то примеры из данных, слишком уж близкие к настоящим. Но остается та же проблема, что и в прошлом подходе - такие данные полезны только для пополнения обучающей выборки. Распространена практика выкладывать синтетические данные в качестве обучающей и тестовой выборки, когда вы устраиваете публичное соревнование по машинному обучению - тогда точно никто не деанонимизирует данные (а подобных скандалов на реальных данных из соревнований было достаточно много).

3. Скоры вместо данных

Элегантный способ решения проблемы - не отдавать данные. Например, вместо данных можно использовать прогнозы каких-то ML моделек. Есть у вас модельки для кредитного скоринга и рекламных интересов? Чем их прогнозы не подойдут в качестве признаков клиента. Они тоже его как-то описывают и на них тоже можно обучаться. Да даже если вы как-то прогнозируете возраст по поведению человека в сервисе - это уже не достоверно известный возраст, а модельный. Отгружая прогнозы по клиентам вы не выдаете никакой доподлинно известной информации. Главное, опять же, контролировать переобучение.

Завершающий пост - в эту пятницу

1.4K viewsVictor Kantor, 08:55

Открыть/Комментировать

2022-02-08 17:11:29 Внезапно мне прислали скрин, где под последним моим постом в канале показывает какую-то дикую рекламу из разряда «мы научим вас шортить». Оказалось, это та самая монетизация tg рекламой, добавленная в телеграм недавно, и которую пока никак нельзя отключить в своём канале.

Будьте бдительны - если под новым постом в моем канале нет кнопки с комментариями, это не пост, а реклама, к которой я не имею никакого отношения. Ну и если пост уложился в 10-20 слов в один абзац - это тоже точно не я)

2.4K viewsVictor Kantor, edited 14:11

Открыть/Комментировать

2022-02-07 14:15:43 Шесть способов построить модель на объединенных данных, не раскрывая сами данные

Многие компании сталкиваются с тем, что могут анализировать только данные из своих сервисов. Это ограничивает по трем причинам. Во-первых, сервисы одной компании редко когда покрывают все сферы жизни человека, так что картинка всегда получается неполной. Во-вторых клиентская база любой компании, даже если мы говорим про лидирующие экосистемы, это лишь какая-то доля рынка, а не вся страна или все страны присутствия, поэтому что-то прогнозировать для тех, кто еще не стал клиентом компании, довольно сложно. В-третьих, использование некоторых данных довольно жестко регулируется законодательно: есть законы о банковской тайне, о медицинской, о тайне связи, идут обсуждения про закон об экосистемной тайне.

Чтобы меньше страдать от этих ограничений, помимо развития бизнеса компании в новые сферы и наращивания доли рынка, можно пополнять свои данные открытыми или покупать данные у других компаний. Но вот слова "покупать данные" звучат очень неприглядно. С одной стороны: а кто же продаст свое конкурентное преимущество, коим является знание своего клиента? С другой стороны, в лоб торговать данными это просто не этично с точки зрения заботы о своем клиенте. Есть несколько способов, которые до определенной степени позволяют построить прогнозные модели на объединенных данных, "не сдавая своих", и уважая законодательство.

1. Анонимизированные данные

Если по каждому примеру из отгружаемых данных будет невозможно понять, к кому конкретно они относятся, то вы, вроде бы, никого и не выдаете. Казалось бы, достаточно использовать какой-то свой, не имеющий особого смысла, идентификатор пользователя - можно просто номер пользователя в вашей выборке, можно что-то более хитрое, главное, чтобы ваш идентификатор нельзя было сопоставить с ID пользователя в той компании, которая "покупает" данные. Увы, на деле все не так просто. Во-первых, если нельзя сматчить айдишники, нельзя дополнить данные по пользователям. Значит максимум, что вся эта затея даст, это дополнение обучающей выборки для алгоритмов примерами за пределами клиентской базы. Другая важная проблема - это то, что часто пользователя можно деанонимизировать, даже не имея его ID. Например, если в датасете присутствуют данные о гео-локации, то набор точек и моментов времени, в которые пользователь находился в них, уже сам по себе хороший ID. Все это приводит к тому, что передача третьей стороне "анонимизированных данных" не слишком популярная концепция - больше рисков и проблем, чем выгоды.

Продолжение - в среду

2.6K viewsVictor Kantor, 11:15

Открыть/Комментировать

2022-02-02 13:53:24

Попалась на глаза старая статья на zeh.media из разряда "гид по Data Science для начинающих", увидел эту картинку и завис с вопросом "какой такой ML по мнению автора относится к AI, но не относится к DS". Ссылка на статью в комментах, там же предлагаю обсудить, что бы могла значить эта диаграмма

2.1K viewsVictor Kantor, 10:53

Открыть/Комментировать

2022-02-01 14:05:00

2.5K viewsVictor Kantor, 11:05

Открыть/Комментировать

2022-02-01 14:05:00 Все слышали про правило 80/20, что 20% усилий приносят 80% результата. Иногда правда так, но есть несколько «но».

1) Давайте не будем забывать про метафоричность этого правила - это не результат исследований, не какой-то обоснованный закон, а просто выражение субъективных ощущений, никто никакие проценты с аптекарской точностью не мерил. Помните школьные задачки «бригада за 2 часа копает траншею 5 метров, сколько метров выкопает за 3 часа»? Вот там ни о каких 80/20 речи не идет, не занимайтесь самообманом. И такие пласты работы есть везде.

2) Вера в то, что можно сделать те самые важные 20% и забить на остальную работу нанесла человечеству не меньше вреда, чем пользы. Именно в ней ответственность за сырые и недоделанные решения, недопиленные продукты, недоведенные до ума проекты. Именно она даёт менеджменту решимость сокращать сроки и ресурсы сколько угодно.

Не в каждую менеджерскую мантру стоит верить, сколько бы раз заклинание ни повторялось людьми вокруг. Зачем я это написал и при чем тут анализ данных, AI и все такое? А тут все просто, на свете хватает людей, которые верят, что 80/20 это распределение Парето и какой-то основанный на матстате и теорвере научный факт. У меня для вас плохие новости: 80/20 это напасть похуже бизнес-молодости, а распределение Парето выглядит так:

2.5K viewsVictor Kantor, 11:05

Открыть/Комментировать