Получи случайную криптовалюту за регистрацию!

Один из челленджей в машинном обучении связан со смещением дан | Geeks

Один из челленджей в машинном обучении связан со смещением данных. Реже употребляется термин "сдвиг данных" и это - прямая калька с английского dataset shift. Проблема тут в "предвзятости" получаемых моделей относительно данных, на которых проходило обучение, что приводит к ошибкам алгоритма при работе в новых условиях. Например, когда беспилотный автомобиль обучался на столичных дорогах, а оказался на типичных российских дорогах отдаленных от МКАДа без полос и асфальта. Доступные сейчас наборы данных "со смещением" зачастую очень ограничены, и не редки ситуации, когда они вообще создаются искусственным путём.

Если вы занимаетесь машинным обучением, то маловероятно, что не слышали про конференцию NeurIPS. Крупнейшая и, можно сказать, что одна из главных конференций, которая ориентирована на тех, кто работает в данном направлении. В этом году Яндекс, совместно с ребятами из академической среды таких университетов как Оксфорд и Кембридж, устраивают на NeurIPS 2021 конкурс. В рамках соревнования предлагается разработать алгоритм для предсказания поведения участников автомобильного движения, машинного перевода текстов или предсказания погоды. Обучить алгоритм нужно на предоставленных данных, а затем проверить качество его работы в условиях смещения данных.

В помощь Яндекс открывает самый большой из доступных на данный момент набор данных связанных с беспилотными автомобилями. Это 600 000 дорожных сцен или более 1 600 часов движения, собранных за полгода в России, Израиле и США, при разных погодных условиях. Также для соревнования открываются датасеты сервисов Яндекс.Погода и Яндекс.Переводчик.

Безусловно, очень круто, что коммерческая компания делится такими крупными наборами данных в столь активно развиваемых на данный момент направлениях. Тем более, что Яндекс известен тестированием своего беспилотного автомобиля в различных странах, городах и погодных условиях - опыт у них большой. А такое разнообразие данных наверняка позволит корректней обучать модели не только связанные с беспилотными автомобилями, но и в других направлениях.

https://research.yandex.com/shifts