2021-05-05 15:17:22
Если вы ещё не видели новую технику обучения
DINO (статья, код, видео), то это новый лучший алгоритм
(Unsupervised learning) для классификации изображений. Авторы из FB AI, Inria и Sorbonne University предложили метод самообучения на основе подхода
self-distillation в комплексе с ViT.
В основе DINO лежит достаточно простая идея. На входе изображения по-разному дополняются
(multi-crop augmentation) для двух моделей
(student/teacher). Далее, модель студента формирует веса модели учителя с помощью техники
exponential moving average. В процессе распространения данных в модели учителя дополнительно форсируется более точный прогноз наиболее вероятного класса. На выходе, на основе кросс-энтропии, два полученных распределения сравниваются и веса студента обновляются. То есть, разные части одной и той же картинки, «нарезанные» по-разному, должны попадать в один класс для двух моделей.
Самообучение – это важная проблема анализа данных. Например, с помощью DINO, добавив сверху линейный классификатор, можно очень точно выполнить целый ряд практических задач. Интересно, что лежащий в основе ViT однозначно выделяет важные для классификации области изображения, которые легко интерпретируются человеком (в отличие от CNN). Примечательно, что полученная модель группирует изображения в кластеры, близкие по значению в понимании человека: машины с машинами, птицы с птицами. Обязательно посмотрите иллюстрации в статье!
В блоге FB AI, кроме DINO, анонсирована не менее интересная технология под названием
PAWS из разряда
semi-supervised learning. Это техника позволяет обучать модели на порядок быстрее своих конкурентов, что очень важно на практике.
268 viewsAndrey, 12:17