#colab #cv #useful
Детекция произвольных объектов
Выложена очередная полезная сетка. На этот раз при помощи CLIP (модель, совместно натренированная на текстах и картинках) реализована
детекция объектов по тексту. Реализовано это по статье "
Simple Open-Vocabulary Object Detection with Vision Transformers" и названо OWL-ViT.
Если раньше нужно было знать, что мы хотим детектировать (машины, лица и т.д.) еще перед началом обучения, то теперь сделан шаг в сторону
Open-vocabulary детекции.
На картинке я попробовал найти "ботинок", "лицо", "пиджак", "чемодан" и "ножку от скамейки". При поиске можно задавать порог уверенности.
Чем проще запрос тем качественнее детекция, — попробовал на фотке Роналду и Месси найти Роналду и Месси, сеть распознала обоих как Роналду, так что определенный bias есть .
Зачем?
Задача детекции (фото- и видеоаналитика) очень распространена. По кадрам с камер определяют номера машин и лица людей. Приложения находят товары в магазинах по фото. На медицинских снимках ищутся патологии и т.д. Также детекция используется при составлении датасетов, когда нужно среди миллионов изображений найти и вырезать какой-то объект.
Сеть выложена на huggingface, можно пробовать.
Colab | Huggingface | Статья