Получи случайную криптовалюту за регистрацию!

#colab #cv #useful Детекция произвольных объектов Выложена о | градиент обреченный

#colab #cv #useful

Детекция произвольных объектов

Выложена очередная полезная сетка. На этот раз при помощи CLIP (модель, совместно натренированная на текстах и картинках) реализована детекция объектов по тексту. Реализовано это по статье "Simple Open-Vocabulary Object Detection with Vision Transformers" и названо OWL-ViT.

Если раньше нужно было знать, что мы хотим детектировать (машины, лица и т.д.) еще перед началом обучения, то теперь сделан шаг в сторону Open-vocabulary детекции.

На картинке я попробовал найти "ботинок", "лицо", "пиджак", "чемодан" и "ножку от скамейки". При поиске можно задавать порог уверенности.

Чем проще запрос тем качественнее детекция, — попробовал на фотке Роналду и Месси найти Роналду и Месси, сеть распознала обоих как Роналду, так что определенный bias есть .

Зачем?

Задача детекции (фото- и видеоаналитика) очень распространена. По кадрам с камер определяют номера машин и лица людей. Приложения находят товары в магазинах по фото. На медицинских снимках ищутся патологии и т.д. Также детекция используется при составлении датасетов, когда нужно среди миллионов изображений найти и вырезать какой-то объект.

Сеть выложена на huggingface, можно пробовать.

Colab | Huggingface | Статья