Исследователи из Лондонского университета королевы Марии создали фреймворк
fViT для извлечения черт лица системами распознавания.
Инструмент базируется на облегченной нейросети и визуальном трансформере (ViT). Он разбивает изображение на фрагменты определенного размера и добавляет к ним эмбеддинги. Полученная последовательность векторов затем передается модели глубокого обучения, которая по-разному «взвешивает» части анализируемых данных.
В fViT облегченная нейросеть прогнозирует координаты ориентиров лица. После этого трансформер анализирует фрагменты, содержащие предсказанные маркеры.
Исследователи обучили различные ViT-алгоритмы на наборах MS1MV3 и VGGFace2, включающих фото 93 431 и 8 600 людей соответственно.
fViT показал высокую точность распознавания для всех датасетов.
#исследование