2022-12-21 13:48:34
Про распознавание лиц, метрики качества и восстановление изображений
Когда-то я работал в компании "КСОР", основным продуктом которой является система мониторинга функционального состояния водителей и машинистов. Помимо того, что система должна уметь определять наступление таких событий, как курение, разговор по мобильному телефону, зевание, засыпание, система должна идентифицировать нарушителя.
Система работает круглосуточно и круглогодично, поэтому у камер видеонаблюдения есть инфракрасная подсветка (ИК), что позволяет различать лицо человека даже в тёмное время суток. Но это создаёт дополнительные ограничения и сложности: ИК подсветка обязывает нас использовать монохромное(одноканальное) изображение, то есть информации у нас ровно в три раза меньше, чем если бы мы использовали трёхканальное изображение(RGB). Информация(фичи) в машинном обучении, как нам известно, один из решающих факторов качества модели.
Давайте поймем, как работает система распознавания лиц. Для простоты будем представлять себе модуль распознавания лиц в качестве "чёрного ящика": на вход приходит изображение, а выход представляет из себя набор вещественных чисел, который "кодирует" лицо.
Этот набор принято называть "вектором признаков" или эмбеддингом. Все дальнейшие манипуляции связаны с тем, как хранить этот вектор признаков, как мэтчить людей и в какой момент времени нужно создавать новый профиль для человека.
Система распознавания лиц у нас есть, мы даже упрощенно понимаем, как она работает и какие перед ней стоят задачи, а в какой момент времени проводить распознавание? Очевидно, что нам бы хотелось максимизировать точность распознавания. Этот тезис подводит нас к ключевой задаче, решение которой не менее интересно, чем распознавание: определение качества изображения. Предположим, что мы умеем решать эту задачу. Мы определили, что изображение низкого качества, но возникает закономерный вопрос - можем ли каким-то образом повысить его качество? Те, кто знакомы с классическим компьютерным зрением, должно иметь представление о фильтрации изображений: классическая теория обладает сильным теоретическим и практическим аппаратом для фильтрации нормального шума, шума "соль и перец", а также для борьбы с периодическими помехами.
Думаю, что каждый из нас хоть раз в жизни получал нечёткие изображения:
1) мы пытались сфотографировать движущийся объект, поэтому на изображении возникает искажение типа "смаз";
2) наша камера не успела сфокусироваться на объекте, тогда возникает расфокусировка.
На изображениях, которые были доступны для анализа, чаще всего встречался первый тип искажений. Причина его возникновения - движение камеры относительно объекта или объекта относительно камеры. Задача компенсации смаза полностью до сих пор не решена: вряд ли можно представить универсальное решение на все случаи жизни, но нам это и потребуется. Как говорит мой научный руководитель, решение задачи состоит не в полном переборе всех доступных вариантов, оно должно быть логичным, обоснованным и целенаправленным. Это позволяет для ряда локальных задач предложить методы и идеи, которые превосходят общепринятые подходы. При восстановлении изображение может возникнуть ситуация, когда картинка начинает деградировать: визуальное качество искаженного изображения лучше, чем восстановленного. Таким образом, даже если мы уже восстановили изображение, нам всё равно нужно понять, а не сделали ли мы хуже, чем было до нас. Это возвращает нас обратно к задаче оценки качества изображения.
52 viewsedited 10:48