Получи случайную криптовалюту за регистрацию!

Как технологии компьютерного зрения сохраняют историю военных | ИИшечная

Как технологии компьютерного зрения сохраняют историю военных лет

Технологии искусственного интеллекта – это не только про бизнес, но и про социальные проекты. Уже лет пять, как нейросети и компьютерное зрение активно используют для реставрации архивных фото военных лет, и многим известны проекты по исправлению дефектов и расцвечиванию фото: Movavi Picverse; онлайн-сервис «Лица победы» от Mail.ru Group; сервис MyHeritage, который позиционирует себя как платформа для исследования семейной истории и умеет не только «раскрашивать» и улучшать фото, но и оживлять кадры, добавляя их героям мимику; сервис Phowd.

Мы попросили нашего Team Lead ML Виталия Скибу рассказать, как работают модели, на которых построены такие сервисы:

«Задача ИИ сводится к трём этапам:
1) поиск дефектов и недостающих фрагментов;
2) исправление дефектов;
3) раскрашивание фото.

Чтобы модель начала распознавать повреждения или пустые зоны на фото, её нужно научить, что «здоровый» пиксель – это, например, 0, а дефектный – 1, и что каждую единичку нужно подсветить как зону для будущего исправления. Главная проблема этого этапа – дисбаланс классов – «здоровых» пикселей гораздо больше, и мелкие повреждения модель может просто пропустить. Для этого нужно увеличить вес дефектов, чтобы машина научилась их замечать, и увеличить разрешения фото, чтобы не пропускать мелкие потёртости.

Есть ещё одна техническая тонкость – многие модели просматривают фото по диагонали, чтобы оптимизировать работу. А нам важно заставить модель оценивать каждый пиксель, поэтому для таких задач она обучается медленнее.

Второй этап, когда модель определила дефекты и пустые зоны, нужно объяснить, на что заменить эти зоны. На самом деле мы можем взять любой датасет с фотографиями людей, вырезать из них кусочки и обучить модель восстанавливать эти кусочки. Принцип работы будет тот же самый, что и у инструмента «Штамп» из Photoshop – машина определяет среднее значение цветов от пикселей рядом и заполняет пустую область.

Третий и самый сложный этап – расцвечивание фото.
Изначально наше архивное фото однопотоковое – чёрно-белое. А нам нужно сделать его трёхпотоковым – в модели RGB (Red, Green, Blue). Можно заставить модель предсказывать отдельно все три потока, но можно сделать проще – представить фотографии не в RGB, а в YCbCr, где Y (яркость) - исходная чёрно-белая фотография, Cb и Cr - разность компонетов яркости с голубым и красным. Таким образом нужно предсказывать не три, а только два потока. Так, например, сделали в Mail.ru Group при разработке своего реставратора.

Конечно, модель важно обучать на похожих фото: портретах и групповых снимках людей, а чтобы она научилась распознавать дефекты и определять цвета, потребуется сет минимум из сотни фотографий. Но тут как никогда кстати условие – чем больше, тем лучше».

Такие проекты не позиционируются как коммерческие, но они отлично работают на пиар компаний, помогают собирать аналитику и формировать датасеты для дальнейшего развития и уже монетизации технологий. Например, сервисом Movavi Picverse воспользовались более 6000 человек, в репозиторий «Лица победы» пользователи загрузили почти полмиллиона фотографий, а количество юзеров MyHeritage уже точно исчисляется миллионами.