Получи случайную криптовалюту за регистрацию!

Repurposing Diffusion-Based Image Generators for Monocular Dep | эйай ньюз

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

Недавно парни из группы Photogrammetry and Remote Sensing (PRS) ETH Zürich выпустили модельку Marigold-LCM для вычисления карты глубины по одному изображению.

Тут используют Latent Consistency Model дистилляцию чтобы осуществлять семплинг карты глубины в ОДИН шаг, вместо обычных 10-50. Благодаря этому, теперь можно обрабатывать видео, что показано в тизере. Это еще один пример того, как ускоряют диффузию с помощью дистилляции (был пост про дистилляцию SD3), только тут вместо фоток генерируются depth map.

Идея
Первая модель Marigold вышла несколько месяцев назад и по сути являлась демонстрацией довольно простой идеи, которую описал мне соавтор статьи, Антон: если современные text-to-image модели способны выдавать фотореалистичные изображения, то они выучили довольно мощный generative prior, который знает проективную геометрию и как выглядят сцены из нашего реального мира. Ну а также из паралелльных миров, включая мемасы, комиксы, и прочую дичь которой занимаются в ComfyUI. А значит, можно брать свежую t2img модель с открытыми весами, минимально допиливать ее на уровне архитектуры чтобы не сильно отойти от натрененных весов, и файнтюнить ее при помощи небольшого набора данных на (почти) любой негенеративный таск. Вычисление карт глубины это как раз такая задача (ее новая, но все еще актуальная), и на ней довольно просто обкатать идею и измерить прогресс.

Что с результатами?
На деле у ребят получился мощный monocular depth estimation, которым вынесли MIDAS и прочие регрессионные U-Net решения, до сих пор используемые в Гугле, Диснее, и других уважаемых компаниях. Его отличительная особенность в том, что модель файнтюнится на синтетических рендерах комнат из датасета HyperSim, а на практике работает на любых сценах. И все благодаря мощному генеративному прайору Stable Diffusion 2, который являлся отправной точкой для файнтюна модели.

Демо (LCM, быстрое)
Демо (DDIM, качественное)
Сайт
Статья
Код

@ai_newz