Nvidia жжет напалмом! На этот раз выпустили модель для генерации динамических видеоГаны и диффузионные модели уже хорошо научились генерировать статический контент (например, та же DALLE-2 или Imagen). Нам пора двигаться дальше. Новая модель от Nvidia основана на архитектуре StyleGAN (а как же), но с временной компонентой. Она генерирует видео, неплохо воспроизводящие движение объекта, изменения точки обзора камеры и новый контент, возникающий с течением времени.
Авторы грамотно подобрали тип видосов, на которых все работает. Из критики, я бы заметил низкое разрешение 128x128 и более сильные прыжки между контентом в точке схода перспективы.
Cо слов авторов: "
Базовый метод StyleGAN-V повторяет одно и то же содержимое. А наша модель способна создавать новые декорации и объекты, которые появляются на сцене с течением времени, сохраняя при этом долгосрочную временную согласованность."
❱ Код будет в конце лета
❱❱ Сайт проекта
@ai_newz