Нейрорендеринг идет в массы.
Если вкратце: на входе серия селфи, а выходе как бы "трехмерное фото". Это когда можно посмотреть на лицо с разных ракурсов, как будто летаешь камерой вокруг.
Там нет восстановления 3Д-сетки, это все нейрорендеринг.
Основная проблема нейрорендеринга в области таких видео - либо долго и в плохом разрешении, либо нет совместимости по времени, изображение кипит, детали меняются от кадра к кадру.
Прошло всего 8 месяцев с предыдущих работ, и вот Микрософт выкатил новую работу. Там скрестили генерацию 3Д-панорам и генерацию лиц. И получили скачок качества и хорошую совместимость между кадрами. Гляньте как лихо крутятся лица на видео.
Еще пара таких прорывов (год?) и вот уже нейроаватары на основе фоток зададут жару этим жалким метаверсным поделкам.
Думаю, благодаря нерфам оттуда и сетки постепенно достанут.
Но самое интересное - это помыслить, а как это может быть использовано для темпоральной совместимости (между кадрами) для попыток делать видео из Stable Diffusion и Midjourney - основная проблема там в неотъемлемом бурлящем кипении всех этих видео.
https://jeffreyxiang.github.io/GRAM-HD/