EMO — нейросеть от Alibaba, которая может научить любую фотографию говорить или петь ИИ-модель Audio2Video EMO (Emote Portrait Alive) создает очень выразительные и реалистичные видео с «говорящими головами» на основе одного изображения и аудиофайла.
Что умеет EMO? Нейросеть способна синхронизировать движение губ и головы на фотографиях с звуковой дорожкой, создавая убедительный эффект реальности. В результате получается видео, где персонаж не просто «подпевает», но и демонстрирует различные выражения лица, эмоции и позы.
От Моны Лизы до ЭминемаТехнология была продемонстрирована на примерах известных персонажей. Например, Мона Лиза зачитала фрагмент из произведения Шекспира, а фотография Леонардо Ди Каприо исполнила песню Эминема. Особенно поразил эксперимент, в котором Хоакин Феникс в роли Джокера говорил голосом Хита Леджера.
Alibaba Group — китайская технологическая компания, работающая в сфере интернет-коммерции и облачных услуг. Сейчас активно вкладывается в исследования и разработки в области генеративных ИИ. В октябре 2023 года на ежегодной конференции в Ханчжоу компания предоставила новую версию своей ИИ-модели —
Tongyi Qianwen 2.0, основанную на сотнях миллиардов параметров.
Ждем, когда EMO станет доступен всем
#news @hiaimedia