Получи случайную криптовалюту за регистрацию!

Все уже видели убийцу DALL-E 2 от Google Brain? Imagen: нов | DLStories | Нейронные сети и ИИ

Все уже видели убийцу DALL-E 2 от Google Brain?

Imagen: новая модель для офигенного text-to-image generation. Авторы утверждают, что при оценке качества генерируемых картинок людям больше нравятся картинки от Imagen, а не DALL-E 2!

Imagen — это диффузионная модель, как и DALL-E 2. Главное ее отличие в том, как она получает эмбеддинг текста для подачи на вход диффузии. Авторы Imagen используют для этого предобученную языковую модель T5 (см. 2 картинку). Эмбеддинг из T5 подается как condition на вход диффузионной модели, которая генерирует картинку размера 64х64. Далее эта картинка проходит через еще две диффузионные модели для super resolution, которые увеличивают разрешение до 256х256 и далее до 1024х1024.

То есть главное открытие Imagen — это что огромная предобученная языковая модель выдает очень хорошие эмбеддинги текста, по которым диффузионная модель может научиться генерировать очень крутые картинки.

Больше примеров картинок и деталей устройства в блоге Google и в статье на arxiv.