Получи случайную криптовалюту за регистрацию!

И еще немного про генеративные модели и текст: у Imagen, в отл | DLStories | Нейронные сети и ИИ

И еще немного про генеративные модели и текст: у Imagen, в отличие от DALL-E 2, отлично получается генерировать изображения с надписями.

Вот в этом посте на канале "Мишин лернинг" показаны примеры генерации двух картинок с текстом от Imagen. Качество просто огонь: текст передан очень точно. DALL-E же таким умением, к сожалению, не обладает, текст на картинках из DALL-E получается неточный и плохо читаемый.

Дело тут, конечно, в том, каким образом модели получают эмбеддинг текста для подачи на вход диффузии. У DALL-E эмбеддинг генерируется из CLIP, затем перегоняется в пространство эмбеддингов диффузионной модели, которая уже генерирует картинку. Диффузия и CLIP здесь обучаются, по сути, отдельно: у них разные пространства эмбеддингов и при "перегоне" вектора CLIP в вектор для диффузии теряется много информации. У Imagen же диффузия принимает на вход ровно тот эмбеддинг, который выдает языковая модель, и генерирует итоговое изображение. Информация здесь не теряется, а использование больших предобученных языковых моделей вместо CLIP для генерации вектора текста позволяет уместить в вектор еще больше полезной информации.

О том, как устроены Imagen и DALL-E 2, я писала в этих постах:
Imagen
DALL-E 2

Ну и напоследок: чем DALL-E 2 превосходит Imagen
Что-то так получается, что при сравнении DALL-E 2 и Imagen последний все время выигрывает =) Поэтому давайте скажем пару слов в защиту DALL-E 2: эта модель все же обладает свойством, которого нет у Imagen. Так как DALL-E 2 использует CLIP для получения эмюеддингов, с помощью модели можно не только генерировать картинки по текстовому описанию, но и изменять детали уже существующих картинок, и это отлично работает. С Imagen такое провернуть нельзя, у Imagen на вход может подаваться только текст.

Ждем версию Imagen с возможностью менять картинки и порабощать мир