Получи случайную криптовалюту за регистрацию!

Вышел StableDiffusion — Разбираем подробно что нас ждет дальше | Нейросети и Блендер

Вышел StableDiffusion — Разбираем подробно что нас ждет дальше и что это такое!

Начнем с новостей:

StableDiffusion
вышел в Stage I: ресерчеры смогут получить доступ к модели уже сегодня! Для этого веса нужно будет запросить. Но не стоит расстраиваться.

Публичный релиз состоится в ближайшее время, как только будут завершены последние этапы подготовки модели к "публичной жизни". А еще сегодня ожидается последняя волна инвайтов на закрытое бета тестирование в котором уже приняли участие 10,000 юзеров, генерируя около 1,7M изображений за сутки.

Что такое StableDiffusion?

StableDiffusion
— это самая удачная смесь в Text2Image, а именно гибрид Latent Diffusion и Imagen:

> Latent Diffusion (LDM) позволяет в производить диффузию на в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу. Если короче: деталей больше, а вычислений меньше.

> От LDM StableDiffusion отличает тот факт, что интформация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen.

> Оказалось что CLIP вектора куда лучше шарят изображения и они выходят прям очень-очень крутыми (все же клип учился на изображениях и LM косвенно тоже)! И хотя понимание отношений (кто слева, кто справа, и тд) объектов чуть лучше и T5, но качество картинки у CLIP лучше на порядок!

Модель сделали ребята из StabilityAI и CompVis, обучая SD на супере компьютере Ezra-1 AI UltraCluster, состоящим из 4,000 A100, используя для трена 2B пар изображения-текст из датасета LAION 5B, файнтюня модель на LAION-Aesthetics (сабсете)

Blog Post
Code StableDiffusion
Веса Модели (model card)

Мишин Лернинг Н е й р о э с т е т и к а