Вышел StableDiffusion — Разбираем подробно что нас ждет дальше и что это такое!
Начнем с новостей:
StableDiffusion вышел в Stage I: ресерчеры смогут получить доступ к модели уже
сегодня! Для этого веса нужно будет запросить. Но не стоит расстраиваться.
Публичный релиз состоится в ближайшее время, как только будут завершены последние этапы подготовки модели к "публичной жизни".
А еще сегодня ожидается последняя волна инвайтов на закрытое бета тестирование в котором уже приняли участие 10,000 юзеров, генерируя около 1,7M изображений за сутки. Что такое StableDiffusion?
StableDiffusion — это самая удачная смесь в Text2Image, а именно гибрид Latent Diffusion и Imagen:
> Latent Diffusion (LDM) позволяет в производить диффузию на в пространстве пикселей, а в латенщине. Вместо разрешения 64х64 — выходит сразу 512, благодаря Encoder-Decoder подходу.
Если короче: деталей больше, а вычислений меньше.
> От LDM
StableDiffusion отличает тот факт, что интформация от текста течет с frozen LM (а именно CLIP), как в случае с T5 в Imagen.
> Оказалось что CLIP вектора куда лучше шарят изображения и они выходят прям очень-очень крутыми (все же клип учился на изображениях и LM косвенно тоже)! И хотя понимание отношений (кто слева, кто справа, и тд) объектов чуть лучше и T5, но качество картинки у CLIP лучше на порядок!
Модель сделали ребята из StabilityAI и CompVis, обучая
SD на супере компьютере
Ezra-1 AI UltraCluster, состоящим из
4,000 A100, используя для трена 2B пар изображения-текст из датасета LAION 5B, файнтюня модель на LAION-Aesthetics (сабсете)
Blog Post
Code StableDiffusion
Веса Модели (model card)
Мишин Лернинг Н е й р о э с т е т и к а