Получи случайную криптовалюту за регистрацию!

Transparent Image Layer Diffusion Очень горячо. Автор Контрол | Neural Shit

Transparent Image Layer Diffusion
Очень горячо.
Автор КонтролНета, господин Жанг, выпустил новую модель для генерации (внимание) изображений с прозрачностью.

Такими темпами в Stable Diffusion завезут слои как в Фотошопе (интересно, какой адовый интерфейс наворотят в Automatic1111).

И это немного сложнее, чем Remove Background. Кто хочет мяса, почитайте про Foreground LoRa, Background LoRa и прочие подробности тут:
https://arxiv.org/html/2402.17113v1

Мы показываем, что такая прозрачность может быть применена в различных генераторах изображений с открытым исходным кодом или адаптирована для достижения таких целей, как генерация слоев с учетом переднего/заднего плана, совместная генерация слоев, структурный контроль содержимого слоев и т. д.

Код на гитхабе будет завтра. Туда заливаются модели прямо сейчас.
https://github.com/layerdiffusion/LayerDiffusion

Из любопытного для гиков:

We train the model with 1M transparent image layer pairs collected using a human-in-the-loop collection scheme

We further extend our {text, transparent image} dataset into a {text, foreground layer, background layer} dataset, so as to train the multi-layer models. We ask GPTs (we used ChatGPT for 100k requests and then moved to LLAMA2 for 900k requests) to generate structured prompts pairs for foreground like “a cute cat”, entire image like “cat in garden”, and background like “nothing in garden” (we ask GPT to add the word “nothing” to the background prompt). The foreground prompt is processed by our trained transparent image generator to obtain the transparent images. Then, we use Diffusers Stable Diffusion XL Inpaint model to inpaint all pixels with alpha less than one to obtain intermediate images using the prompt for the entire images.