«Сбер» представил Kandinsky 2.1 — обновлённую версию своей нейросети для генерации изображений по текстовому запросу. Она «понимает» 101 язык, в том числе и русский.
Это уже третья модель: самую первую версию выпустили в июне 2022 года
На картинке — изображение по запросу «Парусник в бушующем океане, стиль Ивана Айвазовского, масло».
Модель дополнительно обучили на 170 млн пар «текст — изображение», а затем дообучали на отдельно собранном датасете из 2 млн пар изображений. В Kandinsky 2.0 было 2 млрд параметров, в Kandinsky 2.1 — 3,3 млрд.
Нейросеть также усовершенствовали за счёт новой обученной модели автоэнкодера (автокодировщик; нейросеть, которая сначала кодирует входные данные, а потом декодирует их в другом виде), которая используется в том числе в качестве декодера векторных представлений изображений. Это улучшило генерацию изображений в высоком разрешении — лиц и других сложных объектов.
Kandinsky 2.1 может создавать изображения по текстовому описанию. Также она умеет изменять их по текстовому запросу, смешивать несколько рисунков, дорисовывать недостающие части, генерировать изображения, похожие на заданное и другое. Кроме этого, она использует для генерации специальное представление картинки от CLIP — классификатора изображений от OpenAI.
Доступ можно получить в ТГ-боте @kandinsky21_bot
GO в комментарии к этому посту выкладывать что у вас нагенерилось!
_
Канал @GPTinvest l
С чего начать новичку в И.И. l
#база