Получи случайную криптовалюту за регистрацию!

DeepMind представляет Flamingo — новую SOTA в задаче zero-shot | DLStories | Нейронные сети и ИИ

DeepMind представляет Flamingo — новую SOTA в задаче zero-shot visual-language modeling.

Что такое zero-shot visual-language modeling:

Language model (языковая модель) — это модель, которая умеет генерировать текст, практически не отличимый от настоящего. Самый яркий пример языковой модели — GPT-3. Подробно про GPT-3 и о том, что умеют языковые модели, я писала в посте выше.

Zero-shot learning — это задача обучения модели решению задачи без предварительного обучения на размеченных данных. Опять же, лучший пример zero-shot модели — GPT-3. Если подать GPT-3 на вход следующий текст:
""
cat -> chat
sister -> sœur
cheese ->
""
, то GPT-3 сгенерирует текст "fromage". То есть, GPT-3 — модель, которая изначально не обучалась на задачу перевода текста, а только на задачу языкового моделирования — смогла без дообучения понять, что входной текст нужно дополнить переводом слова "cheese" с английского на французский. Таким образом, GPT-3 умеет решать разные задачи вроде перевода текста с одного языка на другой без специального обучения под эти задачи, и является zero-shot language model.
Более подробно о zero-shot и больше примеров работы GPT-3 в zero-shot режиме можно найти тут.

Zero-shot visual-language modeling — это та же задача zero-shot language modeling, но с добавлением картинок/видео в input. Пример: подаем на вход модели Flamingo следующее:
""
[картинка шиншиллы] -> это шиншилла. Они обитают в Чили.
[картинка фламинго] ->
""
, и Flamingo сгенерирует продолжение — текст "это Фламинго. Они обитают в Южной Америке". (см. 1 картинку к посту). Еще пример работы Flamingo: решение задачи question answering по изображению. Подаем на вход модели картинку и вопрос, связанный с ней. Модель генерирует ответ (см 2 картинку к посту).

При этом Flamingo не обучалась явно ни на одну из задач, описанных выше (распознавание животных на картинке или ответ на вопрос по изображению). Таким образом, Flamingo — действительно zero-shot visual-language model.

Об архитектуре и принуипе обучения Flamingo напишу подробный пост завтра. Пока что про модель можно почитать в блоге DeepMind и в препринте статьи. Там же больше примеров работы модели.