2021-12-20 10:02:01
На Huggingface теперь доступен
Perceiver IO — мультимодальная модель, способная работать с кучей модальностей
А #яжеговорила в постах на канале, что
мультимодальность — один из главных трендов, и за ней — будущее!! =) Но до сих пор модели могли работать с <= 4 модальностями одновременно: Perceiver же может работать практически со всеми возможными.
Вот как это работает:Perceiver IO — это обобщение ранее предложенной модели Perceiver на большее количество модальностей. На фото к посту вы видите архитектуру модели. Она состоит из трех основных частей: Preprocessor, Perceiver encoder и Decoder. (Есть еще опциональная часть Postprocessor, но она нужна в малом количестве случаев; о ней подробнее читайте в посте Huggingface, ссылка ниже)
Preprocessor — это то, что кодирует информацию, представленную разными модальностями (картинка, текст, аудио, ...) в эмбеддинг, чтобы потом скормить это энкодеру. Для каждого вида модальности preprocessor свой. При этом можно подать Perceiver'у на вход данные, представленные сразу несколькими модальностями, просто используя несколько разных preprocessor'ов вместе.
Perceiver encoder — основная часть, "тело" модели. Это нейросеть, которая берет эмбеддинги из preprocessor'а и выдает на выход один эмбеддинг — энкодинг входных данных. Этот энкодинг потом подается на вход Decoder'у (см. далее). Encoder — Transformer-like архитектура, которая полностью основана на блоках self-attention.
Decoder — часть, которая берет выход Perceiver encoder'а и переводит его в логиты, подходящие для конкретной задачи: классификации, генерации текста и т.п.
Вот такая вот нехитрая архитектура. Пользоваться ей предельно просто: нужно загрузить из Huggingface preprocessor, encoder и decoder, которые подходят для вашей задачи, и запустить нейронку)
Более подробно о том, как устроен Perceiver и как разработчики боролись с проблемой медлительности self-attention (да, такая проблема есть), читайте в блогпосте Huggingface. Также там есть туториалы с кодом, как завести Perceiver под свои задачи.
Еще ссылки:
Статья на arxiv о Perceiver IO
Код Perceiver
Демо ноутбуки, чтобы играться
1.8K views07:02