BEiT-3: Image as a Foreign Language (by Microsoft) Представле | Шрёдингер Кота

BEiT-3: Image as a Foreign Language (by Microsoft)

Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)

Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).

Примечательно, что для обучения использовались только открытые данные.

Статья, GitHub
Шрёдингер Кота

Шрёдингер Кота

@cats_shredinger
1.87K Подписчиков
Технологии Категория
AI, NLP, мемы и многое другое. Авторский канал Дани Эль-Айясса @dayyass