BEiT-3: Image as a Foreign Language (by Microsoft)Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)
Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).
Примечательно, что для обучения использовались только открытые данные.
Статья, GitHub