В attention pattern DeBERTa куда меньше выражена центральная диагональ. Авторы утверждают, что это именно из-за disentangled attention. 2.0K viewsnlpcontroller_bot, 15:38