Вот так работает Disentangled Attention. H – это word embedding, P – это positional embedding. 1.8K viewsnlpcontroller_bot, 15:38