2020-11-14 20:21:02
Big Bird: Transformers for Longer Sequenceshttps://arxiv.org/abs/2007.14062
TL;DRВ Google Research предложили sparse-механизм внимания с мотивацией из теории графов, состоящий из трёх видов паттернов: глобальные, локальные и случайные. Авторы доказывают, что такой механизм внимания не теряет выразительности по сравнению с обычным self-attention: с его помощью можно выразить произвольную sequence-to-sequence функцию. В экспериментах получили прирост качества за счёт более длинного контекста в классификации текстов, суммаризации, question answering и даже в анализе ДНК-последовательностей.
Суть подходаКак известно, механизм self-attention и модели на основе него послужили причиной заметного прогресса в DL-задачах, связанных с обработкой последовательностей, в частности текстовых. Однако из-за квадратичной сложности и затрат памяти этого механизма по числу входных токенов Transformer-сети тяжело применять для обработки целых документов. Такая потребность возникает, например, если мы хотим получить краткое содержание текста или ответить на вопрос по его содержанию. Есть несколько вариантов эффективного self-attention, и в своей работе авторы Big Bird развивают идею разреженного внимания: за счёт константного (а не линейного) числа токенов, с которыми взаимодействует один элемент последовательности, мы добиваемся снижения сложности до линейной.
Как выбрать подмножество элементов, для которого считается внимание? Предлагается посмотреть на связи между словами в обычном self-attention как на полный граф: вершины — это все токены входа, между ними проведены все возможные попарные рёбра. Задача разреживания таких графов хорошо известна научному сообществу, и известным методом её решения является аппроксимация исходного графа случайным. Авторы Big Bird требуют от аппроксимации два свойства: короткий путь между любыми двумя вершинами (для быстрой передачи информации о токенах) и наличие локальных связей (ранее показано, что в языке информацию о слове можно извлечь из его контекста). Первое они обеспечивают, выбирая для каждого запроса в self-attention фиксированное число случайных ключей из всей последовательности, второе — соединяя каждое слово с его соседями посредством sliding window attention. Также, мотивируясь теоретическим анализом Big Bird, авторы добавляют глобальное внимание: для константного числа токенов считается self-attention со всеми остальными, в свою очередь, эти токены участвуют в расчёте внимния для каждого элемента последовательности. Токены для глобального внимания могут быть как выбраны из входной последовательности, так и добавлены в неё отдельно в виде служебных.
Также, в отличие от многих других работ по sparse attention, в статье изучили и теоретические свойства предложенной модели. Авторы привели доказательство, что Big Bird-трансформер является универсальным аппроксиматором непрерывных функций, отображающих последовательность в последовательность, наряду с «полноценной» Transformer-сетью. Однако у разреженного внимания есть и минусы: например, если для каждого вектора в наборе искать наиболее далёкий вектор из этого же набора, моделям в стиле BigBird потребуется полиномиально больше слоёв для решения такой игрушечной задачи.
1.0K views17:21