Говорит AI

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 1.04K

Описание канала:

Саммари статей про open-domain диалоговые системы и NLP вокруг них от команды Replika (replika.ai)

▲ Vote (1)

Рейтинги и Отзывы

2.33

3 отзыва

Оценить канал govorit_ai и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 3

2020-11-14 20:21:03 Результаты
За счёт использования контекста большой длины Big Bird даёт прирост качества на задачах question answering (Natural Questions, HotpotQA, TriviaQA, WikiHop), суммаризации (Arxiv, PubMed, BigPatents) и классификации документов (IMDb, Yelp, Arxiv, Patents, Hyperpartisan). В качестве бейзлайнов выступали RoBERTa (с контекстом в 8 раз короче), Longformer (в которой нет случайного внимания) и ряд SoTA-моделей для конкретных задач, в том числе Pegasus для суммаризации. Авторы демонстрируют, что в каждом случае увеличенный контекст действительно очень сильно помогает — Big Bird показывает сравнимый результат с заточенными под задачу подходами и даже побеждает их на ряде датасетов.

Также в работе предложили новое применение для моделей с эффективным self-attention: показано, что Big Bird-трансформер демонстрирует заметный прирост в качестве на нескольких задачах геномики, где входом является длинный фрагмент ДНК. Обучив Big Bird как masked language model на неразмеченных генетических данных, авторы применили её к задачам promoter region prediction и chromatin profile prediction, добиваясь лучшего результата по сравнению с бейзлайнами на данных, в которых важны связи между расположенными далеко друг от друга сегментами.

1.1K views17:21

Открыть/Комментировать

2020-11-14 20:21:02 Big Bird: Transformers for Longer Sequences
https://arxiv.org/abs/2007.14062

TL;DR
В Google Research предложили sparse-механизм внимания с мотивацией из теории графов, состоящий из трёх видов паттернов: глобальные, локальные и случайные. Авторы доказывают, что такой механизм внимания не теряет выразительности по сравнению с обычным self-attention: с его помощью можно выразить произвольную sequence-to-sequence функцию. В экспериментах получили прирост качества за счёт более длинного контекста в классификации текстов, суммаризации, question answering и даже в анализе ДНК-последовательностей.

Суть подхода
Как известно, механизм self-attention и модели на основе него послужили причиной заметного прогресса в DL-задачах, связанных с обработкой последовательностей, в частности текстовых. Однако из-за квадратичной сложности и затрат памяти этого механизма по числу входных токенов Transformer-сети тяжело применять для обработки целых документов. Такая потребность возникает, например, если мы хотим получить краткое содержание текста или ответить на вопрос по его содержанию. Есть несколько вариантов эффективного self-attention, и в своей работе авторы Big Bird развивают идею разреженного внимания: за счёт константного (а не линейного) числа токенов, с которыми взаимодействует один элемент последовательности, мы добиваемся снижения сложности до линейной.

Как выбрать подмножество элементов, для которого считается внимание? Предлагается посмотреть на связи между словами в обычном self-attention как на полный граф: вершины — это все токены входа, между ними проведены все возможные попарные рёбра. Задача разреживания таких графов хорошо известна научному сообществу, и известным методом её решения является аппроксимация исходного графа случайным. Авторы Big Bird требуют от аппроксимации два свойства: короткий путь между любыми двумя вершинами (для быстрой передачи информации о токенах) и наличие локальных связей (ранее показано, что в языке информацию о слове можно извлечь из его контекста). Первое они обеспечивают, выбирая для каждого запроса в self-attention фиксированное число случайных ключей из всей последовательности, второе — соединяя каждое слово с его соседями посредством sliding window attention. Также, мотивируясь теоретическим анализом Big Bird, авторы добавляют глобальное внимание: для константного числа токенов считается self-attention со всеми остальными, в свою очередь, эти токены участвуют в расчёте внимния для каждого элемента последовательности. Токены для глобального внимания могут быть как выбраны из входной последовательности, так и добавлены в неё отдельно в виде служебных.

Также, в отличие от многих других работ по sparse attention, в статье изучили и теоретические свойства предложенной модели. Авторы привели доказательство, что Big Bird-трансформер является универсальным аппроксиматором непрерывных функций, отображающих последовательность в последовательность, наряду с «полноценной» Transformer-сетью. Однако у разреженного внимания есть и минусы: например, если для каждого вектора в наборе искать наиболее далёкий вектор из этого же набора, моделям в стиле BigBird потребуется полиномиально больше слоёв для решения такой игрушечной задачи.

1.0K views17:21

Открыть/Комментировать