DL in NLP

Адрес канала:

Категории: Технологии , Образование

Язык: Русский

Страна: Россия

Количество подписчиков: 8.30K

Описание канала:

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.
Связь и реклама: @dropout05

▲ Vote (1)

Рейтинги и Отзывы

4.33

3 отзыва

Оценить канал dlinnlp и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 16

2021-10-20 18:41:20 PMI-Masking Principled Masking of Correlated Spans
Livine et al, [AI21]
arxiv.org/abs/2010.01825

Обычно в MLM мы маскируем все токены с одинаковой вероятностью. Это, вместе с BPE-токенизацией может приводить к очень простым примерам, которые модель быстро выучивает. Нарпимер в тексте "To approximate the matrix, we use the eigenvector corresponding to its largest e-mask-val-ue" одного слова "e-mask-val-ue" достаточно чтобы предсказать "gen". Маскирование целых слов (WWM) помогает случаям длинных слов, но принципиально похожие кейсы могут быть и с целыми словами.

Авторы статьи предлагают маскировать токены основываясь на их взаимной информации — PMI = p(ab) / (p(a) p(b)). Такое маскирование позволяет тренировать MLM гораздо быстрее (в смысле downstream performance) и даже иногда получать чуть-чуть лучшие результаты после сходимости. Интересно, что вроде бы на больших датасетах ускорение от PMI-masking проявлено сильнее. Выглядит полезно, в особенности в ситуациях, когда у вас ограничены вычислительные мощности (т.е. когда вы не OpenAI).

1.9K viewsnlpcontroller_bot, 15:41

Открыть/Комментировать

2021-10-18 20:17:01

DeepMind купил Mujoco и теперь он бесплатный. Раньше вроде бы стоил $500/год за каждый компьютер на который его устанавливаешь и после установки твоя лицензия привязывалась к компьютеру намертво. В общем я очень рад этой новости, аж захотелось поиграться с RL.

1.3K viewsVlad Lialin, edited 17:17

Открыть/Комментировать

2021-10-16 00:02:06

Увидел, что в Google Slides теперь используют языковую модель в комментариях, аналогично такой же фиче в Gmail. Очень забавно, что мы во-первых начинаем использовать LM даже в таких мелких вещах как комментарии, а во-вторых, что мы верим им достаточно, чтобы генерировать сразу по несколько слов.

1.3K viewsVlad Lialin, 21:02

Открыть/Комментировать

2021-10-14 22:55:58

1.5K viewsVlad Lialin, 19:55

Открыть/Комментировать

2021-10-14 22:54:48 Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers
Tay et al. [Google]
arxiv.org/abs/2109.10686

Scaling Laws не работают на downstream-задачах

Авторы решили проверить заявление Scaling Laws о том, что качество модели растёт от чила параметров и слабо зависит от того как именно мы его увеличили (в разумных пределах). В результате авторы натренировали кучу моделей Т5 и увидели, что a) перплексия и правда слабо зависит от этого (странно в контексте статьи про Scaling Laws for Neural Machine Translation, которую мы обозревали недавно); b) downstream-задачи не следуют power law от числа параметров и там всё хитрее.

В результате предлагают более эффективные трансформеры. Под эффективностью понимают число FLOPS для их тренировки. В результате приходят к довольно популярному выводу, что скейлить глубину выгоднее, чем скейлить ширину, но до определённого предела (~36 слоёв). Вместо Base(12L, 768H, 3072FF) предлагают Small(22L, 512H, 2048FF), который требует 9.3TFlops для тренировки против 11 и даёт то же качество. Проблема глубоких моделей в том, что инферить их обычно чуть-чуть дольше, тк слои нелья параллелить.

Эти новые шейпы моделей выглядят интересно, но не кажется что буст достаточно заметный, чтобы все начали ими пользоваться. Было бы интересно получить такие новые шейпы для огромных моделей (~100B параметров), но авторы говорят что их правила неуниверсальны и могут не работать для маленьких/больших моделей.

1.7K viewsnlpcontroller_bot, edited 19:54

Открыть/Комментировать

2021-10-12 21:06:58 Внезапно сегодня увидел BERT в Top Hype на arxiv-sanity. Оказывается сегодня BERT исполняется 3 года. Удивительно насколько сильно NLP изменился за это время – и в смысле общего подхода, и (в особенности) в тех тулзах, что мы используем.

Нашёл нашу самую первую лекцию по BERT из Декабря 2018. Стало интересно насколько она отражает текущую действительность. Оказалось, что не очень, так как финальным советом было "используйте ULMfit для классификации, ELMo для остальных задач и ждите пока появится что-то что тренируется быстрее BERT и потребляет меньше памяти" .

Рекомендовать лекцию к просмотру не могу, так как качество записи весьма отвратительное, но вдруг кому-то будет интересно в историческом контексте.

А что я рекомендую уже получается около 3 лет, это почитать Illustrated Transformer и Illustrated BERT от Jay Allamar. Вспомнить детали того, как работает архитектура бывает полезно.

1.9K viewsnlpcontroller_bot, edited 18:06

Открыть/Комментировать

2021-10-12 17:11:31 Хакатон от металлургической компании EVRAZ

Судя по описанию, задачи на таблички и на CV, выглядит неплохо.

vk.com/phystech.genesis?w=wall-171174178_674

1.8K viewsnlpcontroller_bot, edited 14:11

Открыть/Комментировать

2021-10-11 18:24:01 Свежая подборка NLP-новостей одной строкой:

1. 8-bit optimizers: сокращает потребление памяти в 4 раза, та же производительность, никаких новых гиперпараметров. Быстрая CUDA-имплементация. pip install bitsandbytes-cuda110
1. Infinity — инференс трансформеров за 6мс на CPU, 1мс на GPU. Можно записаться на закрытую бету.
1. Хороший туториал от Rubrix, как лейблить данные и обучать текстовые классификаторы. Их тулза добавляет красивый UI и элементы active learning.
1. Большие словари BPE сильно увеличивают эффект запоминания трансформерами
1. Бомбёж Саши Раш на книгу Artificial Intelligence, Modern Approach. Я давно всем говорил, что подобные книги очень устарели и даже базовые вещи в них больше не отражают действительности. Теперь есть на кого сослаться.
1. AI research: the unreasonably narrow path and how not to be miserable — совет для PhD-студентов

1.8K viewsnlpcontroller_bot, 15:24

Открыть/Комментировать

2021-10-06 19:30:41 Scaling Laws for Neural Machine Translation
Ghorbani et al. [Google]
arxiv.org/abs/2109.07740

Всегда интересно читать про "scaling laws" — забавно видеть что stack more layers работает. Оказывается, он работает и в машинном переводе. Но есть нюанс.

Для начала сетап: Размер моделей от 40M до 1.5B параметров, несколько датасетов, En <-> De, самый большой датасет 2 миллиарда пар предложений, два вида переведённых людьми тестсетов. В одном случае люди переводили с немецкого на английский, а в другом наоборот. Зачем так сделали? Потому что у людей, так же как и у моделей, есть артефакты перевода и было интересно это учесть.

Что авторы нашли:
1. У seq2seq архитектуры скейлинг зависит не только от числа параметров, но и от соотношения размеров энкодера и декодера.
1. Скейлить декодер выгоднее чем энкодер, но по-хорошему вы хотите чтобы в декодере было ~55% параметров вашей модели
1. BLEU и BLEUBERT хорошо коррелирует с кросс-энтропией когда мы эвалюируемся на оригинальных текстах и плохо, когда мы эвалюируемся на переведённых (даже людьми) текстах.

Если вы занимаетесь машинным переводом, это must read.

1.1K viewsnlpcontroller_bot, edited 16:30

Открыть/Комментировать

2021-10-06 18:21:51 We Have Published a Model For Text Repunctuation and Recapitalization

The model works with SINGLE sentences (albeit long ones) and:

- Inserts capital letters and basic punctuation marks (dot, comma, hyphen, question mark, exclamation mark, dash for Russian);
- Works for 4 languages (Russian, English, German, Spanish) and can be extended;
- By design is domain agnostic and is not based on any hard-coded rules;
- Has non-trivial metrics and succeeds in the task of improving text readability;

Links:

- Model repo - https://github.com/snakers4/silero-models#text-enhancement
- Colab notebook - https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_te.ipynb
- Russian article - https://habr.com/ru/post/581946/
- English article - https://habr.com/ru/post/581960/

853 viewsVlad Lialin, 15:21

Открыть/Комментировать