DL in NLP

Адрес канала:

Категории: Технологии , Образование

Язык: Русский

Страна: Россия

Количество подписчиков: 8.30K

Описание канала:

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.
Связь и реклама: @dropout05

▲ Vote (1)

Рейтинги и Отзывы

4.33

3 отзыва

Оценить канал dlinnlp и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 22

2021-05-11 19:14:30 Which transformer architecture fits my data? A vocabulary bottleneck in self-attention
Wies et al.
arxiv.org/abs/2105.03928

Авторы пытаются понять как подбирать гиперпараметры для трансформера и приходят к выводу, что размер словаря очень важен и зачастую ограничивает capacity архитектуры.

1.2K viewsnlpcontroller_bot, 16:14

Открыть/Комментировать

2021-05-11 14:49:46 Яндекс.Толока проводит воркшоп на конференции VLDB 2021: https://crowdscience.ai/conference_events/vldb21

В рамках него проходит соревнование:
https://crowdscience.ai/challenges/vldb21
где участникам предлагается построить модели, которые дают лучшую speech-to-text транскрипцию.
Призовой фонд - $6000

1.4K viewsАлексей Сорокин, 11:49

Открыть/Комментировать

2021-04-26 23:35:47 Samsung Innovation Campus - AI Lectorium
youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK

Внезапно обнаружил много лекций от московского Samsung AI Center. Уроверь скорее advanced и ожидает, что вы уже хорошо знакомы с нейростеками. По большей части лекции ближе по тематике к CV, но есть и более общие темы: например о том, как ускорять инференс и ставить эксперименты. Ещё очень хочу выделить лекцию про GAN, где они рассматриваются достаточно абстрактно и не присязаны сильно к изображениям — получилось просто .

Кстати у них в конце плейлиста видно запланированную на 28 апреля лекцию по суммаризации текста, так что можно ожидать больше NLP.

2.1K viewsnlpcontroller_bot, 20:35

Открыть/Комментировать

2021-04-21 23:04:46 Pattern-exploiting training

Сегодня на reading group презентовал маленький обзор по методам, использующим prompts. GPT-3, PET, iPET, ADAPET, LM-BFF, p-tuning. Получилось нелпохо, держите посмотреть, не стесняйтесь что-то спрашивать в чате.

https://docs.google.com/presentation/d/1b59JIrBdIhwbz1A3yzQ_c2Rexte4xFX_0AHOtp6zkNM/edit#slide=id.p

2.3K viewsnlpcontroller_bot, 20:04

Открыть/Комментировать

2021-04-20 19:31:25 Пачка ссылок:

1. ADAPET — новый метод few-shot learning основанный на GPT-2/3 и prompts. Обходит PET и iPET без дополнительных даннных.
1. Scaling up BERT-like model Inference on modern CPU - Part 1
1. Controllable Text Generation — презентация PhD-диссера
1. Accelerate — единая обёртка для CPU/GPU/distributed/TPU. Поделитесь в группе впечатлениями, кто уже пробовал.
1. How to Train BERT with an Academic Budget — TL;DR используйте LARGE вместо BASE, maxlen=128 и DeepSpeed.
1. XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation — более экстремальная эвалюация мультизяычных моделек, плюс овервью текущего состояния этой области. Тепрь включает и аналог Checklist

2.0K viewsnlpcontroller_bot, 16:31

Открыть/Комментировать

2021-04-20 18:58:29

Generating Datasets with Pretrained Language Models
Schick and Schütze, [LMU Munich]
arxiv.org/abs/2104.07540

У нас есть классные генеративные языковые модели, которые могут решать (с каким-то качеством) любые NLP задачи. Но такие большие модели и в прод их не покатишь. Очевидным решением будет использовать такие модели для грязной разметки ваших данных — придумать несклько примеров и устроить few-show классификацию с помощью GPT-2/3. Schick and Schütze пошли дальше и предлагают геренировать не только лейблы, но и примеры. После чего обучать на этом модельку. К сожалению делают это только для задачи semantic similarity (было бы интересно посмотреть на NER), но результаты очень неплохи. Их моделька обходит InferSent, USE, SentenceBERT/SentenceRoBERTa на 7 датасетах.

2.2K viewsnlpcontroller_bot, 15:58

Открыть/Комментировать

2021-04-12 20:36:50 Неделя начинается с NVIDIA GTC, блогпостов по prompt enginering и рассуждений на тему того, почему лучше

1. NVIDIA GTC 2021 — бесплатная конфа, много интересных спикеров начиная с Hinton, Bengio, LeCun и продолжая более локальными коммьютини, например Lightning и DeepPavlov там тоже будут
1. How many data points is a prompt worth? — от 100 до 3000, если верить
1. How usability improves performance in PyTorch
1. Блогпост на тему Approximating How Single-Head Attention Learns; статью мы недавно обозревали в канале
1. Интересный взгляд на ADAM от Tim Dettmers: по сути это такой фильтр Калмана для градиентов
1. PyTorch in Tesla — чтобы вы потом могли ответить, а где его используют в проде
1. Efficient Large-Scale Language Model Training on GPU Clusters — про то, как тяжело жить, когда у вас 3 тысячи GPU

2.4K viewsnlpcontroller_bot, 17:36

Открыть/Комментировать

2021-04-09 04:25:13

Revisiting Simple Neural Probabilistic Language Models
Sun and Iyyer [UMass Amherst]
arxiv.org/abs/2104.03474

Помните на курсе по NLP мы говорили, что просто конкатенировать эмбеддинги текста и пихать их в полносвязную сетку — это тупо и не работает? И что лучше использовать RNN/Трансфрмеры.

В общем это не совсем так. Если сделать полносвязную сетку из 16 слоёв с layer norm, dropout и skip connections, то на коротких контекстах (<20 токенов) она работает сопоставимо с трансформерами на языковом моделировании

Кажется, мне нужно будет переделать пару слайдов...

2.3K viewsnlpcontroller_bot, edited 01:25

Открыть/Комментировать

2021-04-07 18:47:06

2.2K viewsVlad Lialin, 15:47

Открыть/Комментировать

2021-04-07 18:46:20 Давно у нас не было постов вида "держите кучу ссылок"

1. Applied PyTorch 101 от Abhishek Thakur — самые основы пайторча начиная с тензоров и заканчивая даталоадерами (будут ещё видео). Выглядит неплохо, буду советовать студентам.
1. Language Interpretability Tool — тулза для визуализации и интерпретации трансформеров, кроме этого позволяет анализировать ошибки модели и прочие вещи. Выглядит куда более проработанной чем всё, что я видел раньше (демо, гитхаб)
1. NLP In Video Games — мне очень нравится эта идея в принципе, тк она может позволить упростить какие-то моменты геймдева, но NLP всё-таки ещё сыроват. Несмотря на это можно уже посмотреть на первые попытки что-то такое сделать.
1. What Will it Take to Fix Benchmarking in Natural Language Understanding? — рассуждения на тему того, почему текущие бенчмарки плохи и как делать более хорошие.
1. torchtyping — попытка решить проблему документации шейпов тензоров, а заодно и проверять это всё на лету. Надо будет попробовать.
1. MLOps: жизненный цикл ML-моделей — как известно, обучение моделек это 5% работы, в этом выступлении обсуждают остальные 95%.
1. Why Do Local Methods Solve Nonconvex Problems — современный обзор текущей теории обучения в диплёрнинге или попытки ответить на вопрос почему в нейросетках почти все локальные минимумы близки к глобальному.

2.8K viewsVlad Lialin, 15:46

Открыть/Комментировать