Получи случайную криптовалюту за регистрацию!

DL in NLP

Логотип телеграм канала @dlinnlp — DL in NLP D
Логотип телеграм канала @dlinnlp — DL in NLP
Адрес канала: @dlinnlp
Категории: Технологии , Образование
Язык: Русский
Страна: Россия
Количество подписчиков: 8.30K
Описание канала:

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.
Связь и реклама: @dropout05

Рейтинги и Отзывы

4.33

3 отзыва

Оценить канал dlinnlp и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

2

3 звезд

0

2 звезд

0

1 звезд

0


Последние сообщения 22

2021-05-11 19:14:30 Which transformer architecture fits my data? A vocabulary bottleneck in self-attention
Wies et al.
arxiv.org/abs/2105.03928

Авторы пытаются понять как подбирать гиперпараметры для трансформера и приходят к выводу, что размер словаря очень важен и зачастую ограничивает capacity архитектуры.
1.2K viewsnlpcontroller_bot, 16:14
Открыть/Комментировать
2021-05-11 14:49:46 Яндекс.Толока проводит воркшоп на конференции VLDB 2021: https://crowdscience.ai/conference_events/vldb21

В рамках него проходит соревнование:
https://crowdscience.ai/challenges/vldb21
где участникам предлагается построить модели, которые дают лучшую speech-to-text транскрипцию.
Призовой фонд - $6000
1.4K viewsАлексей Сорокин, 11:49
Открыть/Комментировать
2021-04-26 23:35:47 Samsung Innovation Campus - AI Lectorium
youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK

Внезапно обнаружил много лекций от московского Samsung AI Center. Уроверь скорее advanced и ожидает, что вы уже хорошо знакомы с нейростеками. По большей части лекции ближе по тематике к CV, но есть и более общие темы: например о том, как ускорять инференс и ставить эксперименты. Ещё очень хочу выделить лекцию про GAN, где они рассматриваются достаточно абстрактно и не присязаны сильно к изображениям — получилось просто .

Кстати у них в конце плейлиста видно запланированную на 28 апреля лекцию по суммаризации текста, так что можно ожидать больше NLP.
2.1K viewsnlpcontroller_bot, 20:35
Открыть/Комментировать
2021-04-21 23:04:46 Pattern-exploiting training

Сегодня на reading group презентовал маленький обзор по методам, использующим prompts. GPT-3, PET, iPET, ADAPET, LM-BFF, p-tuning. Получилось нелпохо, держите посмотреть, не стесняйтесь что-то спрашивать в чате.

https://docs.google.com/presentation/d/1b59JIrBdIhwbz1A3yzQ_c2Rexte4xFX_0AHOtp6zkNM/edit#slide=id.p
2.3K viewsnlpcontroller_bot, 20:04
Открыть/Комментировать
2021-04-20 19:31:25 Пачка ссылок:

1. ADAPET — новый метод few-shot learning основанный на GPT-2/3 и prompts. Обходит PET и iPET без дополнительных даннных.
1. Scaling up BERT-like model Inference on modern CPU - Part 1
1. Controllable Text Generation — презентация PhD-диссера
1. Accelerate — единая обёртка для CPU/GPU/distributed/TPU. Поделитесь в группе впечатлениями, кто уже пробовал.
1. How to Train BERT with an Academic Budget — TL;DR используйте LARGE вместо BASE, maxlen=128 и DeepSpeed.
1. XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation — более экстремальная эвалюация мультизяычных моделек, плюс овервью текущего состояния этой области. Тепрь включает и аналог Checklist
2.0K viewsnlpcontroller_bot, 16:31
Открыть/Комментировать
2021-04-20 18:58:29
Generating Datasets with Pretrained Language Models
Schick and Schütze, [LMU Munich]
arxiv.org/abs/2104.07540

У нас есть классные генеративные языковые модели, которые могут решать (с каким-то качеством) любые NLP задачи. Но такие большие модели и в прод их не покатишь. Очевидным решением будет использовать такие модели для грязной разметки ваших данных — придумать несклько примеров и устроить few-show классификацию с помощью GPT-2/3. Schick and Schütze пошли дальше и предлагают геренировать не только лейблы, но и примеры. После чего обучать на этом модельку. К сожалению делают это только для задачи semantic similarity (было бы интересно посмотреть на NER), но результаты очень неплохи. Их моделька обходит InferSent, USE, SentenceBERT/SentenceRoBERTa на 7 датасетах.
2.2K viewsnlpcontroller_bot, 15:58
Открыть/Комментировать
2021-04-12 20:36:50 Неделя начинается с NVIDIA GTC, блогпостов по prompt enginering и рассуждений на тему того, почему лучше

1. NVIDIA GTC 2021 — бесплатная конфа, много интересных спикеров начиная с Hinton, Bengio, LeCun и продолжая более локальными коммьютини, например Lightning и DeepPavlov там тоже будут
1. How many data points is a prompt worth? — от 100 до 3000, если верить
1. How usability improves performance in PyTorch
1. Блогпост на тему Approximating How Single-Head Attention Learns; статью мы недавно обозревали в канале
1. Интересный взгляд на ADAM от Tim Dettmers: по сути это такой фильтр Калмана для градиентов
1. PyTorch in Tesla — чтобы вы потом могли ответить, а где его используют в проде
1. Efficient Large-Scale Language Model Training on GPU Clusters — про то, как тяжело жить, когда у вас 3 тысячи GPU
2.4K viewsnlpcontroller_bot, 17:36
Открыть/Комментировать
2021-04-09 04:25:13
Revisiting Simple Neural Probabilistic Language Models
Sun and Iyyer [UMass Amherst]
arxiv.org/abs/2104.03474

Помните на курсе по NLP мы говорили, что просто конкатенировать эмбеддинги текста и пихать их в полносвязную сетку — это тупо и не работает? И что лучше использовать RNN/Трансфрмеры.

В общем это не совсем так. Если сделать полносвязную сетку из 16 слоёв с layer norm, dropout и skip connections, то на коротких контекстах (<20 токенов) она работает сопоставимо с трансформерами на языковом моделировании

Кажется, мне нужно будет переделать пару слайдов...
2.3K viewsnlpcontroller_bot, edited  01:25
Открыть/Комментировать
2021-04-07 18:47:06
2.2K viewsVlad Lialin, 15:47
Открыть/Комментировать
2021-04-07 18:46:20 Давно у нас не было постов вида "держите кучу ссылок"

1. Applied PyTorch 101 от Abhishek Thakur — самые основы пайторча начиная с тензоров и заканчивая даталоадерами (будут ещё видео). Выглядит неплохо, буду советовать студентам.
1. Language Interpretability Tool — тулза для визуализации и интерпретации трансформеров, кроме этого позволяет анализировать ошибки модели и прочие вещи. Выглядит куда более проработанной чем всё, что я видел раньше (демо, гитхаб)
1. NLP In Video Games — мне очень нравится эта идея в принципе, тк она может позволить упростить какие-то моменты геймдева, но NLP всё-таки ещё сыроват. Несмотря на это можно уже посмотреть на первые попытки что-то такое сделать.
1. What Will it Take to Fix Benchmarking in Natural Language Understanding? — рассуждения на тему того, почему текущие бенчмарки плохи и как делать более хорошие.
1. torchtyping — попытка решить проблему документации шейпов тензоров, а заодно и проверять это всё на лету. Надо будет попробовать.
1. MLOps: жизненный цикл ML-моделей — как известно, обучение моделек это 5% работы, в этом выступлении обсуждают остальные 95%.
1. Why Do Local Methods Solve Nonconvex Problems — современный обзор текущей теории обучения в диплёрнинге или попытки ответить на вопрос почему в нейросетках почти все локальные минимумы близки к глобальному.
2.8K viewsVlad Lialin, 15:46
Открыть/Комментировать