DL in NLP

Адрес канала:

Категории: Технологии , Образование

Язык: Русский

Страна: Россия

Количество подписчиков: 8.30K

Описание канала:

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.
Связь и реклама: @dropout05

▲ Vote (1)

Рейтинги и Отзывы

4.33

3 отзыва

Оценить канал dlinnlp и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 9

2022-01-26 20:44:43 Transformers обновились до версии 4.16 и там есть пара интересных вещей

1. REALM — предобученная моделька, которая хорошо тюнится на ODQA-like задачи, мы её обозревали аж в сентябре 2020
1. Nyströmformer — ещё один в копилку длинных трансформеров
1. ViLT — мультимодальный трансформер, которому не требуется отдельный fasterRCNN backbone, что сильно упрощает работу с ним. Если у вас есть V+L задачи, советую взять как бейзлайн.
1. Добавили несколько CV моделей: SwinTransformer, ViTMAE
1. Speech Seq2Seq Training script
1. Large audio chunking for the existing ASR pipeline

1.4K viewsVlad Lialin, 17:44

Открыть/Комментировать

2022-01-26 19:42:54 Давно не было подборки новостей и интересных блогпостов

1. Text and Code Embeddings in the OpenAI API — теперь можно доставать эмбеддинги текстов через OpenAI API. Эти эмбеддинги сильно обходят SentenceBERT, GPT-3, хорошо работают в нестандартных доменах, например астрономии и вообще взяли кучу SOTA. Подробнее в статье Text and Code Embeddings by Contrastive Pre-Training, сделаем её обзор в ближайшие дни.
1. ε, A Nuisance No More — пост о том, что eps нужен не только для устранения численых ошибок. Например в ADAM высокие eps делают оптимизатор чуть-чуть больше похожим на SGD, что может быть полезно, когда моменты плохо описывают поверхность лосса. В BatchNorm/LayerNorm высокие eps выполняют роль сглаживания компонент вектора. На практике иногда такие высокие значения eps как 1e-3 или даже 1e-1 могут сильно помогать оптимизации и зачастую тюнинг eps полезен.
1. On the Difficulty of Extrapolation with NN Scaling — мы все слышали про scaling laws, однако на практике мало кто умеет их готовить. Просто от увеличения модели в 2 раза, вы можете не получить ожидаемого улучшения качества, тк scaling laws вообще говоря требуют адаптации batch size, lr, других гиперпараметров и в общем случае, размера датасета. Блогпост обсуждает случаи, когда люди слишком сильно надеятся на scaling laws и забывают про эти важные детали.

5.4K viewsVlad Lialin, 16:42

Открыть/Комментировать

2022-01-25 15:43:37 ML and NLP Research Highlights of 2021

by Sebastian Ruder

https://ruder.io/ml-highlights-2021/

744 viewsVlad Lialin, 12:43

Открыть/Комментировать

2022-01-25 08:30:27 Инженеры Meta рассказали в блоге компании о AI Research SuperCluster (RSC) — суперкомпьютере для обучения моделей в областях, связываемых с ИИ: работа с естественным языком, распознавание речи и компьютерное зрение.
Вычислительный кластер содержит 760 NVIDIA DGX A100 в качестве вычислительных узлов (6,080 GPU) — с сетевой инфраструктурой на основе NVIDIA Quantum 200 Gb/s InfiniBand. Емкость накопителя — 175 петабайт на Pure Storage FlashArray, кэш — 46 петабайт в Penguin Computing Altus systems. Утверждается, что когда кластер к середине года доведут до полной комплектации и мощности, он станет самым могучим в мире суперкомпьютером для задач в области ИИ.
И, конечно же, заявлено, что этот монстр — начало дороги к построению метавселенной, the next major computing platform — the metaverse, where AI-driven applications and products will play an important role.
https://ai.facebook.com/blog/ai-rsc

1.0K viewsVlad Lialin, 05:30

Открыть/Комментировать

2022-01-19 20:05:18 Как мне подойти к задаче классфификации/QA/NER/...? В чатах можно часто услышать такие вопросы. И несмотря на обилие туториалов по всем стандартным задачам NLP, я пока что не видел хорошего места, куда можно было бы послать людей, где есть все эти задачки.

Теперь такое место есть! Tasks

Вы выбираете задачу, которая вас волнует: классификация, QA, NER, MT, суммаризация, генерация, схожесть текстов

На каждую из них есть короткая лекция, описываются вариации задачи, есть ссылки на датасеты и предобученные модели. Самое главное: есть ссылки на A) хороший ноутбук, который подробно, но доступно описывают как применить условный BERT к этой задаче B ) хорошо задокументированный скрипт, который вы можете легко подогнать под свою задачу.

Кроме этого есть ссылки на релевантные блогпосты, которые могут рассматривать задачу с разных сторон. В общем советую теперь слать людей на Tasks.

1.4K viewsVlad Lialin, edited 17:05

Открыть/Комментировать

2022-01-17 22:40:30

838 viewsVlad Lialin, 19:40

Открыть/Комментировать

2022-01-17 22:40:20 Scalable Second Order Optimization for Deep Learning
arxiv.org/abs/2002.09018

На обзор статьи меня навёл вот этот трэд в твиттере. Главный его момент был в том, что авторы DALLE-mini столкнулись с тем, что большие версии модели склонны внезапно расходиться посреди тренировки. Перепробовав кучу оптимизаторов и lr они обнаружили что некий Distributed Shampoo сходится гораздо быстрее и стабильнее Adam и Adafactor.

Главное отличие Dist Shampoo от Adam в том, что это метод оптимизации второго порядка, типа метода Ньютона, LBFGS или KFAC. Для апдейта Shampoo использует не только градиент G, но и матрицы ковариации градиента G G^T и G^T G, которые нужно ещё и возвести в степень 1/4 (возводить матрицы в степень это боль, а когда степень < 1 это боль в кубе).

Dist Shampoo добавляет кучу хаков, чтобы ускорить Shampoo. Первый хак: для матриц эмбеддингов, размер которых [vocab_size, hidden] используют только G G^T, тк вычислять произведение [vocab_size, hidden] @ [hidden, vocab_size] относительно дешево, а [hidden, vocab_size] @ [vocab_size, hidden] - безумно долго, тк vocab_size обычно раз в 50 больше hidden. Второй хак: в любом матричном произведении, если hidden очень большой, матрицу разбивают на N блоков размера hidden/N и вычисляют ковариации только этих блоков. Третий хак уже более хитрый: матрицы ковариации пересчитывают не на каждом шаге оптимизации, а только каждые ~100 шагов. Идея в том, что их рассчёт происходит на отдельной GPU/TPU параллельно обучению сети.

В оригинальной статье показали, что с помощью Dist Shampoo можно обучать трансформеры размером в 100M параметров за примерно в полтора раза меньшее время, чем Adam.

Подробнее про Distributed Shampoo:
1. WandB Report с DALLE mini
1. Имплементация на Jax

1.2K viewsVlad Lialin, 19:40

Открыть/Комментировать

2022-01-17 19:26:15 Привет всем!

В рамках Dialogue Evaluation запущено соревнование о распознавании сгенерированных текстов. Все подробности есть в репозитории (https://github.com/dialogue-evaluation/RuATD).

Присоединяйтесь, будем рады всех видеть!

1.2K viewsVlad Lialin, 16:26

Открыть/Комментировать

2022-01-15 09:13:50 У меня тут, кстати, пробежал интересный сайт: https://mavenlin.github.io/ai_research_trends/

Он анализирует arxiv и показывает статьи, которые сейчас в тренде. Оч удобно чтобы вычислять что сейчас на повестке

1.1K viewsVlad Lialin, 06:13

Открыть/Комментировать

2022-01-09 09:27:56

One Hyper-Modal Transformer can be
Creative as DALL-E and Smart as CLIP

Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP.

см картинки к посту

Гипермодальный RuDolph может:
Генерировать текст
Генерировать изображения по тексту
«Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
Изменять (inpainting) изображения по описанию
Генерировать текстовые описания для изображений
Быть Feature Extractor’ом для few-shot и linear probe классификации
Ранжировать изображения по текстовому описанию
Классифицировать изображения в режиме Zero-Shot

Git Код + Веса
Paper [soon]
HF demo (только 4 картинки)
Model Card
Colab со всеми возможностями

693 viewsVlad Lialin, 06:27

Открыть/Комментировать