DL in NLP

Адрес канала:

Категории: Технологии , Образование

Язык: Русский

Страна: Россия

Количество подписчиков: 8.30K

Описание канала:

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.
Связь и реклама: @dropout05

▲ Vote (1)

Рейтинги и Отзывы

4.33

3 отзыва

Оценить канал dlinnlp и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 5

2022-04-29 12:07:01 «Сколково» при поддержке ВТБ провели конференцию по анализу данных. Среди самых популярных сессий:

MLOps. Как использовать DevOps для внедрения систем ИИ и настроить непрерывный релиз моделей ML

ДНК дата-сайентиста. Как меняются требования к ds специалистам, почему им могут отказать на собеседовании и как выстраивать образовательный трек

От научной статьи до MVP. Как довести идею до конкретного продукта и какие сложности с R&D в области искусственного интеллекта есть в России.

Смотрите сессии об этом на конференции Data Fusion 2022, записи доступны на сайте или в VK.

Также среди тем: федеративные модели, экономичные нейросети, графовая аналитика, распределенные методы оптимизации, диффузионные модели, робастность глубоких нейросетей и многое другое.

Ищите запись выступлений экспертов по ссылке

#промо

1.3K viewsVlad Lialin, 09:07

Открыть/Комментировать

2022-04-28 21:28:23 Про прогрессбары

Недавно понадобилось отслеживать состояние обучения модельки(переводчика) в реалтайме, но я работаю в save & run all кагла, что довольно неудобно и накладывает ограничения

Соответственно появились мысли о всяких MLOps инструментах типо wandb, neptune, tensorboard и тд

Но они тоже не сказать что супер удобные, ведь что есть удобнее мессенджеров?

Тут я начал гуглить на эту тему что-то для тг. Нашел штуку HF, которая тупо отправляет сообщение в мессенджер. Нормально, но хочется большего, большего реалтайма без флуда

Написал другу об этом всём, а в ответ:

Сделать TQDM вывод красивый, вытащить выходной поток, прогнать через какую-нить либу, которая по любому есть, это-ж питон. И в одно сообщение красиво скидывать с таймаутом в минуту, не шля новые, а изменяя старое
(хотя скорее всего есть более удобные инструменты юпитера)

Как ни странно он был прав, при этом настолько, что изменить в коде нужно было всего две строчки:
from tqdm.contrib.telegram import tqdm
for i in tqdm(iterable, token='{token}', chat_id='{chat_id}'):
...

В конечном итоге я остановился на комбинации tqdm telegram + wandb (полный вывод консоли + использование ресурсов) и пока что меня это устраивает

878 viewsVlad Lialin, 18:28

Открыть/Комментировать

2022-04-27 21:32:49 AI Alignment and the Long-Term Future Speaker Series
harvardea.org/agathon

Когда мы всё чаще используем огромные модели натренированные на террабайтах данных, контролировать их становится всё сложнее. Но при этом мы не хотим, чтобы чатботы которых мы сделали на основе GPT3 или T5 были токсичными и в принципе генерировали всякую дичь. Мы хотим чтобы они отражали какие-то наши базовые моральны ценности и данные из интернета — не лучший пример этих ценностей. Для того, чтобы научить модели хорошему сейчас есть зарождающаяся область исследований model alignment, которая пытается align AI values to that of human values. В Гарварде и MIT недавно прошла speaker series на эту тему, рекомендую посмотреть записи / слайды.

1.0K viewsVlad Lialin, 18:32

Открыть/Комментировать

2022-04-27 18:06:01 Стенфорд выложил все видосы cs224n Winter 2021 Natural Language Processing.
Это один из лучших курсов по nlp в мире, и теперь доступна его более свежая версия. Есть нормальная лекция по трансформерам, T5, low resource MT.
Всем смотреть.

https://youtube.com/playlist?list=PLoROMvodv4rOSH4v6133s9LFPRHjEmbmJ

4.2K viewsVlad Lialin, edited 15:06

Открыть/Комментировать

2022-04-25 20:05:22 Так как понедельник день тяжёлый (как и любой другой день), давайте просто почитаем популярные новости и бомбёж рисёчеров на эти новости.

New York Times A.I. Is Mastering Language. Should We Trust What It Says?
Реакция Emiliy Bender на эту статью: Resist the Urge to be Impressed

1.2K viewsVlad Lialin, 17:05

Открыть/Комментировать

2022-04-25 17:29:58

MASSIVE — новый мультиязыковой NLU датасет от Amazon

Amazon запустил соревнование по NLU (natural language understanding) и, в связи с этим, расшарил параллельный датасет.

• 51 язык
• Всего порядка 1 миллиона строк.

Посмотрел на него, — похоже, что это всё команды для голосового помощника alex'ы.

• Есть разметка типа "можешь создать событие [time : в ночь] на [date : пятницу] с [person : аллой пугачёвой] и [person : киркоровым]"
• Почти все тексты короткие, до 20 слов.
• Попадаются различия в переводе названий. Русский — "включи игру танки онлайн", немецкий "lass uns ein trivia spiel spielen".

Что ж, появился новый параллельный корпус на 51 язык, хотя и немного специфичный. И то хорошо.

GitHub

1.3K viewsVlad Lialin, 14:29

Открыть/Комментировать

2022-04-22 18:53:21 запускает курс по RL
Syllabus: https://github.com/huggingface/deep-rl-class
Регистрация: тык

Обещают научить работать со stable baselines, RLlib, RL Baselines3 Zoo. Также будут не только заезженные Space Invaders но и новые environments, включая работающие на Unity.

Кроме классических топиков (Q learning, policy gradients, PPO) будут также offline RL и decision transformers.

Заучит классно, мне давно пора подтянуть свои RL скилы.

1.4K viewsVlad Lialin, edited 15:53

Открыть/Комментировать

2022-04-20 21:39:44

3.4K viewsVlad Lialin, 18:39

Открыть/Комментировать

2022-04-20 21:39:44

1.7K viewsVlad Lialin, 18:39

Открыть/Комментировать

2022-04-20 21:39:43 Learning to Prompt for Continual Learning
Wang et al, [Google]
arxiv.org/abs/2112.08654
блогпост: тык

Интересная идея использовать continuous prompt для задач continual learning, где тебе нужно последовательно учить несколько тасок.

Основная проблема CL это catastrophic forgetting — то, что модель забывает старые задачи, когда мы её учим новым задачам. Чтобы разрешить её, LTP не обновляет параметры модели вообще, а обучает только векторы промтов и их ключи. Работает это так: на основе входных данных строится query которая сравнивается с обучаемыми ключами промтов и top-k найденных промтов присоединяются ко входу в трансформер.

Почему это полезно — очень простая и эффективная по памяти имплементация по сравнению со стандартными методами CL типа EWC.

1.7K viewsVlad Lialin, edited 18:39

Открыть/Комментировать