DL in NLP

Адрес канала:

Категории: Технологии , Образование

Язык: Русский

Страна: Россия

Количество подписчиков: 8.30K

Описание канала:

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.
Связь и реклама: @dropout05

▲ Vote (1)

Рейтинги и Отзывы

4.33

3 отзыва

Оценить канал dlinnlp и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 15

2021-10-26 20:02:10

913 viewsVlad Lialin, 17:02

Открыть/Комментировать

2021-10-26 20:02:10

891 viewsVlad Lialin, 17:02

Открыть/Комментировать

2021-10-26 20:02:09

852 viewsVlad Lialin, 17:02

Открыть/Комментировать

2021-10-26 20:02:08

893 viewsVlad Lialin, 17:02

Открыть/Комментировать

2021-10-26 20:02:07 И несколько примеров работы модели. Я был скептичен, но T0pp показала себя на удивление хорошо.

UPD: извиняюсь за такое количество уведомлений одновременно, не ожидал что все скриншоты пошлются как разные сообщения

902 viewsVlad Lialin, edited 17:02

Открыть/Комментировать

2021-10-26 19:57:36 Нужно больше T0. Сегодня обсуждали эту статью на reading group в лабе, думаю слайды могут быть полезны.

Также можно поиграться с моделью по этой ссылке: https://huggingface.co/spaces/akhaliq/T0pp

924 viewsVlad Lialin, edited 16:57

Открыть/Комментировать

2021-10-25 23:13:15

Пример хотдог-детектора на Т0. 28 секунд на инференс на 6-ядерном Core i7.

1.3K viewsVlad Lialin, 20:13

Открыть/Комментировать

2021-10-25 22:33:45 Multitask Prompted Training Enables Zero-Shot Task Generalization
Sanh et al [BigScience]
arxiv.org/abs/2110.08207

Новая итерация на promt engineering и тренировку с промтами. Авторы предлагают взять большую версию Т5 (11B параметров) и зафайнтюнить её на большом числе supervised датасетов с промтами, описывающими задачу.

Например, для задачи QA это может выглядить так: I know that the answer to [вопрос] is in [контекст]. Can you tell me what it is?

Всего использовали 12 различных задач, 62 датасета. На каждый датасет было порядка 8 промтов. Часть задач отложили на валидацию (например NLI задачи и coreference). При файнтюнинге учили модель генерировать ответы авторегрессионно, аналогично тому, как делали в Т5. Таким образом получается что мы всегда используем кросс-энтропию по словарю и нам не нужно несколько голов, как в классическом multitask-сетапе.

Результаты:
1. модель заметно превосходит GPT-3 на 9 из 11 датасетов в zero-shot режиме.
1. использование одного промта очень сильно увеличивает zero-shot качество по сравнению с тренировкой без промтов
1. использование нескольких промтов в среднем работает лучше чем использование одного (чуть-чуть противоречит предыдущим результатам)
1. использование большего числа датасетов для обучения улучшает среднее zero-shot качество, но не уменьшает дисперсию результатов внутри одного датасета

Модель доступна в под именем bigscience/T0pp и у неё очень хорошая model card. Посмотреть на датасеты с промтами (~2000 различных промтов) можно тут. Вы также можете помочь проекту законтрибьютив свои промты.

1.4K viewsnlpcontroller_bot, 19:33

Открыть/Комментировать

2021-10-21 23:14:20

arXiv DOOM: BFG1000 Rejected

Шел 2021 год. На arXiv каждый день появлялись новые статьи! Скоро их станет слишком много! Экспоненциально много!

Вы боец спецподразделения ДСР: Двойного Слепого Рецензирования!

Вам позволено бороться с сотней самых последних статей в категории cs. CV!

Главное зареджектить новый пейпер Яна ЛеКуна!

arXiv DOOM Играй в браузере!

1.7K viewsVlad Lialin, 20:14

Открыть/Комментировать

2021-10-21 23:14:20 arXiv DOOM - это то, как я чувствую себя так каждое утро. Кстати если вы не читали бомбёжку ЛеКуна насчет реджекта статей - рекомендую, там есть разумное зерно.

1.7K viewsVlad Lialin, edited 20:14

Открыть/Комментировать