Получи случайную криптовалюту за регистрацию!

DL in NLP

Логотип телеграм канала @dlinnlp — DL in NLP D
Логотип телеграм канала @dlinnlp — DL in NLP
Адрес канала: @dlinnlp
Категории: Технологии , Образование
Язык: Русский
Страна: Россия
Количество подписчиков: 8.30K
Описание канала:

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.
Связь и реклама: @dropout05

Рейтинги и Отзывы

4.33

3 отзыва

Оценить канал dlinnlp и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

2

3 звезд

0

2 звезд

0

1 звезд

0


Последние сообщения 15

2021-10-26 20:02:10
913 viewsVlad Lialin, 17:02
Открыть/Комментировать
2021-10-26 20:02:10
891 viewsVlad Lialin, 17:02
Открыть/Комментировать
2021-10-26 20:02:09
852 viewsVlad Lialin, 17:02
Открыть/Комментировать
2021-10-26 20:02:08
893 viewsVlad Lialin, 17:02
Открыть/Комментировать
2021-10-26 20:02:07 И несколько примеров работы модели. Я был скептичен, но T0pp показала себя на удивление хорошо.

UPD: извиняюсь за такое количество уведомлений одновременно, не ожидал что все скриншоты пошлются как разные сообщения
902 viewsVlad Lialin, edited  17:02
Открыть/Комментировать
2021-10-26 19:57:36 Нужно больше T0. Сегодня обсуждали эту статью на reading group в лабе, думаю слайды могут быть полезны.

Также можно поиграться с моделью по этой ссылке: https://huggingface.co/spaces/akhaliq/T0pp
924 viewsVlad Lialin, edited  16:57
Открыть/Комментировать
2021-10-25 23:13:15
Пример хотдог-детектора на Т0. 28 секунд на инференс на 6-ядерном Core i7.
1.3K viewsVlad Lialin, 20:13
Открыть/Комментировать
2021-10-25 22:33:45 Multitask Prompted Training Enables Zero-Shot Task Generalization
Sanh et al [BigScience]
arxiv.org/abs/2110.08207

Новая итерация на promt engineering и тренировку с промтами. Авторы предлагают взять большую версию Т5 (11B параметров) и зафайнтюнить её на большом числе supervised датасетов с промтами, описывающими задачу.

Например, для задачи QA это может выглядить так: I know that the answer to [вопрос] is in [контекст]. Can you tell me what it is?

Всего использовали 12 различных задач, 62 датасета. На каждый датасет было порядка 8 промтов. Часть задач отложили на валидацию (например NLI задачи и coreference). При файнтюнинге учили модель генерировать ответы авторегрессионно, аналогично тому, как делали в Т5. Таким образом получается что мы всегда используем кросс-энтропию по словарю и нам не нужно несколько голов, как в классическом multitask-сетапе.

Результаты:
1. модель заметно превосходит GPT-3 на 9 из 11 датасетов в zero-shot режиме.
1. использование одного промта очень сильно увеличивает zero-shot качество по сравнению с тренировкой без промтов
1. использование нескольких промтов в среднем работает лучше чем использование одного (чуть-чуть противоречит предыдущим результатам)
1. использование большего числа датасетов для обучения улучшает среднее zero-shot качество, но не уменьшает дисперсию результатов внутри одного датасета

Модель доступна в под именем bigscience/T0pp и у неё очень хорошая model card. Посмотреть на датасеты с промтами (~2000 различных промтов) можно тут. Вы также можете помочь проекту законтрибьютив свои промты.
1.4K viewsnlpcontroller_bot, 19:33
Открыть/Комментировать
2021-10-21 23:14:20
arXiv DOOM: BFG1000 Rejected

Шел 2021 год. На arXiv каждый день появлялись новые статьи! Скоро их станет слишком много! Экспоненциально много!

Вы боец спецподразделения ДСР: Двойного Слепого Рецензирования!

Вам позволено бороться с сотней самых последних статей в категории cs. CV!

Главное зареджектить новый пейпер Яна ЛеКуна!

arXiv DOOM Играй в браузере!
1.7K viewsVlad Lialin, 20:14
Открыть/Комментировать
2021-10-21 23:14:20 arXiv DOOM - это то, как я чувствую себя так каждое утро. Кстати если вы не читали бомбёжку ЛеКуна насчет реджекта статей - рекомендую, там есть разумное зерно.
1.7K viewsVlad Lialin, edited  20:14
Открыть/Комментировать