DL in NLP

Адрес канала:

Категории: Технологии , Образование

Язык: Русский

Страна: Россия

Количество подписчиков: 8.30K

Описание канала:

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.
Связь и реклама: @dropout05

▲ Vote (1)

Рейтинги и Отзывы

4.33

3 отзыва

Оценить канал dlinnlp и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 19

2021-08-12 23:08:57

Пример решения задачки с помощью Codex. Весь код сгененирован по названию функции и докстрингу.

https://twitter.com/DeadMoneyDuke/status/1425890180783906821/photo/1

1.3K viewsVlad Lialin, edited 20:08

Открыть/Комментировать

2021-08-12 23:01:02 Пару часов назад прошёл OpenAI Codex Challenge и я даже занял там 53 место

Мы уже обозревали Codex — модель для генерации кода от OpenAI несколько недель назад. Теперь хочется поговорить о впечатлениях после взаимодействия с моделью.

Во-первых Codex это реально магия. Многие задачки были специально сформулированы в довольно специфичной области (например задача парсинга python-кода) или на API, который ты постоянно забываешь (как работать с ISO-датами в pandas). В двух задачках после написания где-то половины решения, Codex завершал его за меня. В двух других задачках он написал весь код, после того, как я перекопировал условие задачи в docstring функции.

Но теперь о более интересном.

В одной из задачек, решение на 99% написанное Codex прошло почти все тесты. Ключевое слово тут "почти". Этот баг можно было бы спокойно незаметить и считать, что функция полностью работает. Он лишь проявлялся в одном из тест-кейсов и вроде бы этот тест-кейс даже не был заточен на этот баг. При этом сам баг был довольно простым и можно было бы поймать заранее, если бы я писал код с нуля.

Мораль: последние несколько лет мы всё чаще видим большие системы (Google, AWS, Cloudflare) падающие из-за мелких и редких багов. Если из-за Codex я упустил такой мелкий и редкий баг в 1 задаче из 5, насколько часто это будет случаться, когда подобными системами будет пользоваться большинство разработчиков (что, я думаю, неизбержно)?

1.3K viewsnlpcontroller_bot, 20:01

Открыть/Комментировать

2021-08-12 23:01:02

1.2K viewsnlpcontroller_bot, 20:01

Открыть/Комментировать

2021-08-09 23:18:03

Geometric Deep Learning

Курс по геометрическому Deep Learning от исследователей из ICL, NYU, DeepMind, Universiteit van Amsterdam, Qualcomm и других.

Что такое геометрический DL? Это обобщение нейросеток на более сложные стркутуры, такие как графы или какие-то другие вещи с внутренними симметриями. Я в основном видел его применения в социальных графах, молекулярном DL (а-ля alpha fold), и 3D-computer vision со всякими point clouds (означает: беспилотные автомобили).

Выглядит интересно, все записи лекций и слайды доступны бесплатно.

Курс: geometricdeeplearning.com/lectures/
Первая (вводная) лекция:

1.4K viewsnlpcontroller_bot, 20:18

Открыть/Комментировать

2021-08-05 21:02:39

Что нетипично для DeepMind, они ещё и код выложили. К сожалению он на Jax и Haiku, но зато написан довольно аккуратно.

849 viewsVlad Lialin, edited 18:02

Открыть/Комментировать

2021-08-05 20:59:39 Perceiver IO: A General Architecture for Structured Inputs & Outputs
Jaegle et al. [DeepMind]
arxiv.org/abs/2107.14795

Новый "длинный" трансформер от DeepMind с простой архитектурой.

Идея: вместо того, чтобы в attention считать query = W @ x, заменим его на латентные (не зависящие от инпута x) обучаемые вектора query = Q. Тогда первый слой будет потреблять seq x queries времени и памяти, а все остальные queries x queries, делая трансформер линейным по длине последовательности в первом слое и константным в остальных слоях.

Проблема: теперь хиддены не соответствуют токенам и непонятно как делать какой-нибудь MLM. Решают так: на выходе из сети берут ещё одну латентную матрицу (например seq x hidden) и считают attention с ней. На выходе получаются вектора, которые можно ассоциировать с токенами, архитектура есть на картинке выше. Дальше с этими векторами можно делать то же, что мы делаем с аутпутом трансформера.

Так как это DeepMind, они широко поэкспериментировали с применениями: обучили BERT, Optical Flow, RL-агента StarCraft. Везде заменили трансформер на Perceiver IO. TL;DR - везде улушчения по качеству при меньших FLOPS и памяти.

Самый интересный для NLP результат, это что Perceiver IO можно применять на последовательностях символов/байтов и говорить что первый слой как бы выучивает токенизацию за нас.

892 viewsnlpcontroller_bot, 17:59

Открыть/Комментировать

2021-08-05 20:59:39

842 viewsnlpcontroller_bot, 17:59

Открыть/Комментировать

2021-07-29 23:25:50

Очень любопытная работа от UC Berkeley + FB + Google.
Поразительно, но трансформеры, предобученные на языковых задачах, неплохо обобщаются и на другие модальности.

После обучения на текстовых данных, у трансофрмера файнтюнится только линейный входной слой, выходной слой, positional embeddings и параметры layer norm слоев (см. картинку выше). В итоге после файнтюнинга всего лишь 0.1% всех параметров на новом датасете такой трансофрмер может хорошо решать задачи в других модальностях, таких как предсказание структуры белка, математические вычисления или классификация изображений.

Выглядит так, что наш мир состоит из неких информационных структур, имеющих что-то общее даже если рассмотреть совсем разные задачи. Это довольно интересная гипотеза, и судя по всему, мы движемся к какой-то универсальной "нейронной сети", которая сможет решать много разных задач, используя накопленный опыт в других областях. Меня это жутко будоражит!

213 viewsVlad Lialin, 20:25

Открыть/Комментировать

2021-07-29 23:25:49 Интересная статья, рассказывающая что можно легко зафайнтюнить layer norm в BERT и научить его классифицировать изображения или протеины вместо текста.

Какое-то время назад обсуждали такое в лабе и сошлись на том, что возможно MLM не так и хорош и не учит ничего специфичного для языка. Учит только много простых эвристик типа "посмотреть на следующее/предыдущее слово", что видно в статьях по анализу трансформеров.

Возможно именно потому что MLM учит такие простые, но эффективные вещи эти модельки легко обобщаются на разные домены/модельности. Что на самом деле делает такие статьи только более интересными лично для маня.

313 viewsVlad Lialin, 20:25

Открыть/Комментировать

2021-07-29 00:27:42