DL in NLP

Адрес канала:

Категории: Технологии , Образование

Язык: Русский

Страна: Россия

Количество подписчиков: 8.30K

Описание канала:

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.
Связь и реклама: @dropout05

▲ Vote (1)

Рейтинги и Отзывы

4.33

3 отзыва

Оценить канал dlinnlp и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 2

2022-07-29 02:58:18 Geometric DL News: 200M proteins in AlphaFold DB, Euclidean nets, Italian GDL Summer School, Diffusers

This week brought us a bunch of news and new materials:

- DeepMind announced expanding the AlphaFold DB to 200 million protein structures. Celebrating 1Y anniversary since the release of groundbreaking AlphaFold 2, DeepMind mentions a huge success of the system among scientists all over the world - more than 500.000 researchers from 190 countries have accesses AlphaFold predictions - and sketches further plans to apply the outcomes in other areas such as drug discovery, fusion, and climate change

- Mario Geiger (MIT) and Tess Smidt (MIT) released an updated version of the writeup on e3nn - the most popular Python library to build Euclidean Neural Networks, a basis for many new cool works like Steerable GNNs and SE(3)-Transformers. The writeup includes simple intuitions behind spherical harmonics, tensor product, irreducible representations, and other key building blocks - if you work on equivariant architectures, you probably do that with e3nn

- First Italian School on Geometric Deep Learning releases all slides and Colab Notebooks on equivariance, topology, differential geometry and other topics covered by top speakers including Michael Bronstein, Cristian Bodnar, Maurice Weiler, Pim de Haan, and Francesco Di Giovanni.

- Following the hottest 2022 trend, HuggingFace aims to tame the wilds of diffusion models and releases Diffusers , a single library to build and train diffusion models of all modalities - image generation, text generation, and, of course, graph generation! The PR with GeoDiff, a SOTA molecule generation model from ICLR 2022, is already prepared

3.6K viewsVlad Lialin, 23:58

Открыть/Комментировать

2022-07-27 18:54:36 Давайте поговорим о серьёзных вещах. О постерах. Тех самых постерах которые вы делаете для конференции чтобы показать свою статью другим рисёчерам.

Как правило эти постеры
Сорян

И сегодня я нашёл очень классные видео от Mike Morrison которые описывают как сделать ваши постеры лучше и быстрее. Просто уберите 99% текста и добавьте мем.

Итак, начнём: How to create a better research poster in less time.

Если вам понравилось, можете посмотреть второй видос, который продолжает идею. А потом и видео о том как твитить про вашу статью (Твиттер важен, 99% новостей и статей в этом канале приходят ко мне из твиттера).

3.8K viewsVlad Lialin, edited 15:54

Открыть/Комментировать

2022-07-26 22:28:21 Loss Landscape of Neural Networks: theoretical insights and practical implications

Немного теории диплернинга вам в ленту. EPFL выложил записи миниконфы по loss landscape. Из хайлайтов там есть выступление Jonathan Frankle - автора Lottery Ticket Hypotheses - на тему Understanding Loss Landscapes through Neural Network Sparsity. Обычно его выступления топ. По личному общению с ним он очень не любит теоретиков и считает что его подход, который больше похож на лабы по физике чем на вывод теорем. Последняя лекция содержит в себе "practical bayesian deep learning", что скорее всего ловушка, но может быть интересно.

P.S. Чтобы увидеть ссылки на видео тыкните на Program/Recordings и откроется список.

3.4K viewsVlad Lialin, 19:28

Открыть/Комментировать

2022-07-26 03:50:32

Simple Local Attentions Remain Competitive for Long-Context Tasks
arxiv.org/abs/2112.07210

За последние два года накопилась куча длинных трансформеров которые могут работать с последовательностями больше 512 токенов. Зачастую такую нейросеть инициализируют предобученным “коротким” трансформером например RoBERTa. В этой статье авторы сказали, “постойте, а что если тренировать всё с нуля и вообще сделать максимально одинаковый сетап для всех длинноформеров“. А ещё “надо взять пару тупых бейзлайнов типа скользящего окна или блочного аттеншена“. Ещё добавили несколько глобальных токенов, которые могут аттентиться ко всей последовательности.

Результат: на бенчмарке LRA все модели показывают одинаковое качество, при этом тупые бейзлайны зачастую быстрее остальных моделей. На более прикладных длиннотекстовых задачах (TriviaQA, Hyperpartisan) блочный аттеншн с глобальными токенами вообще всех рвёт. Выяснили что оверлап блоков улучает MLM, но для прикладных бесполезен. А вот глобальные токены очень важны для TriviaQA, без них модель теряет аж 10 пунктов. Инициализировать RoBERTa даёт заметный буст (78 против 73 F1 на TriviaQA).

Вывод: block-wise attention очень крут, несмотря на то что очень прост. Посыпьте его парой выучиваемых глобальных токенов и будет вам длинный трансформер.
Код доступен в виде библиотеки xFormers. Осторожно Triton.

3.1K viewsVlad Lialin, 00:50

Открыть/Комментировать

2022-07-22 12:02:20

Тинькофф приглашает на питерский AI-митап

На митапе команда исследований расскажет о том, как развивает AI-ресерч в Тинькофф.

— Расскажут про последние статьи в NLP Research — модели early exiting и контролируемую генерацию;
— разберут недавние эксперименты со стохастическими нейронными сетями;
— объяснят ситуации, когда применяли Offline RL в реальной жизни.

Митап пройдет 29 июля в Санкт-Петербурге в технопарке ЛЕНПОЛИГРАФМАША. Начало в 19:00. Регистрируйтесь по ссылке: https://u.tinkoff.ru/ai-saintp-research-meetup

#промо

3.8K viewsVlad Lialin, 09:02

Открыть/Комментировать

2022-07-20 21:20:01 Подробнее про новую схему доступа к DALL-E

Цены:
При регистрации вам дают 50 кредитов. Один кредит = одиз запрос к DALL-E. Как они заканчиваются вы можете купить 115 кредитов за $15, получается 13 центов за запрос (модель выдает 4 картинки на каждый запрос). Дальше каждый месяц вы получаете 15 кредитов.

15 или даже 50 кредитов это прямо немного. Я когда использую далли для картинок в презентации думаю раз 10-20 запрашиваю модель.

Те кто участвовали в альфе получили 100 кредитов сверху, что приятно.

Другие детали:

В начале альфы модель генерила 10 картинок на каждый запрос. Потом 8, теперь вообще 4, что немного. Зато гораздо быстрее.

Теперь история генераций стала гораздо больше. Вроде бы с 10 увеличили до 1000.

Права:
Вы не обладаете копирайтом на изображения. Им обладает OpenAI, а у вас есть эксклюзивные права на распространение и коммерциализацию. OpenAI не может продавать изображения которые вы сгенерили. Также они обещают not assert any copyright against you or your users. Но если вы нарушаете Content Policy, например скрываете что это сгенеренная картинка, ваши права отзываются.

4.0K viewsVlad Lialin, 18:20

Открыть/Комментировать

2022-07-20 21:00:00

DALL·E Now Available in Beta

С сегодняшнего дня пользователи получают полные права на коммерческое использование изображений, созданных ими с помощью DALL-E, включая право на перепечатку, продажу и мерчандайзинг. Сюда входят изображения, созданные ими во время предварительного просмотра.

Пользователи сообщили OpenAI, что планируют использовать изображения DALL-E для коммерческих проектов, таких как иллюстрации для детских книг, иллюстрации для информационных бюллетеней, концепт-арт и персонажи для игр, moodboards для дизайнерских консультаций и раскадровки для фильмов.

анонс

2.6K viewsVlad Lialin, 18:00

Открыть/Комментировать

2022-07-12 19:43:29

BLOOM - 176B модель от BigScience официально выпущена!
bigscience.huggingface.co/blog/bloom

46 человеческих языков
16 языков программирования

Теперь будет интересно насколько сложно завести её на том железе которое доступно обычным смертным. Только веса уже занимают несколько сотен gb.

4.1K viewsVlad Lialin, edited 16:43

Открыть/Комментировать

2022-07-06 06:14:26 CMU Multilingual NLP Course

For everyone who is interested in processing of multilingual text and speech data, now there is available the course from Carnegie Mellon University of 2022 year. Enjoy!

https://youtube.com/playlist?list=PL8PYTP1V4I8BhCpzfdKKdd1OnTfLcyZr7

4.3K viewsVlad Lialin, 03:14

Открыть/Комментировать

2022-07-04 09:50:32 DALL-E Mini Is the Internet's Favorite AI Meme Machine
wired.com/story/dalle-ai-meme-machine

Вот мы и дошли до того что я даю ссылки на Wired в постах...
Сейчас переехал в новых город и знакомлюсь с кучей новых людей, из них почти все не из диплернинга. И довольно быстро я понял что несмотря на весь хайп который создаёт вокруг себя OpenAI, довольно мало людей знает про DALL-E или GPT-3.

Но буквально на днях встретил несколько людей которые почти ничего не знают про OpenAI, но знают про DALL-E Mini/Crayon. Всё-таки мемы - лучший способ продвижения.

В статье собственно обсуждают саму модельку, немного её истории, и что она умеет и не умеет. Рекомендую запомнить её и показывать своим недиплернинговым знакомым.

4.3K viewsVlad Lialin, 06:50

Открыть/Комментировать