DL in NLP

Адрес канала:

Категории: Технологии , Образование

Язык: Русский

Страна: Россия

Количество подписчиков: 8.30K

Описание канала:

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.
Связь и реклама: @dropout05

▲ Vote (1)

Рейтинги и Отзывы

4.33

3 отзыва

Оценить канал dlinnlp и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения

2022-08-31 21:50:49

Новости NLP (и не только) одной строкой #10

1. Using AI to generate fashion — как использовать DALL-E inpainting в видео. Просто добавьте EbSynth + DAIN.
1. AI Test Kitchen от Google — попытка гугла выкатить демки их нейросеток (например LaMDA или PARTI) обычным людям. Записаться в бету можно уже сейчас.
1. Landing a job at top-tier AI labs — хороший блогпост о том как выучить DL и пройти в DeepMind всего за 4 года. Спойлер — это сложно.
1. Statement of purpose Abudakar Abid (фаундер Gradio) который позволил ему пройти в MIT и Stanford.
1. Training Data Extraction Challenge — соревнование по экстракции данных из языковых моделей.
1. Lexica — a search engine for AI-generated images and prompts (and seeds).
1. Исследование Anthropic о том как эффективнее всего алайнить языковые модели. RL с human feedback работает лучше всех.

1.5K viewsVlad Lialin, 18:50

Открыть/Комментировать

2022-08-24 17:47:37

@SBERLOGABIG online seminar on data science:
Татьяна Шаврина (AIRI, Sberdevices) «Многоязычное приключение или как мы учили mGPT: многоязычная модель GPT-3 для 61 языка мира»
Четверг 25 августа, 18.00 по Москве

В докладе мы расскажем о проблемах, которые возникали во время обучения мультиязычной модели, посмотрим ее архитектуру, способы оценки — и дальнейшее развитие.

О докладчике: Татьяна Шаврина,
Главный эксперт по технологиям, RnD NLP, SberDevices
Руководитель исследовательских проектов, AI Research Institute.
Автор тг канала: @rybolos_channel - подписывайтесь !

Google calendar link

Ссылка на зум будет доступна на канале: https://t.me/sberlogabig перед началом доклада - подписывайтесь!

1.1K viewsVlad Lialin, 14:47

Открыть/Комментировать

2022-08-20 22:21:59 Новости NLP одной строкой #9

1. Stable Diffusion уже в Diffusers от HuggingFace. По слухам релиз весов будет на след неделе.
1. Бесплатный (но медленный) плейграунд OPT-175B
1. Топовая вводная лекция по backpropagation от Андрея Карпати.
1. PALM-540B может декомпозировать задачи для роботов, если взвесить генерацию с помощью value function. Начинаю верить что через 5 лет роботы будут повсюду и полезны.
1. Тред TIm Dettmers о том как работает int8 в Transformers. TL;DR — часть сетки квантизуется, а часть (аутлаеры) нет. Особенно важно для моделей > 6B
1. Классный трюк как можно использовать изображения Dalle-Mini как сид Stable Diffusion и получать безумные но реалистичные изображения.
1. Отличный блогпост об интерпретируемости моделей и о связи между преобразованием фурье и grokking.

2.7K viewsVlad Lialin, edited 19:21

Открыть/Комментировать

2022-08-18 19:04:47 Андрей Карпати (ex Tesla AI) выложил новую лекцию

«!!!! Итак, я записал (новую!) 2h25m лекцию "The spelled-out intro to neural networks and backpropagation: building micrograd".
Это кульминация примерно 8 лет навязчивых мыслей о том, как лучше объяснить нейронные сети и обратное распространение.

Если вы знаете Python, смутно помните, как проходили производные в средней школе, посмотрите это видео и к концу не поймете обратное распространение и суть нейронных сетей, тогда я съем ботинок :D»

Смотреть

2.3K viewsVlad Lialin, 16:04

Открыть/Комментировать

2022-08-15 18:26:57 Тут в эйай ньюз обсуждение кэнселинга stable Diffusion и я решил сформулировать свои мысли. Мне интересно как будет меняться домен копирайта и лицензий под влиянием Codex, DALL-E и друзей. Вот три момента на подумать:

1. Если смотреть на текущие популярные свободные лицензии, многие из них (MIT, Apache, CC) требуют прикладывания копии лицензии с именами авторов к вашему продукту. Это сделать не очень сложно, но в текущих датасетах (том же LAION) такой метаинформации пока нет.

1. Когда эти лицензии составлялись никто не представлял себе в каких объёмах код/картинки могут быть использованы и что станет возможно автоматически генерировать сопоставимые по качеству код/картинки. Вангую что в ближайший год начнут распространяется новые виды лизензий которые будут копиями MIT/CC/Apache но с припиской что тренировать на этом нельзя. Как именно это будет сформулировано - очень интересно. Думаю что BigScience RAIL - это первая ласточка AI-aware лицензий.

1. В принципе уровень образованности в плане opensouce лицензий очень низок. Не все понимают разницу даже между MIT и GPLv3, но хуже то что зачастую на лицензии вообще не обращают внимания. Не исключаю что в LAION-5B может находиться много картинок которые не позволяют свое использование без разрешения автора. И если так и окажется, всем будет больно.

3.4K viewsVlad Lialin, edited 15:26

Открыть/Комментировать

2022-08-13 20:12:27

Новости NLP одной строкой #8

1. AI Art and Reliable Pretrained Language Models — The Gradient о DALL-E, больших моделях и всему тому что вы любите.
1. В paperspace теперь можно бесплатно попробовать IPU в ноутбуках (это как TPU, но не от гугла а от graphcore). Вот тут туториал. Выглядит кривовато, но интересно.
1. Efficient Training on a Single GPU — отличный туториал по производительности. Отлично подходит и для новичков и для тех кто уже хорошо знаком с pytorch. Начинают с простых вещей вроде gradient accumulation и заканчивают bf16 и Deepspeed Zero.
1. Рассказ о том как TensorFlow модельку ускоряли с помощью XLA. В 1000 раз быстрее eager, в 5-10 раз быстрее pytorch при семплировании (но медленнее pytorch при beam search). Коротко: фиксируйте шейпы батчей, используйте tf.function и jit.compile.
1. DP-Transformers — тренировка трансформеров с differential privacy от Microsoft.
1. Google Universal Image Embeddings Challenge — задачка на Kaggle по retreival схожих изображений от гугла. Обещают интересный датасет в котором сочетается куча различных доменов — от фотографий одежды до мемов.
1. GLM-130B — en-ch моделька на 130B праметров. Говорят что зирошотит лучше BLOOM, OPT, и GPT-3.
1. Data Science Pet Projects — статья на хабре о том зачем и как делать пет-проекты. Очень наболевшая для меня тема — рекомендую.
1. Мега простое объяснение как писать свои декораторы в питоне

3.0K viewsVlad Lialin, 17:12

Открыть/Комментировать

2022-08-12 21:03:53

BlenderBot 3: лучший в мире чатбот (by Meta)

Встречайте третью версию чатбота от лидера в сфере Conversational AI! В нём собраны все последние разработки фейсбука:
- Умение гуглить.
- Долговременная память фактов о себе и юзере.
- Safety (не грубит, к суициду не приглашает).

Представлены сразу три версии: 3B, 30B, 175B. Последние две основаны на языковой модели OPT. Веса и код выложены в открытый доступ, поболтать с ботом можно тут.

Статья, GitHub, блог, бот

2.0K viewsVlad Lialin, 18:03

Открыть/Комментировать

2022-08-11 05:40:57

Новости NLP одной строкой #7

1. Поддержка int8 для всех моделей в Transformers . Обещают есть в 4 раза меньше памяти при минимальных потерях в качестве. Сейчас в бете, скоро обещают статью и релиз. Подробнее тут.
1. Графовые сети не нужны, трансформеры могут отлично решать графовые задачи, если использовать правильный метод эмбеддинга.
1. Модель Atlas это такой RETRO, но где более правильно тюнят и retreiver и language model. Atlas-11B обходит PALM-540B на QA задаче. Вообще в статье очень хороший анализ того как правильно варить retreival-augmented модели.
1. Интересная статья Meta AI о том как обучать conversational модель после деплоя.
1. Branch-Train-Merge — забавный метод где в начале тренируют кучу не очень больших LM на разных доменах а потом их ансамблируют. В результате обошли GPT-3.
1. Multiplying Matrices Without Multiplying — кажется я уже когда-то видел статю с таким названием, но всё равно забавная идея. Предлагают хитрый способ ускорения матричного умножения который не требует операций умножения (которые для процессора гораздо дороже сложения).
1. Робастность трансформеров и CNN на vision задачах на удивление близка. Вообще забавно смотреть на то что уже почти два года пошло после ViT, на CNN так и не сдают.

3.3K viewsVlad Lialin, 02:40

Открыть/Комментировать

2022-08-04 07:54:48

Анонсировали Private Hub
huggingface.co/blog/introducing-private-hub

Это биг дил для Huggingface и для индустрии. По сути последние несколько лет HF строила не только свои библиотеки, но огромную платформу которая умеет хостить, версионировать, и, самое главное – удобно работать с датасетами и предобученными моделями. А Transformers и Datasets приучили разработчиков к этой экосистеме.

Если вы работали в больших компаниях, вы знаете насколько странными, неудобными и устаревшими является большинство внутренних подобных продуктов. Даже в FAANG все далеко не так хорошо, ибо легаси.

Теперь каждая компания может хостить приватную версию Hub для себя. Она включает модельки, датасеты, AutoTrain, Spaces, discussions, и Inference API.

Не думаю что сейчас все ломанутся их покупать, но парочка больших клиентов может гарантировать что сможет остаться с нами надолго и продолжать нас радовать удобными тулзами. Очень рад за ребят.

4.1K viewsVlad Lialin, edited 04:54

Открыть/Комментировать

2022-08-03 06:52:30