Говорит AI

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 1.04K

Описание канала:

Саммари статей про open-domain диалоговые системы и NLP вокруг них от команды Replika (replika.ai)

▲ Vote (1)

Рейтинги и Отзывы

2.33

3 отзыва

Оценить канал govorit_ai и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 2

2021-12-01 11:27:26 Привет! Я ушел из Реплики (проработал там почти 7 лет и построил один из лучших в мире Conversational AI для десятков миллионов пользователей), поднял инвестиции от Питера Тиля, Давида Яна, кофаундеров Тиндера и запустил новый AI стартап.

Сегодня релизим наш апп Botify на Product Hunt! Botify позволяет создавать фотореалистичные говорящие аватары. Аватар моргает, улыбается, шевелит губами и орно чатится. Более того, у каждого аватара можно настроить характер и интересы, и таким образом получить какую угодно персону. Хотели поговорить с Маском про колонизацию Марса? Может у Иисуса спросить про NFT хайп? Или загрузить фотку своей бывшей и . По сути Botify - это микс дипфейков и чатботов, интерактивные Digital humans.

Из тех жира - под капотом диалоговая GPT-Neo на 2.7B параметров, разные BERT'ы, first-order-motion, Wav2Lip, Super Resolution, face restoration, Stylegan, WaveNet, etc. Мы используем мультимодальный подход комбинируя генеративный текст, аудио и видео для создания интерактивных Digital Humans. Все работает около риал-тайм, чек ит аут.

Нам очень важна ваша поддержка на продакт-ханте и ваш честный фидбек Заценить и поддержать апвоутом/комментом можно тут - https://www.producthunt.com/posts/botify-ai

3.5K viewsArtem R, 08:27

Открыть/Комментировать

2021-05-19 10:36:44 Channel photo updated

07:36

Открыть/Комментировать

2021-05-19 10:23:57

541 viewsArtem R, 07:23

Открыть/Комментировать

2021-05-19 10:23:46 Google презентовал свою новую наработку в Conversational AI под названием LaMDA.
Blogpost | Video

Судя по посту первого автора GShard сеть представляет из себя огромный MoE transformer на сотни миллиардов (триллионы?) параметров. Тренировали скорее всего на своем внутреннем огромном диалоговом датасете, про который гугл упоминал в Meena - The Meena model has 2.6 billion parameters and is trained on 341 GB of text, filtered from public domain social media conversations.

Освежить в памяти что есть GShard можно здесь же в канале.
Про Meena тоже можно почитать саммари.

В опенсорсе сеть скорее всего не дождемся, так как Гугл даже Meena начала 2020 года не выложил.

На демо видно, что сеть способна вести очень консистентный, фактологически корректный и увлекательный диалог на заданную тему. Жаль, что простым смертным без кластера в тысячи TPU и террабайта диалогов такую сеть пока не получить.

817 viewsArtem R, edited 07:23

Открыть/Комментировать

2021-03-17 13:27:16 Всем привет! На этот раз без пейпера:

Думаю, в этом канале сидит много талантливых ML инженеров с интересом к NLP — а мы в нашу замечательную AI команду Replika ищем Senior NLP Research Engineer развивать наш open-domain диалог на миллионах пользователей!

Все подробности по ссылке — https://www.notion.so/Senior-NLP-Research-Engineer-Replika-fa43826e6e0f4dc1a13e2b69c3c6f6ef

Пишите мне напрямую в телеграм @nikitosprivet

1.6K viewsNikita, 10:27

Открыть/Комментировать

2021-01-19 08:09:31

1.6K viewsArtem R, 05:09

Открыть/Комментировать

2021-01-19 08:09:09 В качестве корпуса для предобучения взяли C4 - прочищенный common crawl на 180 миллиардов токенов. Switch Transformer учили как Masked Language Model, маскируя 15% выходных токенов, по сути BERT-like трейн. Помимо кроссэнтропийной лосс-функции добавили еще один лосс, который форсит роутер равномерно раскидывать токены по имеющимся экспертам, чтобы не происходило того, что одни эксперты перегружены вычислениями, а другие недогружены.

Хаки для улучшения сходимости и качества:
- selective precision. Раньше большие MoE модели обучали float32, а с пониженной точностью обучение было нестабильным. Тут показали, что можно всю модель учить в bfloat16 и делать каст во float32 только для инпутов роутера. В результате все all-to-all операции по агрегации тензоров делаются в bfloat16, и мы сильно сокращаем косты на коммуникацию между девайсами.

- инициализация. Дефолтный трансформеры инициализируют из нормального распределения с mu = 0, sigma = sqrt(s/n), где n - кол-во входных юнитов, s - скейлинг фактор. Оказалось важным уменьшить s в 10 раз и инициализировать веса меньшими значениями, после этого сеть сходится существенно лучше.

- expert dropout. Для регуляризации, можно использовать стандартный dropout = 0.1 на всех слоях и будет ок. Но если на слоях с экспертами dropout учеличить до 0.4, то качество чуть бустанется.

Для сравнения эффективности Switch Transformera, в качестве бейзлайна выбрали T5 - большой dense трансформер от гугла, который выучили на том же корпусе C4.

Результаты:
1. Чем больше добавляем экспертов, тем более sample efficient получается обучение + модель сходится к лучшим значениям. Также сравнили с классическим dense трансформером в виде T5. Показали что при одинаковом вычислительном бюджете (FLOPs per token) Switch transformer в 7 раз быстрее достигает качества, которое получается при обучении T5-base.

2. Switch Transformer хорошо файнтюнится на даунстрим NLP таски и бьет T5 бейзлайны почти везде - саммаризация, классификация, question answering, GLUE, SuperGLUE, etc.

3. Модель эффективно дистилируется. Взяли Switch-Base на 3.8B параметров и дистилировали в бейзлайн T5 на 223М параметров. Для эффективной дистиляции использовали два хака а) у модели-ученика все слои, за исключением экспертов, инициализировали весами из модели учителя б) при обучении дистилированно модели использовали микс из софт-лосса (для обучения ученика используем логиты от учителя), так и хард лосса(используем ground trouth лейблы). Дистилированная версия оказывается по качеству сильно лучше, чем такая же T5 выученная с нуля.

4. Улучшение на 101 языке. Показали, что есть сильное улучшение по перплексити как на high, так и на low resources языках. В качестве корпуса взяли мультиязычный C4 (mC4) и сравнили с мултиязычным T5 бейзлайном (mT5).

5. Можно учить огромные модели в триллионы параметров. Выучили Switch-C на 1.5T параметров, Switch-XXL на 395B, и бейзлайн T5-XXL на 13B. По качеству Switch-XXL оказался лучше чем Switch-C, несмотря на то, что последний в 4 раза больше. Это связано с тем, что хоть в Switch-XXL всего 64 эксперта (против 2048 в Switch-C), но каждый эксперт сильно жирнее + у всего трансформера больше слоев и аттеншн голов. Еще было замечено, что нет нестабильности в обучении Switch-C, но есть проблемы с Switch-XXL.

Если я не гугл, и у меня нет пода с 2 тысячами TPU, мне нахера все это?
Если вы ресерчер с девбоксом в 4-8 GPU, все равно виден хороший буст по сравнению с аналогичным dense transformer'ом. Можно выучить такой Switch Transformer и дистилировать в более юзабельный dense transformer, получив буст в качестве.

1.1K viewsArtem R, 05:09

Открыть/Комментировать

2021-01-19 08:08:31

775 viewsArtem R, 05:08

Открыть/Комментировать

2021-01-19 08:08:27 Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
https://arxiv.org/abs/2101.03961

TL;DR
Google Brain показали, как можно эффективно скейлить трансформеры до триллионов параметров на основе Mixture of Experts, при этом делать это вычислительно эффективно.

Основной вклад статьи:
- архитектура Switch Transformer на основе Mixture of Experts (MoE)
- демонстрация превосходства по качеству на большом кол-ве NLP задач + 101 языке по сравнению с классическими трансформерами
- простые хаки позволяющие добиться стабильности обучения
- эффективная дистиляция Switch Transformer в модели сильно меньшего размера
- возможность скейлинга модели до 1.5 триллиона параметров

Суть подхода:
За основу взяли стандартный трансформер с аттеншн-механизмом квадратичной сложности. В энкодер блоке трансформера заменили полносвязанную сеть на Mixture of Experts (MoE) + добавили роутер.

Эксперт - это обычная feed forward сеть со своим набором параметров. Для эффективности вычислений каждый эксперт живет на своем отдельном девайсе (TPU/GPU).

Задача роутера - выбрать какому эксперту перенаправить входной токен. Роутер представляет из себя обучаемую матрицу W + софтмакс с количеством классов на выходе равным количеству экспертов. По сути для каждого входного токена роутер предсказывает вероятность того, какому эксперту его перенаправить. Эксперта выбираем как аргмакс от выхода софтмакса.

862 viewsArtem R, 05:08

Открыть/Комментировать

2020-11-14 20:21:05

1.2K views17:21

Открыть/Комментировать