2021-09-20 17:58:06
Generative Spoken Language Modeling
Завдяки мовним моделям типу
BERT,
RoBERTa та
GPT-3, ми маємо механізми генерації тексту, класифікації емоцій та аналізу сентименту. Прикро те, що дані архітектури працюють з тектовим представленням мови, в той час як люди схильні ще й розмовляти. Та й не для кожної мови існують текстові набори даних, що є достатніми для тренування таких моделей.
Нова розробка Facebook AI, GSLM, дозволяє працювати напряму з аудіо сигналом без додаткової розмітки чи тексту. Тренуючись по
unsupervised принципу, модель може вчитися на подкастах, аудіокнигах, чи будь-яких інших звукових джерелах. Технологія дозволяє аналізувати людську мову без шару ASR, а також дає змогу обробляти повний спектр експресивності мови: моделювати та аналізувати тональність, емоції, висоту голосу, тощо.
Приклади роботи нової моделі можна знайти за посиланням.
943 views14:58