Получи случайную криптовалюту за регистрацию!

High-performance self-supervised neural network for speech rec | DataRoot Labs

High-performance self-supervised neural network for speech recognition

Wav2Vec Unsupervised — модель распознавания речи, которая не требует обучения на размеченных наборах данных.

На сегодняшний день технология распознавания речи доступна только для небольшого количества языков. Это связано с тем, что для обучения STT-моделей требуются тысячи часов расшифрованных аудиозаписей, такое количество данных часто бывает недоступно. Wav2Vec-U — метод, не требующий расшифровки данных и имеющий сопоставимую эффективность с нейронными сетями, которые были обучены на 960-ти часах декодированной речи. Таким образом, алгоритм, представленный FAIR, позволяет распознавать речь на редких языках и диалектах. Оценка эффективности Wav2Vec-U показала снижение количества ошибок на 57% по сравнению с предыдущей лучшей self-supervised моделью, она была протестирована на таких языках, как суахили и татарский, которые на данный момент не имеют технологии распознавания речи высокого качества.

Больше деталей разработки в статье