2021-06-04 14:27:12
High-performance self-supervised neural network for speech recognition Wav2Vec Unsupervised — модель распознавания речи, которая не требует обучения на размеченных наборах данных.
На сегодняшний день технология распознавания речи доступна только для небольшого количества языков. Это связано с тем, что для обучения STT-моделей требуются тысячи часов расшифрованных аудиозаписей, такое количество данных часто бывает недоступно.
Wav2Vec-U — метод, не требующий расшифровки данных и имеющий сопоставимую эффективность с нейронными сетями, которые были обучены на 960-ти часах декодированной речи. Таким образом, алгоритм, представленный FAIR, позволяет распознавать речь на редких языках и диалектах. Оценка эффективности Wav2Vec-U показала снижение количества ошибок на 57% по сравнению с предыдущей лучшей
self-supervised моделью, она была протестирована на таких языках, как
суахили и
татарский, которые на данный момент не имеют технологии распознавания речи высокого качества.
Больше деталей разработки в статье
974 viewsedited 11:27