2021-05-21 12:53:58
Друзья, и еще одна корпоративная, но важная новость. Команда SberDevices сегодня открывает доступ к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных, а также обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой.
Вы можете использовать его абсолютно открыто, мы постарались сделать максимально удобную лицензию для разработчиков в области речевых технологий.
Кроме самих данным мы так же делаем доступной обученную на них модель распознавания речи. Она обучалась с использованием мощностей суперкомпьютера «Кристофари» от Сбера на 16 видеокартах Nvidia Tesla V100 в течение 8 дней. Доступная для использования акустическая модель QuartzNet 15x5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos.
Мы надеемся, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологий.
https://github.com/sberdevices/golos
510 viewsDenis Afanasev, 09:53