3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Mu | Machinelearning

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Multi-Dialect Corpus for Speech Representation Disentanglement

A large-scale speech corpus to facilitate the research of speech representation disentanglement.

3D-Speaker - это набор инструментов с открытым исходным кодом и крупномасштабный корпус речи, для мультимодальной проверки дикторов, распознавания дикторов и разделение дикторов.

3D-Speaker содержит более 10 000 дикторов, каждый из которых одновременно записывается несколькими устройствами, расположенными на разных расстояниях, а некоторые дикторы говорят на нескольких диалектах.

Github: https://github.com/alibaba-damo-academy/3D-Speaker

Paper: https://arxiv.org/abs/2306.15354v1

Dataset: https://3dspeaker.github.io/

ai_machinelearning_big_data

Machinelearning

👨‍🎨 69.64K
Технологии

Разбираем лучшие open source новинки из мира ml, код, вопросы с собеседований, публикуем открытые курсы и гайды. Пер�...

Join
▲ Vote (1)

3D-Speaker: A Large-Scale Multi-Device, Multi-Distance, and Mu | Machinelearning

Login