GigaAM — открытая модель для обработки речи
SberDevices представили Giga Acoustic Model — семейство моделей для обработки звучащей речи, обученных на русском языке.
Что входит в семейство: GigaAM: аудиоэнкодер на 240 миллионов параметров, базовая модель, подходящая для дообучения на другие задачи
GigaAM-CTC: лучшая открытая модель распознавания речи на русском языке (допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с другими открытыми решениями)
GigaAM-Emo: модель определения эмоций, продемонстрировала лучший результат на крупнейшем датасете Dusha среди известных моделей
Веса моделей и примеры использования находятся в открытом доступе.
Читать подробный разбор на Хабре