Получи случайную криптовалюту за регистрацию!

Нейросеть Яндекс Браузера обучили переводу видео с китайского | Tech Crunch

Нейросеть Яндекс Браузера обучили переводу видео с китайского языка на русский

Процесс обучения модели выдался не самым простым, поскольку китайский — один из самых сложных и многогранных. Первое, с чем предстояло разобраться, — это собрать датасет для обучения нейросети распозаванию китайской речи. Чтобы разметить большое количество текста и привести его в нужный вид, взяли несколько тысяч часов видео с китайскими субтитрами и отфильтровали их с помощью специального классификатора. Далее, с помощью модели с Hugging Face отобрали субтитры подходящие для обучения модели.

Описанное выше — лишь часть кропотливой и долгой работы. Полученные субтитры нужно ещё правильно разобрать по контексту, а также расставить пробелы между словами, ведь в китайском письме их нет! Подробно о работе над проектом на Хабре написал один из авторов проекта.