Получи случайную криптовалюту за регистрацию!

#ideas #dataset #nlp #lingtrain Делаем корпус парафраз Если | градиент обреченный

#ideas #dataset #nlp #lingtrain

Делаем корпус парафраз

Если выровнять два текста на разных языках, то получится параллельный корпус. Если выравнивать тексты на одном языке, — то корпус парафраз (предложений, имеющих один смысл, но написанных по разному).

Пришла в голову идея по использованию lingtrain'а для выравнивания переводов книг на одном языке.

Зачем?

Обычно такие корпуса используют для обучения генеративных моделей переписывать тексты с сохранением смысла, переноса стиля или аугментирования.

Кроме того, так как это не просто тексты, а профессиональные художественные переводы, то и сам корпус будет представлять из себя интерес (можно будет, например, проанализировать разницу между переводами Норы Галь и современными переводчиками).

Если к нему добавить еще и оригинальный текст, то получится референсный словарь для переводчиков с несколькими вариантами.

Из плюсов видится то, что книг для выравнивания много — классика и популярные произведения часто переводятся по нескольку раз разными переводчиками. Предложения получаются очень разнообразными (иногда даже слишком), так как каждый переводчик имеет свой неповторимый стиль.

Последний пункт может являться и минусом, так как некоторые переводчики склонны чересчур обогащать текст. На это надо обратить внимание перед выравниванием.

P.S. Попробовал на русских переводах Агаты Кристи, получается довольно неплохо.

GitHub c выравнивателем | agata.tmx