2022-07-28 18:57:57
#ideas #dataset #nlp #lingtrain
Делаем корпус парафраз
Если выровнять два текста на разных языках, то получится
параллельный корпус. Если выравнивать тексты на одном языке, — то
корпус парафраз (предложений, имеющих один смысл, но написанных по разному).
Пришла в голову идея по использованию lingtrain'а для выравнивания переводов книг на одном языке.
Зачем?
Обычно такие корпуса используют для обучения генеративных моделей переписывать тексты с сохранением смысла, переноса стиля или аугментирования.
Кроме того, так как это не просто тексты, а профессиональные художественные переводы, то и сам корпус будет представлять из себя интерес (можно будет, например, проанализировать разницу между переводами
Норы Галь и современными переводчиками).
Если к нему добавить еще и оригинальный текст, то получится референсный словарь для переводчиков с несколькими вариантами.
Из плюсов видится то, что книг для выравнивания много — классика и популярные произведения часто переводятся по нескольку раз разными переводчиками. Предложения получаются очень разнообразными (иногда даже слишком), так как каждый переводчик имеет свой неповторимый стиль.
Последний пункт может являться и минусом, так как некоторые переводчики склонны чересчур обогащать текст. На это надо обратить внимание перед выравниванием.
P.S. Попробовал на русских переводах Агаты Кристи, получается довольно неплохо.
GitHub c выравнивателем | agata.tmx
500 viewsedited 15:57