Получи случайную криптовалюту за регистрацию!

​​Разделяй и определяй, или Кто автор «Сна в красном тереме» # | Системный Блокъ

​​Разделяй и определяй, или Кто автор «Сна в красном тереме»
#philology

«Сон в красном тереме» — один из «четырех великих романов Китая». В нем повествуется о двух ветвях аристократической семьи Цзя и её постепенном упадке.

Оригинальная версия Цао Сюэциня содержит 80 частей, однако в 1791 году было опубликовано новое издание Гао Э из 120 частей. До сих пор ведутся дискуссии о том, сколько авторов у «Сна в красном тереме».

Поиски истинного автора

Метод Дельты Бёрроуза применяется для установления или уточнения авторства произведений.

Дельта представляет каждый текст в виде списка частотностей скольки-то (N) самых частотных слов — обычно берут от 100 и более слов. Таким образом текст становится вектором в N-мерном пространстве. Затем между этими векторами текстов измеряются расстояния — с помощью обычных геометрических мер близости. На основе этих расстояний и устанавливается наиболее вероятное авторство. Универсальность метода была многократно подтверждена на материале разных жанров, языков и эпох. В том числе на китайских текстах.

Если разложить главы согласно алгоритму кластеризации, видно что первые 80 глав наименее схожи с позднее опубликованными. Но есть исключение: главы 10 и 11, а так же 6 и 67 (из первой части) объединяются на первом шаге друг с другом, а уже на втором — с главами второй части. Возможные причины: неточный результат Дельты, большое количество имен собственных, редактура второго автора. Последнее проверяется с помощью тематического моделирования.

Тематическое моделирование

Для проверки результатов Дельты использовали версию романа, наиболее близкую к ранним изданиям.
• Предварительная обработка — токенизация и разделение. Это важно для разделения текста на слова, так как границы не обозначены пробелами.
• Формирование списка из стоп-слов — слова, которые нельзя интерпретировать.
• Определение тем — всего 50. Выходные данные свели в соответствии с главами.
• Визуализация — согласно соотношению тем с главами. Ось X – темы, ось Y – главы; красная линия разделяет первые 80 частей и последние 40.
• Распределение слов внутри темы — слова не связаны определенным мотивом.

Метод Дельты Бёллроуза не ошибся: действительно, главы 11 и 67 отличаются от первоначального текста романа. Отличаются не только именами персонажей или сюжетом, присутствуют и стилистические различия. С большей вероятностью, главы 11 и 67 отредактировал Гао Э.

https://sysblok.ru/philology/razdeljaj-i-opredeljaj-ili-kto-avtor-sna-v-krasnom-tereme/

Вероника Ганеева