Получи случайную криптовалюту за регистрацию!

#notes #nlp #books NLP против Тарантино Попалась на глаза | градиент обреченный

#notes #nlp #books

NLP против Тарантино

Попалась на глаза книжка "The Secret Life of Pronouns". В ней при помощи инструментов обработки текста автор изучает аспекты использования функциональных слов.

Это такие слова, которые обозначают отношения между словами, но сами по себе не несут почти никакой смысловой нагрузки (к таким можно отнести предлоги, частицы, артикли и союзы).

Так вот, изучив сценарии Тарантино, Пеннебейкер приходит к выводу, что героини в фильмах этого режиссера разговаривают как мужчины. Затем он идет дальше и видит, что и сам "The Bard", а другими словами Шекспир, хоть и мастерски описывал сложные жизненные ситуации женщин, тоже использует функциональные слова в мужской стилистике.

Думаю, из этого можно вынести не только то, что Тарантино и Шекспир "fails at getting inside the minds of women", но и то, что в тексте заложена информация об авторе — пол, возраст, настроение, стиль, актуальность.

Это значит, что можно не только определять эти показатели, но и извлекать их и переносить на другие тексты. Например, сделать так, чтобы конкретный текст выглядел, как будто его написала женщина-ученый среднего возраста или школьник 19-го века.

Идея не нова и такие исследования есть, но, кажется, что в данной задаче можно более продуктивно использовать ресурс переводов — переводчики работающие над одним текстом могут быть разного возраста и пола. Тем самым мы получаем корпус парафраз, в котором одни и те же предложения написаны в разной стилистике. По-моему, это был бы полезный ресурс в задаче переноса стиля.