2022-05-11 13:03:01
#изучениеязыка #алгоритмы
№22
В посте №20 обсуждался вопрос об интенсивности использования тех или иных слов в повседневной речи на примере расшифровки диалогов немецких сериалов и фильмов за 2009 год. На основе этой расшифровки строился рейтинг самых популярных слов. Оказалось, чтобы понимать около 85% всех диалогов в проанализированных фильмах и сериалах, нужно знать всего 1000 слов.
Теперь бы хотелось попробовать оценить на основе проведенного анализа, какие слова входят в среднем в лексикон человека, изучающего иностранный язык. Для этого сделаем несколько предположений. Во-первых, предположим, что человек изучает немецкий язык только лишь при помощи просмотра немецких фильмов и сериалов за 2009 год. Это довольно смелое предположение, однако можно предполагать, что лексика этих фильмов и сериалов достаточно близко характеризует распределение по популярности слов в повседневной речи. Второе предположение заключается в том, что человек при встрече с новым словом переводит его и раз и навсегда запоминает его значение. В реальности, конечно, это совершенно не так, однако это предположение делается для упрощения модели. В дальнейшем модель запоминания слов может уточняться, например, с помощью кривой забывания Эббингауза (https://ru.wikipedia.org/wiki/Кривая_забывания).
Итак, проведем моделирование процесса обучения человека немецкому языку. В процессе моделирования генерируются слова слова согласно частоте, приведенной на рисунке в посте №20. Каждый раз, когда человек слышит новое слово, оно пополняет его лексикон. Такое моделирование можно провести с целью усреднения для тысячи человек и посмотреть, с какой вероятностью в среднем люди знают то или иное слово. Понятно, что чем больше число слов, которое было сгенерировано в процессе моделирования, тем больше лексикон. На рисунке ниже представлены вероятности того, что слово с определенным индексом находится в лексиконе. На рисунке представлены три кривые для 1000, 10 000 и 100 000 тысяч слов, которые были сгенерированы в процессе моделирования.
45 views10:03