Получи случайную криптовалюту за регистрацию!

#изучениеязыка #алгоритмы №23 В прошлом посте (№22) посредств | LANGUTI#Blog

#изучениеязыка #алгоритмы
№23

В прошлом посте (№22) посредством моделирования я постарался предсказать распределение вероятности, с которой учащиеся будут знать слово в лексическом рейтинге, отсортированном по популярности. Это было сделано на основе простой модели, симулирующей процесс обучения: каждую итерацию моделирования генерировалось одно немецкое слово согласно его средней частоте появления в разговорной речи, если это слово было до этого неизвестно «виртуальному обучающемся», оно добавлялось в словарный запас. Такое моделирование проводилось для 1000 «виртуальных обучающихся», затем данные о их словарном запасе усредняли для получения искомого распределения вероятности знания слов в лексическом рейтинге. Общий итоговый словарный запас «виртуальных обучающихся» уменьшался или увеличивался путем варьирования количества итераций моделирования, на которых генерировались новые слова. Если генерировалось очень много слов «виртуальные обучающиеся» знали почти все слова, если мало – почти ничего.

Основной целью проведенного моделирования является определение вероятности, с которой реальный изучающий немецкий язык знает то или иное слово. Для первичной верификации модели я решил проверить работу алгоритма на себе. Из использованного в моделировании списка из 10 000 слов я последовательно генерировал 1 000 слов. При генерации нового слова я честно отвечал на вопрос, знаю я его или нет. После этого я разбил промаркированные мной 1 000 слов на 100 групп, состоящих каждая из 10 слов. В каждой группе я посчитал долю слов, которых я знаю, из построил зависимость доли известных мне слов от максимального индекса слова в каждой из групп. Вопрос стоял в том, сможет ли моделирования при каком-либо числе генерации слов хотя бы примерно воспроизвести данные, полученные мной? Оказалось, что да, и лучший результат дало моделирование с 40 000 генераций слов.