Получи случайную криптовалюту за регистрацию!

LANGUTI#Blog

Логотип телеграм канала @languti_blog — LANGUTI#Blog L
Логотип телеграм канала @languti_blog — LANGUTI#Blog
Адрес канала: @languti_blog
Категории: Бизнес и стартапы
Язык: Русский
Количество подписчиков: 38

Рейтинги и Отзывы

4.00

3 отзыва

Оценить канал languti_blog и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

2

4 звезд

0

3 звезд

0

2 звезд

1

1 звезд

0


Последние сообщения

2022-05-12 13:03:01 На графике зеленым цветом изображен результат моделирования. Фиолетовыми кружками, соединенными прямыми, данные о моем словарном запасе. Данные о моем словарном запасе имеют достаточно сильный разброс (его можно было бы уменьшить, промаркировав все 10 000 слов, однако это заняло бы очень много моего времени), однако даже на них видно, что моделирование достаточно неплохо описывает тенденцию изменения доли известных слов с ростом положения в рейтинге.

В дальнейшем я планирую использовать разработанную модель для создания экспересс-тестов на объем словарного запаса, а также для разработки алгоритма рекомендаций слов для ускоренного изучения лексики.
53 views10:03
Открыть/Комментировать
2022-05-12 13:03:01
52 views10:03
Открыть/Комментировать
2022-05-12 13:03:01 #изучениеязыка #алгоритмы
№23

В прошлом посте (№22) посредством моделирования я постарался предсказать распределение вероятности, с которой учащиеся будут знать слово в лексическом рейтинге, отсортированном по популярности. Это было сделано на основе простой модели, симулирующей процесс обучения: каждую итерацию моделирования генерировалось одно немецкое слово согласно его средней частоте появления в разговорной речи, если это слово было до этого неизвестно «виртуальному обучающемся», оно добавлялось в словарный запас. Такое моделирование проводилось для 1000 «виртуальных обучающихся», затем данные о их словарном запасе усредняли для получения искомого распределения вероятности знания слов в лексическом рейтинге. Общий итоговый словарный запас «виртуальных обучающихся» уменьшался или увеличивался путем варьирования количества итераций моделирования, на которых генерировались новые слова. Если генерировалось очень много слов «виртуальные обучающиеся» знали почти все слова, если мало – почти ничего.

Основной целью проведенного моделирования является определение вероятности, с которой реальный изучающий немецкий язык знает то или иное слово. Для первичной верификации модели я решил проверить работу алгоритма на себе. Из использованного в моделировании списка из 10 000 слов я последовательно генерировал 1 000 слов. При генерации нового слова я честно отвечал на вопрос, знаю я его или нет. После этого я разбил промаркированные мной 1 000 слов на 100 групп, состоящих каждая из 10 слов. В каждой группе я посчитал долю слов, которых я знаю, из построил зависимость доли известных мне слов от максимального индекса слова в каждой из групп. Вопрос стоял в том, сможет ли моделирования при каком-либо числе генерации слов хотя бы примерно воспроизвести данные, полученные мной? Оказалось, что да, и лучший результат дало моделирование с 40 000 генераций слов.
49 views10:03
Открыть/Комментировать
2022-05-12 13:03:01
41 views10:03
Открыть/Комментировать
2022-05-11 13:03:01
45 views10:03
Открыть/Комментировать
2022-05-11 13:03:01 #изучениеязыка #алгоритмы
№22

В посте №20 обсуждался вопрос об интенсивности использования тех или иных слов в повседневной речи на примере расшифровки диалогов немецких сериалов и фильмов за 2009 год. На основе этой расшифровки строился рейтинг самых популярных слов. Оказалось, чтобы понимать около 85% всех диалогов в проанализированных фильмах и сериалах, нужно знать всего 1000 слов.

Теперь бы хотелось попробовать оценить на основе проведенного анализа, какие слова входят в среднем в лексикон человека, изучающего иностранный язык. Для этого сделаем несколько предположений. Во-первых, предположим, что человек изучает немецкий язык только лишь при помощи просмотра немецких фильмов и сериалов за 2009 год. Это довольно смелое предположение, однако можно предполагать, что лексика этих фильмов и сериалов достаточно близко характеризует распределение по популярности слов в повседневной речи. Второе предположение заключается в том, что человек при встрече с новым словом переводит его и раз и навсегда запоминает его значение. В реальности, конечно, это совершенно не так, однако это предположение делается для упрощения модели. В дальнейшем модель запоминания слов может уточняться, например, с помощью кривой забывания Эббингауза (https://ru.wikipedia.org/wiki/Кривая_забывания).

Итак, проведем моделирование процесса обучения человека немецкому языку. В процессе моделирования генерируются слова слова согласно частоте, приведенной на рисунке в посте №20. Каждый раз, когда человек слышит новое слово, оно пополняет его лексикон. Такое моделирование можно провести с целью усреднения для тысячи человек и посмотреть, с какой вероятностью в среднем люди знают то или иное слово. Понятно, что чем больше число слов, которое было сгенерировано в процессе моделирования, тем больше лексикон. На рисунке ниже представлены вероятности того, что слово с определенным индексом находится в лексиконе. На рисунке представлены три кривые для 1000, 10 000 и 100 000 тысяч слов, которые были сгенерированы в процессе моделирования.
45 views10:03
Открыть/Комментировать
2022-05-11 13:03:01
41 views10:03
Открыть/Комментировать
2022-05-07 13:03:01 #история #финансирование
№21

Итак, последний мой пост про историю развития проекта оборвался на том, что мы подали заявку на участие в акселерационной программе «Архипелаг 20.35/2121» (https://ai.leader-id.ru). Эта акселерационная программа была предназначена для широкого круга участников со всей России, которые решили представить на нем свои проекты. При этом этап развития проекта, который мог поучаствовать в этой акселерационной программе, ни имел значения: принимались проекты как на ранней стадии пред-MVP, так и солидные проекты, которые собирались уже расширяться на международный рынок. Также каждому проекту в зависимости от его тематики выделялся свой трек. Треки отличались между собой темами лекций, набором менторов и экспертов. Наш проект определили на трек «социальное предпринимательство», хотя сейчас я понимаю, что ему скорее бы подошел «EdTech», однако на том этапе развития проекта это не имело большого значения. В рамках акселерационной программы планировалось проведения двух этапов: подготовительного и этапа питчей. Подготовительный этап включал в себя набор лекций от экспертов широкого спектра областей, например, с лекцией «Краудфандинг как метод пиара проекта» выступал один из руководителей крупнейшего в России краудфандинг-сервиса «Планета.ru» (https://planeta.ru). Подготовительный этап включал в себя еженедельное общение с индивидуальным ментором, целью которого было помочь в развитии проекта, а также личное общение с экспертами из разных областей. К примеру мы пообщались о нашем проектом с директором по управлению инвестициями ассоциации импакт-инвесторов Евой Андрияш (https://impact-investor.org). Второй этап, этап питчей (от английского pitch – подача), предполагал презентацию проекта в трех различных форматах: перед потенциальными инвесторами, перед коммерческими партнерами и перед конкурсной комиссией фонда содействия инновациям (https://fasie.ru).
55 views10:03
Открыть/Комментировать
2022-05-07 13:03:01
50 views10:03
Открыть/Комментировать
2022-04-29 13:03:01 Оказывается, что всего 1000 первых в нашем рейтинге слов встречаются при просмотре фильмов и TV-шоу в 85.5 % случаев, 10 000 слов – в 97.2% случаев. Таким образом, если иметь в активном вокабуляре всего 1000 самых популярных слов можно понимать подавляющее большинство диалогов в фильмах и сериалах, при активном вокабуляре в 10 000 самых популярных слов – почти все.


Проведенный выше анализ лексики фильмов и сериалов универсален и может быть использована для анализа необходимого лексикона для понимания мемуаров любой из областей знаний. Давайте представим человека, который решил выучить французский язык только для того, чтобы понимать научные труды известного французского микробиолога Луи Пастера. Этому человеку точно не понадобятся такие слова, как роботопылесос или сварка, однако будет необходимым слово брожение. Для подбора необходимого словарного запаса для целей этого человека, можно составить рейтинг используемых слов в научных работах Луи Пастера, и определить, какие слова покрывают большую часть лексикона, который используется в работах известного ученого.
63 views10:03
Открыть/Комментировать