2021-01-14 12:00:47
ТРЕТЬЯ НЕ ЛИШНЯЯДовелось тут прочитать размышления одного человека на тему «странной» статистики смертности от коронавируса в Москве. (Дело было несколько дней назад; может, сейчас она уже перестала быть «странной», сути это в любом случае не меняет.)
Претензии мыслителя, к которому как нельзя лучше подходит определение «широко известный в узких кругах», вызвал вот какой факт: с момента начала второй волны число-де умерших каждый день находится в пределах от 71 до 77, при этом за все время нет ни одной пары соседних дней, когда бы цифры совпадали.
Мыслитель многозначительно сообщил общественности, что вероятность такого совпадения составляет менее 1 процента, — и благодарная общественность поддержала его смеющимися и плачущими лайками.
Этот случай показался нам любопытным. Во-первых, мы не очень понимаем, как там высчитывал мыслитель свой сенсационный 1 процент и почему он не потрудился сообщить об этом публике. Дело в том, что у набора чисел как такового не может быть никакой вероятности. Вероятность может быть у получения подобного набора чисел в рамках какой-то модели генерации данных, при условии того, что некая гипотеза верна. Например, если мы возьмем номера домов на какой угодно улице, то соседние числа там тоже не будут повторяться — разве это удивительно? Повторимся, нам, к сожалению, осталось совершенно неясно, в чем именно заключалась гипотеза мыслителя.
Ну да бог с ним, предположим, что мыслитель исходил из модели нормального распределения. При этой модели, действительно, набор цифр, в котором — при соответствующей длине и соответствующих пределах варьирования — соседние элементы бы не повторялись, можно получить лишь с исчезающе малой вероятностью 0.0002.
Предположим, что альтернативная гипотеза мыслителя состояла в том, будто власти Москвы используют для генерации данных простейший компьютерный алгоритм (на что как будто указывают всякие вербальные интеллигентские ужимки и подмигивания). В случае правдивости этой гипотезы вероятность получения такого набора цифр равняется, разумеется, единице: алгоритм ошибок не делает.
Это, однако, еще не конец истории. Мы не можем сравнивать 0.0002 и 1 напрямую. Чтобы оценить, укрепляют ли наблюдаемые данные веру в одну из гипотез, нам нужно применить байесовское правило и умножить каждую из этих вероятностей на априорную вероятность самих гипотез, после чего нормализовать.
Допустим, мы проявляем чудеса патриотизма и изначально отводим лишь 0.001 на то, что московские власти используют генератор случайных чисел в таком чувствительном и грустном деле. Априорная же вероятность нормального распределения пусть будет очень высока — 0.8.
После применения байесовского правила апостериорные вероятности обеих гипотез выглядят так: нормальное распределение — 0.14, генератор случайных чисел — 0.86.
Выходит, мыслитель был прав? Нет, не выходит.
Здесь мы наконец добрались до самого интересного. Грандиозный недостаток всей предшествующей аргументации заключается в том, что мы произвольно ограничили круг возможных гипотез всего лишь двумя. Между тем это ни из чего не следует и ничем не обсновывается. Объясняющих реальность гипотез может быть сколько угодно — и если мы додумались только до двух, это проблема наших мозгов, а не реальности.
Вообразим, что мы допускаем на секунду существование еще одной, третьей гипотезы. Мы ничего не знаем про нее, но предполагаем, что, в случае если она верна, вероятность получения наблюдаемых данных будет не меньше, чем в случае если верна гипотеза о генераторе случайных чисел. Что касается априорной вероятности, скромно отведем на эту третью гипотезу то, что осталось от первых двух (1-0.8-0.001 = 0.199).
Повторим теперь всю процедуру с байесовским правилом и вычислением апостериорных вероятностей для всех трех гипотез: нормальное распределение — 0.001, генератор случайных чисел — 0.004, третья гипотеза — 0.995.
Следовательно, единственное, о чем говорят полученные цифры, — это о том, что оба наших первоначальных объяснения — говно, а истина тут и не ночевала.
Задать вопрос @UchenyjBot
2.0K views09:00