2022-05-23 06:09:12
Сколько информации в ваших данных? Ответ от MIT
Информация и данные – это разные вещи. Не все данные одинаковы. Но сколько информации может содержать любой фрагмент данных? Впервые этот вопросы был раскрыт в статье 1948 года «Математическая теория коммуникации» почетного профессора MIT Клода Шеннона. Одним из прорывных результатов Шеннона является идея энтропии, которая позволяет количественно оценить количество информации, присущей любому случайному объекту, включая случайные величины, которые моделируют наблюдаемые данные. Результаты Шеннона заложили основы теории информации и современных телекоммуникаций. Концепция энтропии также оказалась центральной в информатике и машинном обучении.
Но использование формулы Шеннона может быстро стать неразрешимым с вычислительной точки зрения. Это требует точного расчета вероятности данных и всех возможных способов возникновения данных в рамках вероятностной модели. Это становится проблемой в реальных случаях, например, медицинское тестирование, где положительный результат теста является результатом сотен взаимодействующих переменных, и все они неизвестны. Имея всего 10 неизвестных, у данных уже есть 1000 возможных объяснений. С несколькими сотнями возможных объяснений больше, чем атомов в известной Вселенной, что делает вычисление энтропии абсолютно неразрешимой проблемой.
Исследователи MIT разработали новый метод оценки приближений ко многим информационным величинам, таким как энтропия Шеннона, с помощью вероятностного вывода. Работа представлена в статье конференции AISTATS 2022. Ключевой вывод в том, чтобы вместо перечисления всех объяснений, использовать алгоритмы вероятностного вывода. Это поможет сначала сделать вывод, какие объяснения вероятны, а затем использовать их для построения высококачественных оценок энтропии. Доказано, что этот подход, основанный на выводах, может быть намного быстрее и точнее, чем предыдущие подходы.
Оценка энтропии и информации в вероятностной модели принципиально сложна, поскольку часто требует решения многомерной задачи интегрирования. Во многих предыдущих работах были разработаны оценки этих величин для некоторых особых случаев, но новые оценки энтропии через вывод (EEVI) предлагают первый подход, который может дать точные верхние и нижние границы для широкого набора величин, основанных на теории информации. Верхняя и нижняя границы означают, что, хотя мы не знаем истинной энтропии, мы можем получить число, которое меньше ее, и число, которое выше ее. Разница между верхней и нижней границами дает количественное представление о том, насколько мы должны быть уверены в оценках. Используя больше вычислительных ресурсов, можно свести разницу между двумя границами к нулю, что «сжимает» истинное значение с высокой степенью точности. Также можно составить эти границы, чтобы сформировать оценки многих других величин, которые говорят, насколько информативны разные переменные в модели друг для друга.
Новый метод особенно полезен для запроса вероятностных моделей в таких областях, как медицинская диагностика. Например, решать новые запросы, используя богатые генеративные модели для сложных заболеваний, ранее изученных медицинскими экспертами.
https://news.mit.edu/2022/estimating-informativeness-data-0425
288 views03:09