Получи случайную криптовалюту за регистрацию!

Российские чиновники очень любят не давать данные в публичный | О городах и данных

Российские чиновники очень любят не давать данные в публичный доступ, объясняя это защитой персональных данных и риском террористической угрозы.
Возникает логичный вопрос: а как же чиновники других стран справляются с этими проблемами? Например, в Европе, где действует суровый GDPR, или в Израиле, где риск террористической атаки куда выше, чем в России. И там и там публикуют данные по населению в разрезе кварталов и транспортному потоку по часам и дням. Ответ: синтетические данные.

Синтетические данные (СД) – это сгенерированные алгоритмом данные, которые с одной стороны обладают всеми статистическими параметрами исходной выборки (гипотеза, что средние выборок разные отвергается, сохранены корреляции между переменными итд) с другой стороны, позволяют не раскрывать реальных данных. Помимо цели не раскрывать чувствительные данные их также используют, когда реальных данных мало или они дорого стоят. Генерируют их, например, с помощью нейронных сетей или ABM-моделей. Подробнее про создание СД хорошо описано здесь.

Так вот, госорганы часто прибегают к генерации СД при публикации результатов опросов населении - например когда нужно опубликовать данные по доходу в малонаселенных зонах или указать долю безработных по домохозяйствам. Такие данные считаются конфиденциальными, поскольку могут быть сопоставлены с конкретными семьями и поэтому их заменяют на синтетические. Предполагается, что для аналитических целей их точности достаточно. Например, в этих 2 статьях : здесь и здесь - автор показывает на данных переписи, что использование сгенерированных данных ухудшило точность ( accuracy) модели классификации населения по уровня дохода всего на 2%. При этом восстановить реальные показатели домохозяйств по ним невозможно.

Кажется, что тема интересная и было бы здорово увидеть пример подобных данных и в России, желательно с описанием процесса создания и валидации на реалистичность и конфиденциальность