Получи случайную криптовалюту за регистрацию!

О городах и данных

Логотип телеграм канала @datainthecity — О городах и данных О
Логотип телеграм канала @datainthecity — О городах и данных
Адрес канала: @datainthecity
Категории: Технологии
Язык: Русский
Количество подписчиков: 1.50K
Описание канала:

Канал про то, кто, как и зачем измеряет города: как исследования,построенные на городских данных, улучшают жизнь в городе и какие риски они несут
Автор:@intra23

Рейтинги и Отзывы

4.00

3 отзыва

Оценить канал datainthecity и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

2

4 звезд

0

3 звезд

0

2 звезд

1

1 звезд

0


Последние сообщения

2022-08-17 20:38:03 Всем привет!

Сегодня мне нужна ваша помощь. Я готовлю онлайн-курс по геоаналитике в Python, и мне важно понять, на чем делать акценты. Благодаря работе в Яндексе , подготовке лекций на Coursera, внешним проектам и консультациям накопилось очень много материала , которым я с удовольствием поделюсь,но нужна ваша помощь, чтобы отобрать самое полезное.

Поэтому, просьба , заполните,пожалуйста, небольшой опрос, кому такой курс потенциально может быть интересен: https://forms.gle/wr8cBNaN2DbeN4h18 .

Очень выручите!Спасибо!
980 viewsincitydata, 17:38
Открыть/Комментировать
2022-08-16 15:43:27 Российские чиновники очень любят не давать данные в публичный доступ, объясняя это защитой персональных данных и риском террористической угрозы.
Возникает логичный вопрос: а как же чиновники других стран справляются с этими проблемами? Например, в Европе, где действует суровый GDPR, или в Израиле, где риск террористической атаки куда выше, чем в России. И там и там публикуют данные по населению в разрезе кварталов и транспортному потоку по часам и дням. Ответ: синтетические данные.

Синтетические данные (СД) – это сгенерированные алгоритмом данные, которые с одной стороны обладают всеми статистическими параметрами исходной выборки (гипотеза, что средние выборок разные отвергается, сохранены корреляции между переменными итд) с другой стороны, позволяют не раскрывать реальных данных. Помимо цели не раскрывать чувствительные данные их также используют, когда реальных данных мало или они дорого стоят. Генерируют их, например, с помощью нейронных сетей или ABM-моделей. Подробнее про создание СД хорошо описано здесь.

Так вот, госорганы часто прибегают к генерации СД при публикации результатов опросов населении - например когда нужно опубликовать данные по доходу в малонаселенных зонах или указать долю безработных по домохозяйствам. Такие данные считаются конфиденциальными, поскольку могут быть сопоставлены с конкретными семьями и поэтому их заменяют на синтетические. Предполагается, что для аналитических целей их точности достаточно. Например, в этих 2 статьях : здесь и здесь - автор показывает на данных переписи, что использование сгенерированных данных ухудшило точность ( accuracy) модели классификации населения по уровня дохода всего на 2%. При этом восстановить реальные показатели домохозяйств по ним невозможно.

Кажется, что тема интересная и было бы здорово увидеть пример подобных данных и в России, желательно с описанием процесса создания и валидации на реалистичность и конфиденциальность
1.4K viewsincitydata, 12:43
Открыть/Комментировать
2022-07-20 16:31:17 Сегодня в блоге "открытый микрофон" . Последнее время встречаю много интересных с точки зрения и целей и методов исследованиий из России и решила, что будет здорово авторам самим рассказать о них.

Первая работа: исследование трейдофа между доступностью районов и стоимостью парковок в Казани. Статья получилось объемной, поэтому читайте здесь. Спойлеры: много интересных источников данных о жителях и рабочих районах, а также подходов, как сравнить временные и денежные издержки или как найти связь между доступностью района и ценой часа парковки.

Ваши комментарии будут большой помощью автору для улучшения исследования
1.1K viewsincitydata, 13:31
Открыть/Комментировать
2022-07-09 11:58:40 Продолжение мыслей о новом блоге ЦОДД Москвы: теперь о том, что можно улучшить.

1. Первый вопрос а кто целевая аудитория блога?
Предположим, что это профессионалы -транспортники. Но для них в блоге а) недостаточно глубины анализа, б) нет возможности получить данные, чтобы самим, что-то посчитать.
Тогда предположим, что это горожане -активисты, которому интересно знать про свой город. Но случайно оказаться в блоге или на сайте ПРОдвижения практически невозможно -попробуйте вбить в поиск "продвижение транспорт" или "блог цодд" - увидете статьи с ЖЖ и рекламу SEO-оптимизации. Делаем вывод, что в блог может попасть человек, который следит за новостями ДепТранса и знает адрес блога. Не думаю, что таких много.
Остаются исследователи, блоггеры и журналисты, которые пишут про транспорт и работу с данными городских департаментов. Но и эту группу ждет разочарование: сейчас в блоге нет ничего о том, какие решения принял город на основе найденных закономерностей Вероятно, что в будущем обещанная в описании часть "что это означает для города" появится на сайте, но пока это больше набор интересных фактов.
Есть , конечно, еще четвертая группа - руководители. Для них на сайте есть все, что нужно: красивые понятные графики и карты, взаимодействие с другим проектом Департамента, примеры аналитической работы Центра. Но хочется верить, что все же не они основная аудитория, а кто-то из тех, кто описан выше. А для них нужны доработки..

2. На мой взгляд блогу нужно больше сравнений и относительных показателей. И не только между разными видами СИМ, но и сравнений с общим пассажирским/пешеходным потоком, а также по географии и типам землепользования. Интересно читать, что между станцией Филатов Луг и поселением Московский проехало 6 тыс велосипедов, но еще интереснее было бы узнать какой % от общего потока составляют эти поездки. Или насколько этот показатель выше среднего числа поездок на СИМ в Москве от ЖК до метро. Расчет таких показателей по всему городу позволил бы выделить аномальные районы, где жителям больше всего не хватает общественного транспорта и они вынуждены использовать велопрокат. Пока для большинства найденных закономерностей напрашивается одна причина: где больше людей и больше велопарк, там и больше поездок.

3. Кажется, в расчетах есть допущения: средние значения, к которым обращаются авторы блога, не всегда честно отражают реальность ( вечная история соц-опросов ).

Например, команда блога отмечает интересный факт: несмотря на то что, число поездок на самокатах в 3 раза больше поездок на велосипеде, оборачиваемость одного велосипеда в день 2.5 раза больше: 5 против 2. Объясняют - это разницей в размерах парка.
Разница варьируется от месяца к месяцу,но всреднем цифры сходятся. Однако в реальность того, что из 24 часов самокатом пользуются только 1 час ( в блоге указана средняя длительность 1 поездки - 26 мин )верится с трудом. В чем может быть подвох?

Скорее всего дело в разнице распределения станций самокатов и велосипедов по городу: станции велопроката значительно смещены к центру, тогда как самокат можно найти в любом районе города. При этом уровень спроса в зависимости от локации сильно отличается: в центре желающих покататься больше, в спальниках меньше ( учитывая, что сервисы запустились в прошлом году вполне вероятно, что не всегда локации стоянок были выбраны правильно и пользовались спросом). Тогда получается, что есть самокаты, на которых катаются в центре, с высокой частотой поездок и самокаты, которые находятся на окраине города с низкой частотой . Последние и образуют длинный хвост около нулевых значений, которые занижает среднее взятие одного самоката до 2 раз в день.

На мой взгляд, чтобы правильно сравнить частоту использования велосипедов и самокатов честно было бы а) смотреть графики распределения числа взятий 1 самоката и 1 велосипеда. б) сравнивать отдельно центр, отдельно спальники. в) смотреть взятия самоката vs велосипеда в одной и той же локации( например, брать только самокаты, которые стоят в радиусе 1 км от станции велобайка)
1.2K viewsincitydata, 08:58
Открыть/Комментировать
2022-07-07 09:00:07 Недавно ЦОДД Москвы запустил свой дата-блог, в котором будем делиться аналитикой на основе данных ЦОДД. Команда уже опубликовала статьи о поездках на СИМ и городском велопрокате, а также информационные отчёты о такси, кар- и кикшеринге в 2021 году. Готовят исследования по ДТП у трамвайных путей и транспортной связности.

Теперь поделюсь своими мыслями.

Сначала, что понравилось:
1. Само по себе появление такого ресурса - это серьезный шаг на встречу жителям. Теперь москвичей могут увидеть, как их данные, собираемые, буквально, на каждом углу помогают властям улучшать их город и, как результат, стать чуть лояльнее к процессу .

2. Описаны примеры работы с общедоступным источником информации - картой Продвижение. Это хорошее следование лучшим международным практикам, когда к открытым датасетам прикладывают примеры сервисов или исследований на их основе. Карту, конечно, открытыми данными назвать нельзя (цифры из не выгрузить), но по ней можно сделать выводы об уровне активности в разных районах города как в течение суток и так в течение года, при чем не только транспортной, но и деловой и ночной . Эти знания могут быть полезны, например, стрит ритейлу,в чью целевую аудиторию входят пользователи самокатов и такси, или самим сервисам проката, особенно, если они не покрывают весь город и не видят полной картины.

3. Из банального, но важного : информация подана очень доступно за счет хорошей инфографики и единой структуры статей. За исключением нескольких скринов с Продвижение со сбивающими столку заголовками(написано "начало поездок", а цветом на карте обозначено их окончание) , графики легко читаются. Это делает блог доступным для широкой аудитории.

Что можно улучшить, напишу в следующем посте.
999 viewsincitydata, 06:00
Открыть/Комментировать
2022-06-28 08:00:07 Примерно год назад я писала о результатах своего диплома, среди которых был вывод о практически отсутствии в России практики проведения feasibility studies (предварительной оценки полезности ) перед открытии публичных пространств, например музеев или культурных центров.

В то время как в развитом мире на такие проекты смотрят как на драйверы развития территории и, поэтому, предварительно делают оценку их успешности : станут ли туристы тратить больше денег в этом районе или будут ли горожане позитивнее относиться к властям.

К чему это я: к тому, что кажется и в России начинают появляться такие практики. Мне сегодня подсказали конференцию, на которой как раз будут говорить про создание общественных пространств, в том числе скажут и про роль исследований. Сама бы с удовольствием послушала, но нахожусь не в Санкт-Петербурге, а мероприятие только очное . Если кто-то может, сходите, потом расскажете

Цитирую анонс ниже.

Деловой клуб Meeting пришагает принять участие в конференции «Общественные пространства в контексте городской среды»

Тема: создание комфортных, доступных и безопасных пространств для общения и реализации возможностей.

Ключевые вопросы:
“Третье место” пусто не бывает: девелоперские концепции, которые меняют жилую среду и делают продукт дороже
Разбираем «необычные» проекты в обычном. Цена успеха общественного пространства
От культурной коллаборации к миссии: развитие городского сообщества через взаимодействие влиятельных лидеров бизнеса и культуры
Маркетинговая функция общественных пространств
Взгляд молодых архитекторов: новые подходы к проектированию общественных пространств

Среди спикеров представители Центра урбанистики и градостроительства СПбГУ, студии Design, проекта "Balagan" , компании PushKeen и других общественных пространств

30 июня
11:00-15:00, начало регистрации в 10:00
ДК Кирова, Белый зал, 2 этаж (Большой пр. В.О., 83)

По окончании конференции экскурсия по пространству ДК Кирова.

Подать заявку на посещение мероприятия: meeting.spb.ru
1.2K viewsincitydata, 05:00
Открыть/Комментировать
2022-06-05 10:00:06 Хочу поделиться полезными ресурсами для работы с геоданными в python, которые я недавно открыла для себя благодаря этой статье на medium.

Что там есть:

1. Датасеты Microsoft Buildings Footprints по странам. Всего 777млн полигонов зданий, распознанных на Bing Maps ( других полей кроме координат в них нет). Для примера . Про качество модели ничего не пишут: могу сказать только, что в датасете Израиля у них на 30% больше зданий, чем в базе Яндекс Карт.

2. Pretty maps - библиотека питона, которая рисует стильные карты. По умолчанию в словаре всего 4 стиля - все аля 20ые годы прошлого века, но можно поиграться с настройками. Думает долго ( на Тель-Авив с площадью 52 кв м потратил 21 мин), выдает кучу исключений, но получается красиво.

3. Новый релиз в "Планетарном компьютере" Microsoft: новые датасеты на основе спутниковых снимков, увеличение производительности API для python. Про то, что такое "Планетарный компьютер" на русском можно почитать здесь

4. Анонс первого единого формата для хранения "Больших" геоданных - GeoParquet. Авторы уверяют, что скорость обработки данных в 10-50 раз выше, чем в обычных табличных форматах и что все основные облачные платформы недоступные в россии , такие как google cloud и aws договорились поддерживать его хранение и обработку, не требуя от пользователя танцев с бубном при написании запросов

В добавление советую обратить внимание на youtube канал, состоящий из несложных уроков о том, как делать интерактивные карты в Python.

P. S. Ещё одну полезную библиотеку для визуализации трафика в питоне смотрите в комментарии
351 viewsincitydata, edited  07:00
Открыть/Комментировать
2022-05-13 13:03:05
#Tashkent city (where we opened a new office recently) has a very interesting patterns. Urban analysts are welcome to try the dataset generated with the use of #Mapflow AI building extraction. Look from above and get deeper.
278 viewsInessa Tregubova, 10:03
Открыть/Комментировать
2022-05-13 13:03:04 Вот такая суперская новость от ребят из Geoalert. Советую воспользоваться шансом и поработать с датасетом: данные явно полнее, чем те, что можно скачать из OSM. В датасете есть полигоны зданий и их высота. Если время позволит, сама хочу поиграть с датасетом.

2 идеи, на вскидку, как можно использовать эти данные:

1. посмотреть качество городской среды через обеспеченность районов необходимой инфраструктурой ( ее все же придется выгрузить из OSM) . Например, сколько домов обслуживает одна поликлиника или одна школа . Заодно можно проверить, насколько жива в городе тема микрорайонов;

2. проанализировать особенности городской застройки, выделить кластеры с разной плотностью зданий в низ, чтобы, например, понять подчиняется ли планировка города законам рынка ( про это много пишет тут и тут Алан Берто) и найти признаки spatial inequality ( можно посмотреть тут);


Как получить данные: написать на почту hello@geoalert.io или в телеграм Георгию: @godnik0

Если получится что-то интересное или есть идеи, как еще можно использовать данные - обязательно делитесь в чатике
299 viewsInessa Tregubova, 10:03
Открыть/Комментировать
2022-04-13 11:02:53
Открываем разработчикам доступ к городским датасетам для обучения алгоритмов искусственного интеллекта.

Для этого запустили специальную страницу ai.mos.ru, где можно ознакомиться с примерами датасетов и подать заявку на их получение.

Запуск такого проекта – еще один способ помочь разработчикам создавать новые проекты во всех сферах городского хозяйства.

Чтобы получить доступ к датасетам, компании необходимо заполнить заявку, описав проект по развитию городской среды, для которого необходимы данные, текущие наработки компании в части AI моделей для проекта и, при наличии, текущие правовые барьеры.

Что особенно важно:
чтобы проект, для которого предоставляются датасеты, приносил пользу городу и жителям;
чтобы проект соответствовал базовым этическим принципам работы с ИИ, в том числе соблюдал нормы российского права, был надежно защищенным, понятным и прозрачным для горожан.

Все проекты будут проходить экспертную оценку ДИТ Москвы и профильных городских ведомств.
882 viewsInessa Tregubova, 08:02
Открыть/Комментировать