О городах и данных

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 1.50K

Описание канала:

Канал про то, кто, как и зачем измеряет города: как исследования,построенные на городских данных, улучшают жизнь в городе и какие риски они несут
Автор:@intra23

▲ Vote (1)

Рейтинги и Отзывы

4.00

3 отзыва

Оценить канал datainthecity и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 4

2021-07-28 12:20:12

1.4K viewsInessa Tregubova, 09:20

Открыть/Комментировать

2021-07-28 12:17:11 Сегодня пост про одну из самых популярных задач геомаркетинга, которую благодаря хакатону whoosh мне наконец-то удалось реализовать на практике и частично провалидировать Задача звучит следующим образом: оценить потока людей, проходящих по определенному участку города, без использования фактических данных. Кому нужен ответ на этот вопрос? В первую очередь, конечно, стрит-ритейлу или стрит-фуду, которые хотят, чтобы к ним заходило как можно больше людей. Еще это может быть интересно сервисам аренды мест наружней рекламы или проката самокатов, так как их показатели напрямую зависят от того, сколько людей ходит мимо. Также, ее используют для оценки пассажиропотока при создании транспортных узлов.

Так вот, если компания чуть меньше , чем Старбакс и купить данные мобильных операторов или gps-данные для нее слишком дорого, то для ответа на этот вопрос можно использовать гравитационную модель, одну из моделей семейства spatial interactions models. Сразу оговорюсь, что модель работает только на уже заселенной территории - для проектирования потоков на новых участках используют методы spatial syntax.

Идея гравитационной модели следующая: между двумя локациями поток людей перетекает из одной точки в другую пропорционально привлекательности финальной точки и обратно пропорционально затратам на ее достижение. При этом под привлекательностью обычно понимают вместимость финальной точки, а под затратами время. Но прелесть алгоритма в том, что в зависимости от задачи эти переменные можно сколько угодно усложнять, закладывая в них более комплексные показатели. Поэтому алгоритму считается вероятность, с которой люди выберут определенное направление. Потом вероятность взвешивается на объем спроса в исходной точке и получается размер потока.

Теперь на примере. Для задачи хакатона я оценивала с помощью этой модели, сколько людей в Москве перемещается между станциями метро и бизнес-центрами в утренние и вечерние часы пик. Для этого с Open Street Map был выгружен список БЦ Москвы с их этажностью ( tag=‘level’, way“building"="office”) и координаты выходов из станций метро, которые затем были сгруппированы в кластеры с радиусом 200 метров.

Далее через этажность и средний % работников, добирающихся на работу на общественном транспорте, я расчитала сколько людей из бц идет в метро - это объем спроса в исходной точке. Привлекательность зоны метро - это число веток, на которые можно попасть с этой станции (если заморочиться можно перевзвесить на число всех доступных станций метро по прямой), затраты : время по пешеходному графу ( можно посчитать из osmnx ). Подставляя в формулу получаем объем потока. Размазываем его по длительности пиковых часов, складываем все цифры по каждому участку улиц и вуаля, у нас есть число пешеходов, да еще с определенным уровнем дохода, в час на конкретном участке. ( Формула и иллюстрация логики ниже)

Важный момент здесь - как привязать получившееся число к улицам и здесь есть несколько вариантов:
1. можно брать кратчайший путь между каждым бц и метро и считать что весь поток идет по нему
2. можно брать n путей по длительности не больше, например, 15 мин и распределять пропорционально или взвесив на длину
3. можно использовать алгоритмы space syntax для решения задачи choice, где решающим фактором является геометрия улиц

Мы использовали 2 вариант, заложив, что время до метро не должно превышать 20 мин, но взвесили не только на длину, но и пешеходную привлекательность улицы, которую расчитали через WalkScore( писала о нем раньше)

В итоге мы получили покрытие числом пешеходов 94% улиц в пределах 3-ьего транспортного и 38% за его пределами в часы пик. Корелляция в центре с числом поездок на самокатах whoosh - 77%. Кажется, вполне рабочий алгоритм для оценки потоков в рабочие будни.

Еще немножко про модель гравитации можно почитать здесь и здесь.

2.0K viewsincitydata, 09:17

Открыть/Комментировать

2021-07-19 10:24:28 Хорошим поводом отвлечься от рабочих геозадач и применить свои знания для решения актуальной городской проблемы стал хакатон сервиса аренды самокатов Whoosh , первый этап которого прошел в эти выходные. Организаторы сформулировали 3 темы : безопасность поездки, навигация и транспортная доступность. Наша команда решала задачу обеспечения безопасности. Мы предложили на основе данных об авариях с участием самокатов и исторических данных о скорости их передвижения создать карту, где все участки дорог в городе будут проранжированы по уровню их безопасности для езды на самокате. Это позволит сервису улучшить свои рекомендации маршрутов, а ДТ правильно выбирать зоны для ограничения скорости.

Небольшие выводы по ходу работы:

1. Наиболее удобный формат работы с геоданными: собирать и обрабатывать в питоне (библиотеки geopandas, shapely), визуализировать - в web-сервисах, мой личный топ - Unfolded.AI. Про него лучше написать отдельно, скажу только, что его делали ребята из uber - авторы kepler.gl и h3, а потому он имеет в себе весь их функционал и даже болеьше. У участников, кто пользовался qgis, 6 млн строк историии поездок на самокате сильно висели и они мало, что успели сделать.

2. искали решения похожих задач зарубежом: нашли bike compatibility index ( например, но для самокатов ничего подобного пока не расечили, а они на волне популярности удже 3 года

3. Некоторые датасеты портала ОД Москвы обладают удивительным свойством : в их названии есть слово “ Карта“, при этом они не содержат геоданных, как например эта “Карта среднемесячной загруженности дорог с индексами загруженности”

4. Из-за небольшой погрешности коодинаты самокатов плохо привязываются к графу дорог, загруженному из OSM. Чтобы это сделать нужно сначала создать прямоугольный buffer вокруг линии

5. При построении модели прогноза аварийности, если не хотите получить вывод, что аварий больше там, где больше самокатов, используйте в качестве таргета вероятность аварии, а не абсолютное число)

6. Карта ДТП (https://dtp-stat.ru/) - замечательный источник полезных открыты данных о Москве

7. Не хватило открытых данных по скоростным ограничениям для автомобилей, а также по парковкам и зонам для самокатов. Еще мы мечтали о ширине тротуаров

Первые выводы по самой задаче :

1. В Москве между числом аварий и уровнем пешеходности есть сильная прямая зависимость, то есть, чем больше может быть людей на улице, тем выше вероятность столкновения

2. В Москве наличие велодорожек никак не коррелирует с аварийностью, хотя в Европе установлено, что на велодорожки приходится самый низкий уровень аварий. Видимо, в Москве их длина настолько незначительна относительно всей длины дорог, что модель воспринимает их наличие и ширину, как погрешность

3. Вне центра Москвы почти все аварии на дорожных развязках. Кажется повод задуматься о наземных переходах.

3. Скутеры, благодаря встроенной системе gps и гибкости в выборе маршрутов , отличные источники данных для изучения поведения горожан на улице

3.0K viewsincitydata, edited 07:24

Открыть/Комментировать

2021-06-28 11:38:38

Всем привет!

Помните, в прошлом июле мы провели онлайн-семинар с ИТМО про машинное обучение? Постараемся сделать так, чтобы это стало традицией!

12 июля (понедельник), в 17 часов (мск) приглашаем вас на онлайн #спбгеотех на тему "Машинное обучение для геопространственных задач". Хотим обсудить опыт, технологии и проблемы, связанные с машинным обучением вокруг геоданных.

Вход на онлайн встречу свободный, чтобы получить ссылку, просто зарегистрируйтесь: https://spbgeotex.timepad.ru/event/1687035/

И очень ждём желающих выступить! Не стесняйтесь предложить свою тему, у нас замечательная и благодарная аудитория. Пишите:
@kazakov_e
@kalyuzhnaya
info@spbgeotex.ru

93 viewsInessa Tregubova, 08:38

Открыть/Комментировать

2021-06-28 11:38:38

203 viewsInessa Tregubova, 08:38

Открыть/Комментировать

2021-06-11 18:18:45

На сайте velostat.ru появилась незаметная, но очень важная кнопка - теперь данные по загрузкам станций московского велопроката можно выгрузить себе для анализа (разбивка с начала сезона по часам).

У нас все еще серьезные (в 15%) расхождение со статистикой публикуемой самим велобайком. Возможные причины:
1) В случае недоступности прокатов мы не регистриуем данные, возможно коллеги вносят поездки в это время вручную
2) Велобайк учитывает технические поездки в рамках ребалансировки, привоза вело из мастерских и так далее
3) Учитываются поездки с нулевой длинной или нулевым временем проката - таких почти 100 тысяч в месяц

Надеюсь выгрузка будет вам полезна и мы увидим много дипломных и не только работ на эту тему. Городу не хватает хороших исследований.

487 viewsInessa Tregubova, 15:18

Открыть/Комментировать

2021-06-11 18:18:44 очень классные новости от @alexradchenko2 . Огромное спасибо ребятам за проделанную работу! Именно такие открытые данные и нужны городу , для того чтобы по-настоящему вовлекать жителей в процесс принятия решений. Потенциал действительно большой: от нового взгляда на проблему последней мили и поиска корелляций между уровнем дохода населения и числом поездок и до предложений по улучшению городской велоинфраструктуры.
Вобщем датасет сказка, ждите обратную связь и примеры анализа в канале:)

527 viewsInessa Tregubova, 15:18

Открыть/Комментировать

2021-03-04 12:23:05 Написали на Хабре, как делали пешеходный навигатор.

Планировали разобраться с задачей «за пару недель», опираясь на экспертизу в навигации для авто. А в итоге придумывали новые сценарии, боролись за размер баз и учились давать правильные инструкции.

Зато теперь можно погулять с Дроздовым.

1.2K viewsInessa Tregubova, 09:23

Открыть/Комментировать

2021-03-01 23:39:42 Экономика vs градостроительные стандарты.

На днях city monitor выпустил статью о том, что в Милане в широко обсуждаемую сегодня концепцию 15-минутного города предлагают включить книжные магазины. Для тех, кто не в курсе поясню: идея 15- минутного города заключается в том, что на расстоянии 15-минут от дома - пешком, на велосипеде или общественном транспорте - у человека есть большое разнообразие услуг и инфраструктура для прогулок , например парки или пешеходные зоны. Причем единого стандарта, какие именно это услуги, нет: обычно речь идет о супермаркетах , кафе или баре и о чем-то культурно-развлекательном, например кино.

Так вот, итальянцы решили включить обязательным элементом книжные магазины. Они объясняют это тем, что так люди начнут больше читать, а небольшие книжные лавки смогут конкурировать с онлайн-продажей книг. Кроме того, авторы идеи уверены, что книжные - смогу стать локальными культурными центрами.

Идея красивая, но на мой взгляд экономически очень сомнительная. Ведь чем дальше от центра находится магазин, тем меньше поток клиентов ( если только это не тц), а значит меньше выручка. Это объясняется тремя причинами:

1. В центре выше уровень пешеходности, то есть инфраструктура устроена так, что у людей больше повода гулять в центре, чем на окраинах города. А для книжных это принципиально : только передвигаясь пешком мы заходим посмотреть литературу - если что-то нужно специально, скорее всего воспользуемся онлайн-доставкой

2. Если даже представить, что город населен равномерно, то все равно с приближением к его границам, территория, которая попадает на пересечение круга радиусом 15 минут и площади города будет уменьшаться, и чем меньше город, тем это заметнее. Если не верите, нарисуйте два круга внутри другого и увидите, что всегда остается маленький кусочек, не покрытой территории, ради которого придется рисовать еще один круг

3. Учитывая, что в Европе книги - удовольствие дорогое, то аудитория должна обладать еще определенными финансовыми возможностями, не говоря уже об определенном уровне образования. Но даже если отбросить второе, первый фактор указывает на то, что в центре размер целевой аудитории больше, так как в общем случае, чем ближе к центру, тем выше стоимость аренды, а значит богаче население. Не факт, что жители окраин готовы регулярно тратить деньги на книги.

Помимо этого сомнительна гипотеза, что рост предложения позволит вырастить спрос на чтение.
На мой взгляд с этой точки зрения и с точки зрения формирования культурных локальных центров правильнее развивать библиотеки: у них не стоит задача получить прибыль, а значит они меньше зависят от пешеходного потока и потом у них больше площади, чем у книжных лавок, что подходит для проведения мероприятий, необходимых для массового привлечения людей.

P.S. Сейчас читаю читаю книгу Order without design.How markets shape city ( кстати бумажную, но с Амазона) французского градопланировщика Алана Берто - очень рекомендую. Она очень доступно объясняет, как работает или не работает экономика города.

1.6K viewsincitydata, 20:39

Открыть/Комментировать

2021-02-27 13:15:55 Всем привет!

1-6 марта Инфокультура отметит Международный День открытых данных 2021.

Накануне Дня открытых данных, с 1 по 5 марта, проведем серию практических мастер-классов по работе с открытыми данными в онлайн. Приглашаем участвовать всех желающих

— 1 марта, 18:00, мастер-класс дата-журналиста Алекся Смагина «Вскрываем декларации. Как при помощи регулярных выражений привести Word’овскую табличку к пригодной для анализа форме».

— 2 марта, 18:00, мастер-класс дата-сайентиста Дмитрия Сергеева «О чем говорят депутаты Госдумы? Анализ текстовых данных на Python».

— 3 марта, 18:00, мастер-классы по работе с геопространственными данными и картами для новичков и профи: создание карты с помощью unfolded.ai и затем краткий обзор OS-фреймворков для сетевого анализа городской среды на примере задачи построения изохрон.

— 4 марта, 15:00, мастер-класс по поиску открытых данных от DataMasters.

— 5 марта, 16:00, мастер-класс «Российская официальная статистика: как сделать работу с данными удобнее, а данные — понятнее?».

— 5 марта, 18:00, мастер-класс «Визуализация данных в ObservableHQ». После мастер-класса состоится подведение итогов Moscow Dataviz Awards 2021 — ежегодной международной премии за достижения в области инфографики, визуализации данных и дата-арта (moscowdatavizawards.com).

Программа и регистрация: https://opendataday.ru/msk. Присоединяйтесь!

916 viewsInessa Tregubova, 10:15

Открыть/Комментировать