О городах и данных

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 1.50K

Описание канала:

Канал про то, кто, как и зачем измеряет города: как исследования,построенные на городских данных, улучшают жизнь в городе и какие риски они несут
Автор:@intra23

▲ Vote (1)

Рейтинги и Отзывы

4.00

3 отзыва

Оценить канал datainthecity и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 2

2022-03-03 12:01:40 Последние 14 лет я занимался некоммерческими проектами, в основном, в трех направлениях: открытые данные (как часть открытости гос-ва и компаний), простой язык и цифровая архивация.

Сейчас та ситуация когда открытость данных понадобиться в России уже очень нескоро. Как бы не закрыли всё что ранее открывалось. Простота языка - это важная тема для мирного времени, но мирного времени сейчас нет

Архивация

Поэтому актуальное сейчас- это сохранение новейшей истории. У Инфокультуры есть проект Национальный цифровой архив (ruarxive.org). В рамках которого идёт архивация сайтов, в первую очередь органов власти и проектов находящихся под риском исчезновения. Не всё, но многое сохранённое в рамках ruarxive.org хранится в Хабе открытых данных в разделе Архивы сайтов. Не всё потому что архивировать можно быстро, каталогизировать архивы потом долго и очень трудоёмко.

Похоже что в ближайшие месяцы - это станет основной задачей, заархивировать то что очень скоро может быть уничтожено, удалено, отключено, заблокировано. Наибольшие риски у отключения которое происходит при ликвидации организации. Например, ликвидация Мемориала или сейчас ликвидация Эха Москвы.

Мы будем архивировать всё что возможно и в ближайшее время разрабатывать инструменты которые позволяют делать эту архивации быстрее, эффективнее и лучше систематизировать собираемое.

Приоритетные задачи

Первоочередная задача сейчас - это архивация сайта Эхо Москвы (echo.msk.ru). Она уже запущена, но я не знаю есть ли у Эха Москвы другие онлайн ресурсы которые также могут быть закрыты. Если Вы знаете такие, напишите мне лично или в чате @begtinchat .

Вторая задача - составление списка и архивация иных информационных ресурсов которые могут исчезнуть в любой момент. Будь то сайты или телеграм каналы или что-либо ещё. Присылайте если Вы такие знаете. Политическая / идеологическая направленность не имеет значения, значение имеет лишь общественная ценность и риск исчезновения.

И прошу, пишите, если есть любые предложения по тому как исчезающие ресурсы лучше отслеживать, узнавать что они в зоне риска, какие критерии значимости можно использовать и всё остальное по критериям по которым можно признавать сайты и иные цифровые ресурсы значимыми.

Лично я планирую создать в ближайшее время отдельный телеграм канал для цифрового архива и перезапустить его присутствие в Интернете, как минимум в части поиска того что сохранено.

Почему это важно

Почему нельзя положится, например, на Интернет-архив archive.org ? Главная причина в том что archive.org работает как поисковая система, архивируя по критериям цитируемости. Если какая-то страница нигде не упоминается, то и вероятность что она окажется в Интернет архиве невелика. Кроме того Интернет-архив почти не сохраняет не-HTML документы. Он сохраняет часть картинок, не всегда, и совсем не сохраняет mp3, mp4 и другие мультимедиа файлы и очень ограниченно сохраняет файлы doc, xls и т.д., никогда не сохраняет архивы zip, gz и других.

В отличие от Интернет-архива мы делаем полный слепок _всего_ что есть на сайте. Это делается реже, но значительно полнее. А также архивируем каналы в Twitter, Instagram и Telegram.

И, конечно, поддержать проекты по архивации можно прямым донатом на Инфокультуру. Нас пока не признали инагентом или ещё чем-то и сколь долго сколь возможно наши проекты просуществуют. Пока это будет возможно - будем архивировать всё что важно и нужно.

#archive #ruarxive #webarchives #digitalpreservation

1.1K viewsInessa Tregubova, 09:01

Открыть/Комментировать

2022-02-21 15:24:37 Моя знакомая Тасия @abnegantes сделала крутой проект: GitHub репозиторий со ссылками на открытые наборы данных.
Ссылка: open-russian-data

Открытые данные бывают очень полезны для дата-журналистики и проектов в сфере DS/ML. На основе открытых данных можно сделать исследование или обучить некий ML-пайплайн.
Подборка наборов данных в open-russian-data ориентирована в основном на использование в странах СНГ. Есть как всероссийские, так и региональные данные, а также некоторое количество общемировых. Данные разбиты по темам и подходят как для дата-журналистики, так и для Data Science.

Кроме самих наборов данных в репо есть ссылки на другие репозитории с открытыми данными. В сумме получается довольно внушительная подборка)

Список ресурсов данных можно пополнять: для этого пишите Тасе или кидайте pull request на GitHub.

P.S. Этот репо — часть более крупного проекта, который Тасия и я делаем вместе. Скоро все расскажем

356 viewsInessa Tregubova, 12:24

Открыть/Комментировать

2022-02-11 11:15:53 Попробую возродить канал после некоторой паузы в последние месяцы.

Во-первых, запись выступления на SPb DH week в этом году про методы визуализации пространственных данных

Еще раз большое спасибо организаторам за приглашение, очень жаль, что пришлось перенести мою лекцию в онлайн.

Во-вторых, материалы для практических занятий по дисциплине “Геоинформатика и геоинформационные системы” для студентов направления 07.04.04 «Градостроительство» (Институт дизайна и урбанистики, ИТМО, в котором мне посчастливилось поработать в прошлом семестре)
https://baltti.github.io/gis-itmo/
Кажется, это самые подробные материалы, которые я когда либо готовила по своим занятиям.

181 viewsInessa Tregubova, 08:15

Открыть/Комментировать

2022-01-31 22:45:40 Интересную статью выдал мне medium под вечер понедельника и внес немного баланса во вселенную. В статье автор показывает, как с помощью несложных манипуляций с OSM и геотеггированными фото становится возможным слежка за Большим Братом. Именно так, на мой взгляд, и должны работать открытые данные - давать информацию о действиях властей, которую они сами открыто афишировать не планируют, тем самым позволяя обществу контролировать власти в ответ на их контроль. У меня только один вопрос: даже если выборка неполная, точно ли локации военных баз - эта та информация, которая должна быть в открытом доступе на OSM?

508 viewsincitydata, 19:45

Открыть/Комментировать

2022-01-18 10:00:37 Недавно в своем разговоре с научным руководителем из Глазго я упомянула, что по работе часто решаю задачи связанные с зонированием и размещением объектов, при этом метрики для оптимизации могут отличаться в зависимости от кейса. Он посоветовал мне познакомиться с одним модулем библиотеки pysal на python, в создании которого он сам принимал участие и с помощью которого, можно автоматизировать часть из моих задач. Называется модуль spopt. Вот ссылка на документацию, где также есть питоновские ноутбуки с примерами, а вот на ссылка на статью, где описана общая логика алгоритмов.

На этих выходных, я, наконец - спасибо простуде - нашла достаточно времени, чтобы потестисть один из методов, и результат вполне устроил. Метод : Max-p regionalisation. Его задача - сгруппировать пространственные единицы в как можно большее число кластеров так, чтобы эти кластеры были как можно более однородными по характеристикам, чтобы каждый элемент внутри соприкосался хотя бы с одним другим элементом и чтобы суммарное значение какого-то показателя, например, численности населения, было не меньше установленного порога. Подробный алгоритм описан здесь, а пример можно найти здесь

Метод подходит, когда у вас не очень большое число полигонов( 200 алгоритм еще считал при условии 4 ед в кластере ,а вот на 300 падал с ошибкой) и при этом они хорошо связаны друг с другом - нет анклавов. Например, для задачи разделения города или района на участки в рамках 1 поликлинники. В отличие от применения k-means кластеры получатся не такими близкими по площади, но зато они будут максимально близки по числу квартир, обслуживаемых одним врачом.

Единственное ограничение, которое мне удалось обнаружить - это ошибка в расчетах, если в данных есть анклав, где сумма всех его элементов меньше заданного порога. Чтобы избавиться от ошибки, мне пришлось исключать эту область из расчета и потом вручную добавлять ее как отдельный кластер.

468 viewsincitydata, 07:00

Открыть/Комментировать

2022-01-14 08:00:32 У меня по работе переодически возникает необходимость быстро собрать данные о населении в какой-либо стране с детализацией до района или квартала. Благодаря этому сформировался набор источников, которые чаще всего помогают мне найти ответ на вопрос, где кто живет.

1. Лучший источник данных для такой задачи - это перепись населения. В отличие от России большинство стран агрегируют данные по небольшим статистическим территориям плюс минус равным по размеру населения ( обычно до 1000 человек), в крайнем случае по административным районам . Там можно найти информацию о доходах людей, семейном положении, возрасте, вероисповедании, уровне образования, наличии доступа к интернету, мобильной связи и тд. Найти данные переписи можно на портале открытых данных страны или на официальном сайте статистистического агенства.

Основной минус переписи- редкое обновление данных ( обычно раз в 10 лет), поэтому некоторые страны проводят промежуточные опросы между переписями, где они обновляют отдельные наиболее важные показатели, опрашивая небольшую. но репрезентативную выборку людей. Например, так делает Великобритания или ЮАР , правда последние предоставляют данные только на уровне региона, что все равно заставляет использовать данные переписи.

2. Второй источник, который приходит в голову - это OSM. Из открытых карт можно скачать локации жилых зданий и зная средний размер домохозяйств в разных регионах посчитать население. Проблема только в том, что далеко не у всех зданий указана высотность - ее приходится интерполировать, либо ставить среднее значение - из-за чего погрешность может оказаться достаточно большой.Плюс, в OSM данные о застройке могут отставать на 1-2 года. В итоге такие данные хорошо подходят только для задачи сравнения плотности населения на разных территориях.

3. Информацию о плотности населения публикуют международные агрегаторы:

1. WorldPop - собирают данные о населении стран Африки, Центральной и Южной Америке, Азии . Детализация по сеткам 1 км и 100м на основе данных переписи и спутниковым снимкам застройки. Также у них на сайте есть инструмент, который позволяет загрузить пользовательскую геометрию и настроить среднее число жителей на 1 домохозяйство.

2. HDX ( Humanitarian data exchange) - международная платформа для обмена данными между всеми странами. По факту - это агрегатор датасетов с национальных порталов открытых данных + данные компаний. Например, здесь можно найти датасеты Фейсбука - особенно много у них полезной информации по развивающимся странам

3. Иногда полезные датасеты попадаются на data.world

4. О стоимости жилья в разных районах городов можно судить по данным insideairbnb - проект, который парсит данные об объявлениях на airbnb и публикует в виде геодатасетов.

5. По идее для оценки экономической активности районов полезно выглядят данные Uber Movements, но мне они ниразу не пригодились

6. Мой любимый неформальный источник информации о городах - сайт номадист. Самый быстрый способ понять, где находятся в городе бедные кварталы, а где туристические районы и районы для "богатеньких буратино"

Думаю, что у некоторых из вас есть свой список источников данных о демографии зарубежом , поэтому, если не жалко поделиться, пишите в чат - буду расширять список

529 viewsincitydata, 05:00

Открыть/Комментировать

2022-01-07 12:11:03 Альтернативой регрессионным моделям в задаче прогнозирования могут быть агентские модели или Agent-based models. Однако наивно будет считать, что используя термин Agent-based models (ABM) авторы разных статей имеют ввиду один и тот же подход, а используя один и тот же подход называют его одинаково. Вот список некоторых словосочетаний, которые мне встретились в англоязычных статьях, описывающих модели либо синонимичные, либо включающие в себя ABM, либо входящие в группу ABM: urban modelling, geosimulation models, cellular automata, individual-based models, multi-agent systems, land use model, spatio-temporal models, microsimulation, Monte-Carlo simulations. Последнее было особенно неожиданно встретить среди ABM, потому что изучая этот метод в рамках эконометрики в университете мы никогда не говорили про "агентов".

Список получился достаточно большой, и уверена, что неполный. Причин для такого "биоразнообразия" несколько: во-первых, разные области применения моделей : от биологии и физики до экономики и логистики. Во-вторых, каждое из названий подчеркивает некое уникальное свойство метода : например, cellular automata представляет каждого агента ввиде ячейки ( cell), состояние которой меняется в зависимости от состояния соседних ячеек ( вот тут можно почитать про примеры из экономики и дорожного регулирования ) или land use model - модель симулирует развитие территории, например, нового района города на 10-20 лет вперед, на основе сегодняшнего поведения горожан, застройщиков и городских властей при застройке и заселении территории ( например, как здесь ).

Из-за такого разнообразия сложно сформулировать исчерпывающее определение, что такое ABM , но можно сказать о некоторых их свойствах.

1. Например, все эти модели построены на изучении системы снизу- вверх, то есть анализируя и моделируя поведение каждого объекта (агента) по отдельности, они агрегируют результаты и делают вывод о работе системы в целом
2. Все модели изучают как влияние отдельного объекта на среду, так и изменение среды на поведение объекта
3. На основе установленных в прошлом закономерностей модели симулируют события в будущем

439 viewsincitydata, 09:11

Открыть/Комментировать

2021-12-09 19:00:56 Ищем фронтенд-разработчика (React) в команду Карты ДТП!

Карта ДТП развивается и обрастает новыми функциями. Например, в октябре заработал отдельный раздел «Статистика», где отображаются данные о ДТП в различных разрезах.

Теперь мы идём дальше и хотим реализовать интерактивный интерфейс, чтобы пользователи могли оставлять свои комментарии или уточнять оригинальные данные ГИБДД. И в этом нам можете помочь вы!

Кого ищем?

Фронтендера с опытом React. Опыт работы с онлайн-картами будет плюсом. Сотрудничаем проектно по задачам. Работа оплачивается.

Что делать?

Реализовывать новые фичи по ТЗ, закрывать баги на фронтенде, кратко описывать необходимую документацию по функционалу и разработке в вики о проекте.

Какой хотим результат?

— Перейти на SPA и автоматизировать деплой
— Реализовать интерфейс комментариев в карточках ДТП
— Также есть задачи по визуализации данных: как со знанием SQL для создания материальных представлений, кэширующих результаты запросов, так и без знания SQL для доработки дашбордов с помощью GUI платформы Metabase из админ-панели через браузер.

При желании, после успешного выполнения текущих задач можно будет продолжить сотрудничество.

Все подробности — у @alexander_mart.

375 viewsInessa Tregubova, 16:00

Открыть/Комментировать

2021-12-09 19:00:56 Ребята делают очень классный полезный продукт, попросили поделиться новостью об открытой вакансии

382 viewsInessa Tregubova, 16:00

Открыть/Комментировать

2021-12-06 11:45:00 Почему в задачах оценки потенциала локации не работает "голая" регрессия?

Расскажу на примере.
Где-то месяц назад я слушала лекцию Градплана Москвы о расчете экономического потенциала нового ЖК. Основная идея: оценить устойчивость развития планируемого ЖК и определить окупят ли доходы в городскую казну от ЖК расходы на его содержание.
Значительную часть выступления занял рассказ про базовый инвестиционный анализ с расчетом срока окупаемости и моделированием денежных потоков– ничего нового для тех, кто хотя бы раз строил фин модель.

Более интересной была 2-ая часть: в ней докладчик рассказывал про модель оценки влияния различных факторов на стоимость 1 кв. м. по административным районам Москвы (то что, называют в западной литературе hedonic modelling), которую институт разработал в июле этого года.

В основе лежит линейная регрессия, точнее регрессии – по одной на район -в качестве параметров которых выступают такие факторы, как возраст здания, расстояние до станции метро, наличие культурного объекта поблизости и тд (часть можно разглядеть на фото). Если предположить (в докладе этого не упоминалось), что выборка репрезентативна (одинаковое кол-во информации о цене кв м для построек разного возраста), факторы, включенные в модель статзначимы и линейно независимы друг от друга, а остатки прогноза не зависят от цены за кв м, то кажется, что модель должна быть рабочей.

Так в чем же проблема? А проблема в том, что именно показывает модель и как ее можно использовать. На самом деле все, что можно с помощью нее узнать, это степень с которой в конкретный период времени в конкретном районе факторы, связанные с качеством инфраструктуры, локацией и характеристиками постройки влияли на цену жилья.

Почему этого недостаточно?

1. Во-первых, потому что институт занимается оценкой потенциала территорий на 5-7 лет вперед, а значит и цифры им нужны не сегодняшние, а прогнозные. Учитывая короткий период для построения модели и отсутствия динамических факторов , ожидать высокой точности не приходится. Кстати, сам докладчик сказал, что уже в октябре модель построенная в июле, начинает ошибаться – что говорить о точности через год.

2. Эту модель так же не получится использовать, чтобы предсказать стоимость жилья в новом ЖК внутри района. Учитывая конкуренцию при предложении цены, с появлением нового игрока произойдет перевзвешивание коэффициентов перед ключевыми параметрами модели, и она потеряет свою точность. Нужна 2-ая модель, которая бы на исторической выборке оценивала бы дельту ошибки возникающей при появлении нового ЖК.

3. Также, эту модель не получится использовать, что оценить как повлияли инфраструктурные изменения внутри городской территории на стоимость жилья. Трудно представить, что при сдвиге остановки автобуса на 1 м стоимость 1 кв м вокруг изменится на 11тыс руб. Для оценки вклада нужна другая модель, которая бы на этой динамике обучалась.

Вывод из этого можно сделать следующий: для задачи прогноза развития территорий нужно использовать специальный класс моделей, который умеет не только объяснять текущие и прошлые зависимости, но и «симулировать будущее». В разных источниках можно увидеть разные названия для этой группы - чаще всего используют (geo)simulation models или land-use (change) models. Про них отдельно.

525 viewsincitydata, 08:45

Открыть/Комментировать