Получи случайную криптовалюту за регистрацию!

​​Почему в задачах оценки потенциала локации не работает 'гол | О городах и данных

​​Почему в задачах оценки потенциала локации не работает "голая" регрессия?

Расскажу на примере.
Где-то месяц назад я слушала лекцию Градплана Москвы о расчете экономического потенциала нового ЖК. Основная идея: оценить устойчивость развития планируемого ЖК и определить окупят ли доходы в городскую казну от ЖК расходы на его содержание.
Значительную часть выступления занял рассказ про базовый инвестиционный анализ с расчетом срока окупаемости и моделированием денежных потоков– ничего нового для тех, кто хотя бы раз строил фин модель.

Более интересной была 2-ая часть: в ней докладчик рассказывал про модель оценки влияния различных факторов на стоимость 1 кв. м. по административным районам Москвы (то что, называют в западной литературе hedonic modelling), которую институт разработал в июле этого года.

В основе лежит линейная регрессия, точнее регрессии – по одной на район -в качестве параметров которых выступают такие факторы, как возраст здания, расстояние до станции метро, наличие культурного объекта поблизости и тд (часть можно разглядеть на фото). Если предположить (в докладе этого не упоминалось), что выборка репрезентативна (одинаковое кол-во информации о цене кв м для построек разного возраста), факторы, включенные в модель статзначимы и линейно независимы друг от друга, а остатки прогноза не зависят от цены за кв м, то кажется, что модель должна быть рабочей.

Так в чем же проблема? А проблема в том, что именно показывает модель и как ее можно использовать. На самом деле все, что можно с помощью нее узнать, это степень с которой в конкретный период времени в конкретном районе факторы, связанные с качеством инфраструктуры, локацией и характеристиками постройки влияли на цену жилья.

Почему этого недостаточно?

1. Во-первых, потому что институт занимается оценкой потенциала территорий на 5-7 лет вперед, а значит и цифры им нужны не сегодняшние, а прогнозные. Учитывая короткий период для построения модели и отсутствия динамических факторов , ожидать высокой точности не приходится. Кстати, сам докладчик сказал, что уже в октябре модель построенная в июле, начинает ошибаться – что говорить о точности через год.

2. Эту модель так же не получится использовать, чтобы предсказать стоимость жилья в новом ЖК внутри района. Учитывая конкуренцию при предложении цены, с появлением нового игрока произойдет перевзвешивание коэффициентов перед ключевыми параметрами модели, и она потеряет свою точность. Нужна 2-ая модель, которая бы на исторической выборке оценивала бы дельту ошибки возникающей при появлении нового ЖК.

3. Также, эту модель не получится использовать, что оценить как повлияли инфраструктурные изменения внутри городской территории на стоимость жилья. Трудно представить, что при сдвиге остановки автобуса на 1 м стоимость 1 кв м вокруг изменится на 11тыс руб. Для оценки вклада нужна другая модель, которая бы на этой динамике обучалась.


Вывод из этого можно сделать следующий: для задачи прогноза развития территорий нужно использовать специальный класс моделей, который умеет не только объяснять текущие и прошлые зависимости, но и «симулировать будущее». В разных источниках можно увидеть разные названия для этой группы - чаще всего используют (geo)simulation models или land-use (change) models. Про них отдельно.