Исследование нацпроекта
«Безопасные и качественные дороги»
в четырех городах России
Гипотезы
Мы ограничили наше исследование периодом с 2017 года, когда был запущен проект БКД, по 2019 год — последний до пандемии COVID-19.
Число городов тоже пришлось ограничить: подготовка данных для исследования требовала большого объема ручной работы. Для проверки гипотез выбрали похожие города из разных регионов.
Далее мы построили предсказательную модель: как окружение участка дороги и количество погибших и пострадавших на ней связано с вероятностью включения дороги в программу БКД.
Важнейшими результатами данного этапа стали: получение нами значений shap values и shap feature importance для каждого из городов, а также метрик кросс-предсказаний других городов моделями обученными на конкретном городе. Обучение моделей производилось при помощи CatBoostClassifier из библиотеки CatBoost, со спецификацией модели можно ознакомиться по ссылке.
Интерпретация shap values позволяет судить о наличии множества общих моментов в политике ремонтов БКД. Для всех городов общим стало то, что наличие в пространственном контексте участка таких переменных, как «Детские сады», «Детские площадки», «Спортивные сооружения» снижает шансы участка быть включенным в программу БКД.
В то время как большое количество пострадавших в авариях на участке увеличивает шансы для участка быть включенным в программу.
Также интересным для исследования является то, что переменная, отражающая количество погибших, ни в одном городе не вошла даже в топ-20 по feature importance.
Большую разницу в политиках городов делают три переменные: «Парки и скверы» (переменная топ-1 по общему и положительному влиянию в Кемерово и Барнауле, топ-1, но с отрицательным влиянием, в Ярославле, и отрицательное влияние в Ульяновске), «Школы» (нейтральное влияние в Кемерово и Барнауле, отрицательное в Ярославле и Ульяновске), «Продуктовые магазины» (разный эффект по городам).
Со значениями shap values и shap feature importance для городов, а также усредненными общими значениями можно ознакомиться в дашборде ниже.
Косинусное расстояние кросс-предсказаний в таблице ниже показывает высокую степень схожести политик в данных городах (чем ближе к 1, тем меньше различий). Максимальное — в паре Кемерово-Барнаул (также эта пара имеет максимальные значения метрик ROC_AUC и F1); минимальное — в паре Кемерово-Ульяновск (аналогично и по ROC_AUC и F1). Что подтверждает наши эмпирические гипотезы о разности/схожести политики городов, основанные на разметке данных городов.
Косинусное расстояние кросс-предсказаний | Барнаул | Кемерово | Ульяновск | Ярославль |
---|---|---|---|---|
Модель: Барнаул | - | 0,941 | 0,915 | 0,941 |
Модель: Кемерово | 0,954 | - | 0,904 | 0,944 |
Модель: Ульяновск | 0,862 | 0,831 | - | 0,852 |
Модель: Ярославль | 0,904 | 0,899 | 0,873 | - |
Выводы
II. Оценка эффектов программы
Эффект воздействия на вероятность ДТП
с погибшими или пострадавшими
Выводы