Машинное обучение в Криминологии
Изучаем особенности уголовной системы в США

Алгоритмы машинного обучения в криминологии часто используются для анализа криминологических паттернов: предсказание места преступления, описание паттернов рецидивов, составление портрета преступника и многое другое.

Еще есть направление исследований по описанию и оценке работы правоохранительной системы. Это также фокус нашего проекта, в котором мы анализируем институциональные траектории уголовных дел в США.
О чем наш проект?
1
Цель проекта
Наша конечная цель - написание модели для описания бюрократических параметров, влияющих на формирование траектории уголовного дела с момента ареста до вынесения финального приговора.
2
Исследовательские вопросы
Через какие индикаторы бюрократического взаимодействия можно отслеживать характер взаимоотношений между различными элементами правоохранительной системы (полиция, прокуратура, суд)?

Например:
Связано ли время, прошедшее между арестом и окончанием полицейского расследования, с тем, будет ли дело передано в суд?


Можем ли мы выделить какие-либо организационные причины, по которым дело не доходит до суда после этапа полицейского расследования (разница в регистрации разных категорий дел и разных обвиняемых)?
Что мы делали:
1
Изучали и структурировали данные
-общались с экспертами по уголовному праву США
-работали с академической и публицистической литературой
2
Чистили и описывали данные
-восстанавливали иерархическую структуру
-удаляли нерелевантные и пустые переменные
3
Работали с пропущенными значениями
-восстанавливали пропущенные значения
-изучали и объясняли природу пропущенных значений в датасете
-объясняли происхождение пропусков в данных: разработали подход для оценки качества работы на "местах"
4
Описывали результаты
-визуализация институциональных траекторий уголовных дел
-описание рекомендаций для дальнейшей работы с базой данных для других исследователей
-дизайн модели для предсказания интституциональной траекторий уголовных дел
Почему это важно?
  1. Для поставленной задачи моделирования довольно затруднительно найти данные нужной структуры и качества
  2. Предобработка административных данных (анализ выбросов, природы пропущенных значений, способ кодирования) требует гораздо большего времени исследователя, чем работа, например, с коммерческими данными
  3. Поэтому мы создаем подход работы с этими или аналогичными по структуре данными (реализуем более качественную предобработку данных и оптимизируем способ их хранения)
  4. Мы также хотим поспорить с исследователями американской уголовной системы и создать инструмент для описания взаимодействия элементов правоохранительной системы (полиция, прокуратура, суд).
  5. Поднимаем вопрос о том, может ли отсутствие данных быть содержательной категорией в криминологии (как индикатор бюрократического взаимодействия). Например, отсутствие данных какого атрибута может говорить нам о нежелании регистрировать правонарушение, потому что есть понимание того, что оно не дойдет до суда.
Наши данные
Открытая база данных Offender Based Transaction Statistics (OBTS), 1990 (N =736 846), которая была создана Бюро судебной статистики при Министерстве юстиции США


Этап 1-2. Восстановление структуры данных
Какие проблемы в данных мы нашли:
Пропущенные значения
Отсутствие значений в ряде переменных и двойственный характер кодировки пропущенных значений ("искусственные" и "естественные" пропущенные значения)
Способ хранения данных
Неоптимальный способ хранения и представления данных многоуровневой структуры (в формате единой плоской таблицы)
Документация
Ошибки кодировки данных и отсутствие исчерпывающей документации
Мы осуществили разведывательный анализ, в результате которого:
- изменили способ кодировки некоторых переменных,
- исправили ошибки разработчиков проекта,
- проанализировали пропущенные значения,
- описали и визуализировали структуру данных

В результате мы создали репозиторий на Github, куда загрузили код, написанный на R и Python, который позволяет реализовать всю необходимую предобработку этих данных. Мы также подробно задокументировали весь процесс предобработки данных и дополнили существующую документацию.

Этап 3. Работа с пропущенными данными
  1. Мы присвоили всем значениям датасет 0 или 1 в зависимости от того, является это значение пропущенным или нет
  2. Удалили часть неинтересных нам колонок
  3. Для каждого округа посчитали количество заполненных значений и общее количество значений для каждого параметра
  4. Проанализировали каждые колонки на предмет заполненности, оценили среднюю и медианную заполненность датасета, на основе этой информации установили пороговое значение
  5. Сравнили показатели каждого округа по заполнению каждого параметра с пороговым значением
  6. Оставили только те округа, которые стабильно заполняли данные выше порогового значения
  7. Результат - средняя заполненность датасета поднялась с 70 % до 84 %
Результат 1. Описание территориальных особенностей работы с данными на основе анализа паттерна пропущенных значений (на примере штата Пенсильвания)
Мы осуществили кластерный анализ по каждому штату.
Зачем? Чтобы проверить гипотезу о том, могут ли пропущенные значения быть индикаторами качества бюрократической работы. И задать, таким образом, плацдарм для дальнейшей работы с этими данными качественными методами.
Результат 2. Описание траектории движения дел (на примере штата Пенсильвания)
https://public.flourish.studio/resources/embed.js">
Результат 3. Визуализация работы с уголовными делами внутри всех штатов/округов по категориям дел
Результат 4. Рекомендации по работе с данными для исследователей
Нашим следующим этапом будет создание модели. В качестве подготовительного этапа мы написали рекомендации к моделированию, которые могут быть полезны для других исследователей, заинтересованных в работе с этими или аналогичными данными.
Результат 5. Дизайн модели
  • Цепи Маркова

    Основой модели станут Марковские цепи
  • 4 целевые переменные

    Предсказываем вероятность перехода с одного институционального этапа на другой (police disposition - prosecution disposition - court disposition - final sentencing)
  • Темпоральность

    Учитываем темпоральный характер предикторов для каждого институционального этапа
Наша команда
  • Юлия Пацюкова
    куратор проекта
  • Ядвига Синявская
  • Адам Торосян
  • Иван Карнаухов
Благодарности
Спасибо Дмитрию Серебренникову, Дмитрию Скугаревскому, Елене Юришиной, Георгию Милютину и Алексею Новикову за ценные рекомендации и консультации по проекту
Made on
Tilda