Оценка качества очистки данных производилась несколькими способами
Проверка медицинским экспертом: оценка выбросов; выявление ошибок; экспертная разметка данных для обучения и тестирования модели; объяснение артефактов и аналитических находок.
Ревью кодов техническими экспертами.
Приведение данных к корректному формату
Была произведена унификация данных, введенных вручную. А также приведение к нужному формату данных с датами/ временем.
Примеры:
- названия роддомов
- диагнозы ребенка
- продолжительность безводного периода (переведена в минуты)
- и др.
В ряде случаев производилось изъятие данных из других колонок для восполнения пропусков.
Примеры:
- для 1025 случаев гестационный возраст ребенка был восстановлен из колонок с диагнозами;
- указание на проведение ЭКО было в колонке с экстрагенитальными патологиями матери
Формирование новых признаков
Были добавлены новые колонки.
Например:
- количество КС (кесаревых сечений) было выведено из колонки с продолжительностью второго этапа родов.
Были выявлены и удалены (или изъяты из анализа) ненадежные данные.
Примеры:
- колонка с рисками и вредными факторами (курение, алкоголь, наркотики)
- акушерский анамнез у матерей, для которых отмечено "0" беременностей и "0 родов"
- и др.