ПАНДАН
x
Институт междисциплинарных медицинских исследований (ИММИ)
Рождение пациента
Цель проекта
Создание рабочей базы данных всех перегоспитализаций новорожденных детей в Санкт-Петербурге за 2014-2025 годы. Первичный анализ данных касающихся эпидемиологии, заболеваемости, а также работы акушерских стационаров.

Контекст: дети в очень тяжелом состоянии, либо за которыми нужно особое наблюдение, перегоспитализируются из роддомов в специализированные стационары.

Данные
  • Новорожденные, прошедшие через службу РКЦН (реанимационно-консультативный центр для новорожденных)
    108200 обращений, 34503 детей (случаев перегоспитализации), 81 колонка (данные о матери и ребенке) за 2014-2022 гг.

    Ограниченные данные по тяжести (реанимация и патология новорожденных) и роддомам за 2023-2025 гг.
  • Сведения о всех родах в Санкт-Петербурге
    Общее количество родившихся, ЭКО, роды вне ЛПУ, преждевременные роды, двойни/ тройни, мертворождения, недоношенные дети. Есть годовые отчеты за 2018 и 2019 гг. Для данных 2020-2025 гг. доступна помесячная статистика
  • НИИ гриппа имени А.А. Смородинцева
    Данные о количестве заболевших ОРВИ в разных возрастных группах по неделям с 2014 по 2025 г. 
Ключевой этап - чистка базы данных РКЦН
Что было сделано?
Оценка качества данных производилась несколькими способами
Проверка медицинским экспертом: оценка выбросов; выявление ошибок; экспертная разметка данных для обучения и тестирования модели; объяснение артефактов и аналитических находок.

Ревью кода техническими экспертами.
Приведение данных к формату, удобному для анализа

Проблема: диагнозы новорожденных представлены в виде слабоструктурированных текстовых данных - кодов по справочнику MKB10 и текста свободного ввода с сокращениями, опечатками и грамматическими ошибками.

Цель: все диагнозы приведены к кодам MKB10.

Значимые для аналитических задач группы диагнозов:


  • Пороки сердца
  • Пороки почек
  • Диафрагмальные грыжи
  • Атрезия пищевода
  • Дефекты брюшной стенки
  • Аномалии нервной системы
  • Родовая травма
  • Аспирационный синдром
  • Асфиксии
  • Недоношенность
Как справлялись


Классические эвристические методы работы с текстом

  • Регулярные выражения
  • Токенизация

Большое количество разнообразных опечаток в указанных МКБ-кодах (вплоть до кириллицы в латинских шифрах) приводило к потери части данных. Учесть в регулярных выражениях все комбинации опечаток оказалось крайне затруднительным, к тому же сложные регулярные выражения приводили с ложным срабатываниям.

LLM



Ручная экспертная разметка (700 диагнозов и 50 самых часто встречающихся токенов)

Разработка нескольких версий промпта

Инференсы Qwen-3.5-35B

Оценка результатов

Пример ложного срабатывания:

Паттерн: r'[А-Я]\d{2}\.\d'
(заглавная кириллическая буква, две цифры, точка, цифра)

=> НЕДОНОШЕННОСТЬ33.34недели
Разработка промпта


  • справочник МКБ10 с кодами, актуальными только для новорожденных детей
  • подробное ТЗ с учетом всех нюансов
  • 20 размеченных примеров
  • 20 строгих правил на основе размеченных токенов, формата:
если в идентифицированном тобой фрагменте текста встречается «тпмс», то такой фрагмент всегда кодируй как «Q20.3[Дискордантное желудочково-артериальное соединение]»

Главный вызов: дать модели достаточно данных для корректного дообучения (in-context learning) в области неонатологии, но, в то же время, избежать переобучения из-за слишком строгих правил или слишком большого количества примеров.

Итог: две версии промпта (расширенный и сокращенный), два финальных инференса модели.
Расширенная версия промпта
Оценка результатов инференса Qwen-3.5-35B
Выбранная метрика: accuracy

Accuracy (правильность) = (кол-во верных предсказаний/общее кол-во предсказаний)


Всего размеченных тестовых диагнозов: 603.

Расширенная версия промпта: 7 ошибок, Accuracy = 0,988.
Сокращенная версия промпта: 20 ошибок, Accuracy = 0,967.

=> Выбрана расширенная версия промпта.

Сравнение оригинального формата диагнозов и результата инференса Qwen-3.5 35B
Аналитические задачи
  • Анализ распределений переводов из роддомов с целью оценки и оптимизации ресурсов реанимационной бригады и отделений, принимающих детей.
  • Анализ зависимости негативных исходов родов от времени рождения для оценки нагрузки на медперсонал.
  • Анализ зависимости негативных исходов родов от дней недели для оценки нагрузки на медперсонал.
  • Изучение связи между определенными патологиями новорожденных и перенесенным в беременность ОРВИ.
Аналитическая задача - переводы из роддомов
Визуализация переводов из роддомов
Тепловая карта роддомов (помесячно)
Динамика переводов по годам
Тепловая карта роддома (за весь период)
"Рейтинг" роддомов по переводам
Интерактивная тепловая карта показывает, как распределялись
переводы новорождённых из роддомов по месяцам, годам и типу заключения.
Аналитика помогает найти общую сезонность, пики, сравнить роддома между собой в рамках года.
Рейтинг роддомов показывает суммарное количество переводов за выбранный период и их структуру по типу заключения.
Аналитика помогает сравнить роддома между собой, увидеть лидеров по числу переводов и оценить долю реанимации в общем объёме.
Интерактивная тепловая карта в рамках выбранного роддома.
Позволяет более детально изучить конкретный роддом
Годовая динамика по роддомам показывает изменение числа переводов для каждого роддома отдельно. Аналитика помогает сравнить тренды, увидеть устойчивый рост или снижение.
Результаты
  • Подготовлен BI инструмент
    Для заказчика подготовлены интерактивные графики, с помощью которых он может самостоятельно проводить анализ, опирайся на контекст предметной области.
  • Обновление данных
    Решение поддерживает обновление исходных данных. Такой
    подход даёт заказчику основу для регулярного мониторинга уже текущих показателей.
  • Обеспечена интерпретируемость данных и снижена зависимость от ручной аналитики
    Графики построены так, чтобы заказчик мог не только видеть значения, но и понимать контекст: в какие периоды возникают всплески и как меняется структура переводов и т.д.
Исследование переводов из роддомов
Группировка
Нормализация данных
Методика расчета

Роддома были сгруппированы по количеству родов:

Для корректного сравнения роддомов абсолютное

число переводов было нормализовано через расчёт коэффициента переводов на 100 родов.

  • от 4 до 7 тысяч
  • от 3 до 4 тысяч
  • до 3 тысяч
  • частные
  • Статистическая значимость отклонений проверяется с помощью точного теста Фишера.
  • После чего p-value корректируются методом Бенджамини-Хохберта FDR для учёта множественных сравнений.
Метод сравнивает каждый месяц роддома с его собственной историей

Для каждого роддома проверяется, был ли коэффициент переводов в конкретном месяце статистически выше, чем в остальные периоды этого же роддома.
Переводы в рамках группы и месяца
Метод сравнивает роддом с похожими роддомами своей группы.

Для каждого месяца проверяется, был ли коэффициент переводов в конкретном роддоме статистически выше, чем у остальных роддомов той же категории за тот же период.

Такой подход помогает выявить отклонения от сопоставимой группы роддомов.
Переводы в рамках роддома
Результаты
Выявленные отклонения переданы
заказчику для детального анализа

Анализ распределения диагнозов, традиционно связанных с качеством оказания акушерской помощи

Распределение диагнозов P24.0 (аспирация мекония), P21.0 (тяжелая асфиксия при рождении) и P21.1 (асфиксия средней степени) у детей с гестационным возрастом ≥34 недель по времени суток
  • Снижение в дневные часы

    3 849 (15.9%) детей с диагнозом (из них 815 с несколькими диагнозами).

    Блок

    Часы

    Частота (%)

    Ночь

    00:00–08:00

    17.2

    День

    08:00–18:00

    14.0

    Вечер

    18:00–24:00

    18.8

  • Снижение в будни


    День

    n детей

    Частота (%)

    Пон.

    545

    15.58

    Вт.

    623

    16.58

    Ср.

    562

    15.40

    Чт.

    551

    14.53

    Пт.

    539

    14.38

    Сб.

    483

    16.58

    Вс.

    546

    19.45




Корреляция количества патологий с волнами заболеваемости ОРВИ

Задача: провести разведочный анализ зависимости понедельной динамики ОРВИ и количества детей с определенными патологиями.
Гипотеза: перенесенное в процессе беременности ОРВИ влияет на наличие определенной патологии у ребенка.

Группы диагнозов, на возникновение которых, согласно имеющимся данным, может влиять перенесенное в процессе беременности ОРВИ:
  • пороки сердца
  • пороки почек
  • диафрагмальные грыжи
  • недоношенность (< 34 недель гестационного возраста)
  • ОНМТ (очень низкая масса тела, 1000-1500гр)
  • ЭНМТ (экстремально низкая масса тела, < 1000гр)
Задача усложнялась необходимостью учитывать отсроченные эффекты (интересен не ОРВИ во время родов, а ОРВИ в процессе беременности), более того, для пороков развития важен гестационный срок 3-8 недель (этап органогенеза), а для недоношенности и маловесности - срок от 12 недель до родов.

Distance Correlation (dCor, учитывает нелинейные немонотонные связи)


Пороки сердца
Пороки почек
Диафрагмальные грыжи
Гестационный срок менее 34 недель
Вес при рождении 1000-1500гр
Вес при рождении до 1000гр
dCor
p-value
0.23 (умеренная зависимость)
0.16 (слабая зависимость)
0.20 (слабая зависимость)
0.18 (слабая зависимость)
0.14 (слабая зависимость)
0.22 (умеренная зависимость)
0.000 (<0.05)
0.006 (<0.05)
0.001 (<0.05)
0.001 (<0.05)
0.018 (<0.05)
0.000 (< 0.05)

1) Distance Correlation не показывает направление связи, соответственно, обнаруженная зависимость может быть как прямой, так и обратной.
2) Зависимость не должна быть высокой, ОРВИ - не единственный фактор, влияющий на патологии.

Мы планируем продолжить анализ:
3) у нас есть понедельные данные о заболеваемости респираторными вирусами конкретных вирусов и штаммов. Исследования говорят о том, что отдельные вирусы могут влиять на отдельные патологии.
4) необходимо определить относительные значения количества патологий, зависящих от конкретных ОРВИ-недель (возможно, в ту неделю в целом беременностей по Петербургу было больше и именно это повлияло на рост патологий)
5) другие конфаундеры также необходимо исключить: у нас есть обширные климатические данные по Санкт-Петербургу за 2014-2022 годы: от УФ-индекса до влажности воздуха . Например, зима могла повлиять на исход беременности по причине низкой инсоляции, также как могла повлиять и на рост ОРВИ из-за низкой температуры.
6) автокорреляция между неделями не учитывалась.
7) одно из пока что непроверенных возможных объяснений - ОРВИ влияет на рост прерванных беременностей, из-за чего распределение патологий меняется и зависимость "теряется". Об этом есть исследования, однако к их дизайну остаются вопросы.
8) важно изучить весь гестационный срок, мы не знаем точно, ОРВИ в какой срок влияет на патологию сильнее - соответственно, нужен временной анализ лагов.
9) конечно, нельзя исключать, что причинности "ОРВИ -> патология" нет.

Примеры прочих вопросов, которые можно изучать с помощью нашей базы данных
  • Связь между возрастом матери и рождением ребенка с низким весом/ недоношенного
  • Сезонность распределения различных пороков развития и недоношенности

Данные могут быть использованы главными специалистами Комитета Здравоохранения для оптимизации работы акушерской и неонатальной службы.

Участники проекта
Наставники:
  • Артемий Минаков – Врач реаниматолог-неонатолог; исследователь ИММИ ЕУСПб
  • Анастасия Новкунская – социолог, PhD in Social Sciences, доцент и академический директор ИММИ ЕУСПб
  • Валерия Бузмакова – исследователь ШВСН ЕУСПб
  • Александр Сергеев – исследователь ШВСН ЕУСПб


Исполнители:
  • Ярослав Кашкарев
  • Дарья Литвина
  • Галина Лоскутникова

  • Виктор Леденев
  • Тимофей Анненков
Рождение пациента | 2026
ПАНДАН
x
Институт междисциплинарных медицинских исследований (ИММИ)

Европейский университет в Санкт-Петербурге
Made on
Tilda