Рождение пациента
ПАНДАН

x

Институт междисциплинарных медицинских исследований (ИММИ)

Цель проекта
Провести работу по очистке набора данных, чтобы создать возможности для анализа причин госпитализации новорожденных детей в стационары г. Санкт-Петербург в 2014–2025 гг.
Данные
  • Новорожденные, прошедшие через службу РКЦН (реанимационно-консультативный центр для новорожденных)
    34503 строки (случая), 81 колонка (данные о матери и ребенке) за 2014-2022 гг.

    Ограниченные данные по тяжести (реанимация и патология новорожденных) и роддомам за 2023-2025 гг.
  • Сведения о всех родах в Санкт-Петербурге
    Общее количество родившихся, ЭКО, роды вне ЛПУ, преждевременные роды, двойни/ тройни, мертворождения, недоношенные дети. Есть годовые отчеты за 2018 и 2019 гг. Для данных 2020-2025 гг. доступна помесячная статистика
  • НИИ гриппа имени А.А. Смородинцева
    Данные о количестве заболевших ОРВИ в разных возрастных группах по неделям с 2014 по 2025 г. 
Ключевой этап - чистка базы данных РКЦН
Что было сделано?
Оценка качества очистки данных производилась несколькими способами
Проверка медицинским экспертом: оценка выбросов; выявление ошибок; экспертная разметка данных для обучения и тестирования модели; объяснение артефактов и аналитических находок.

Ревью кодов техническими экспертами.
Примеры технических вызовов и решений
Приведение данных к формату, удобному для анализа

Проблема: диагнозы новорожденных представлены в виде слабоструктурированных текстовых данных - кодов по справочнику MKB10 и текста свободного ввода с сокращениями, опечатками и грамматическими ошибками.

Цель: все диагнозы приведены к кодам MKB10.

Значимые для аналитических задач группы диагнозов:


  • Пороки сердца
  • Пороки почек
  • Диафрагмальные грыжи
  • Атрезия пищевода
  • Дефекты брюшной стенки
  • Аномалии нервной системы
  • Родовая травма
  • Аспирационный синдром
  • Асфиксии
  • Недоношенность
Как справлялись


Классические эвристические методы работы с текстом

  • Регулярные выражения
  • Токенизация

Большое количество разнообразных опечаток в указанных МКБ-кодах (вплоть до кириллицы в латинских шифрах) приводило к потери части данных. Учесть в регулярных выражениях все комбинации опечаток оказалось крайне затруднительным, к тому же сложные регулярные выражения приводили с ложным срабатываниям.

LLM



Ручная экспертная разметка (700 диагнозов и 50 самых часто встречающихся токенов)

Разработка нескольких версий промпта

Инференсы Qwen-3.5-35B

Оценка результатов

Пример ложного срабатывания:

Паттерн: r'[А-Я]\d{2}\.\d'
(заглавная кириллическая буква, две цифры, точка, цифра)

=> НЕДОНОШЕННОСТЬ33.34недели
Разработка промпта


  • справочник МКБ10 с кодами, актуальными только для новорожденных детей
  • подробное ТЗ с учетом всех нюансов
  • 20 размеченных примеров
  • 20 строгих правил на основе размеченных токенов, формата:
если в идентифицированном тобой фрагменте текста встречается «тпмс», то такой фрагмент всегда кодируй как «Q20.3[Дискордантное желудочково-артериальное соединение]»

Главный вызов: дать модели достаточно данных для корректного дообучения (in-context learning) в области неонатологии, но, в то же время, избежать переобучения из-за слишком строгих правил или слишком большого количества примеров.

Итог: две версии промпта (расширенный исокращенный), два финальных инференса модели.
Оценка результатов инференса Qwen-3.5-35B
Выбранная метрика: accuracy

Accuracy (правильность) = (кол-во верных предсказаний/общее кол-во предсказаний)


Всего размеченных тестовых диагнозов: 603.

Расширенная версия промпта: 7 ошибок, Accuracy = 0,988.
Сокращенная версия промпта: 20 ошибок, Accuracy = 0,967.

=> Выбрана расширенная версия промпта.

Сравнение оригинального формата диагнозов и результата инференса большой языковой модели
Аналитические задачи
Примеры задач, которые можно решить с помощью нашей базы данных
  • Провести сравнение показателей учреждений родовспоможения
    1
  • Изучить частоту переводов детей в стационары в зависимости от сезона/ дня недели 
    2
  • Проверить связь между возникновением осложнений (травмы, асфикции) у доношенных детей и временем суток
    3
  • Изучить распределение рождения детей с определенными пороками/ весом/ гестационным возрастом по месяцам
    4
  • Изучить связь между возрастом матери и рождением ребенка с низким весом/ недоношенного
    5
  • Проверить гипотезы о связи пиков сезонных инфекций с заболеваемостью новорожденных
    6
Аналитическая задача
Исследовать переводы из роддомов
Our Best Articles
We will help you to become a better designer
Visual communication takes place through pictures, graphs, and charts, as well as through signs, signals, and symbols. It may be also used independently.
Learn more
How to be a graphic designer
Cultural perspective involves identity of symbols. The uses of words that are related with the image, the use of heroes in the image, etc.
Learn more
Critical writings on graphic design
The view of images in the critical perspective is when the viewers criticize the images, and the critiques have been made in the interest of the society.
Learn more
Состав группы
Наставники:

  • Артемий Минаков – Врач реаниматолог-неонатолог; исследователь ИММИ ЕУСПб
  • Анастасия Новкунская – социолог, PhD in Social Sciences, доцент и академический директор ИММИ ЕУСПб
  • Валерия Бузмакова – исследователь ШВСН ЕУСПб
  • Александр Сергеев – исследователь ШВСН ЕУСПб



Исполнители:

  • Ярослав Кашкарев
  • Дарья Литвина
  • Галина Лоскутникова

  • Тимофей Анненков
  • Виктор Леденев
Made on
Tilda