ПАНДАН
x
Институт междисциплинарных медицинских исследований (ИММИ)
Рождение пациента
Our Company
Thoughtfully Designed Homes for Modern, Comfortable Living
We create and curate residential spaces that balance comfort, functionality, and timeless aesthetics. From architectural vision to interior details, every home is designed to feel personal, refined, and lasting.
OUR COMPANY
Bring Your Ideas to Life
Everything that you dreamed of can be brought to life exactly at the moment when you decide to win.
Рождение пациента
ПАНДАН

x

Институт междисциплинарных медицинских исследований (ИММИ)

Цель проекта
Провести работу по очистке набора данных, чтобы создать возможности для анализа причин госпитализации новорожденных детей в стационары г. Санкт-Петербург в 2014–2025 гг.
Данные
  • Новорожденные, прошедшие через службу РКЦН (реанимационно-консультативный центр для новорожденных)
    34503 строки (случая), 81 колонка (данные о матери и ребенке) за 2014-2022 гг.

    Ограниченные данные по тяжести (реанимация и патология новорожденных) и роддомам за 2023-2025 гг.
  • Сведения о всех родах в Санкт-Петербурге
    Общее количество родившихся, ЭКО, роды вне ЛПУ, преждевременные роды, двойни/ тройни, мертворождения, недоношенные дети. Есть годовые отчеты за 2018 и 2019 гг. Для данных 2020-2025 гг. доступна помесячная статистика
  • НИИ гриппа имени А.А. Смородинцева
    Данные о количестве заболевших ОРВИ в разных возрастных группах по неделям с 2014 по 2025 г. 
Ключевой этап - чистка базы данных РКЦН
Что было сделано?
Оценка качества очистки данных производилась несколькими способами
Проверка медицинским экспертом: оценка выбросов; выявление ошибок; экспертная разметка данных для обучения и тестирования модели; объяснение артефактов и аналитических находок.

Ревью кодов техническими экспертами.
Примеры технических вызовов и решений
Приведение данных к формату, удобному для анализа

Проблема: диагнозы новорожденных представлены в виде слабоструктурированных текстовых данных - кодов по справочнику MKB10 и текста свободного ввода с сокращениями, опечатками и грамматическими ошибками.

Цель: все диагнозы приведены к кодам MKB10.

Значимые для аналитических задач группы диагнозов:


  • Пороки сердца
  • Пороки почек
  • Диафрагмальные грыжи
  • Атрезия пищевода
  • Дефекты брюшной стенки
  • Аномалии нервной системы
  • Родовая травма
  • Аспирационный синдром
  • Асфиксии
  • Недоношенность
Как справлялись


Классические эвристические методы работы с текстом

  • Регулярные выражения
  • Токенизация

Большое количество разнообразных опечаток в указанных МКБ-кодах (вплоть до кириллицы в латинских шифрах) приводило к потери части данных. Учесть в регулярных выражениях все комбинации опечаток оказалось крайне затруднительным, к тому же сложные регулярные выражения приводили с ложным срабатываниям.

LLM



Ручная экспертная разметка (700 диагнозов и 50 самых часто встречающихся токенов)

Разработка нескольких версий промпта

Инференсы Qwen-3.5-35B

Оценка результатов

Пример ложного срабатывания:

Паттерн: r'[А-Я]\d{2}\.\d'
(заглавная кириллическая буква, две цифры, точка, цифра)

=> НЕДОНОШЕННОСТЬ33.34недели
Разработка промпта


  • справочник МКБ10 с кодами, актуальными только для новорожденных детей
  • подробное ТЗ с учетом всех нюансов
  • 20 размеченных примеров
  • 20 строгих правил на основе размеченных токенов, формата:
если в идентифицированном тобой фрагменте текста встречается «тпмс», то такой фрагмент всегда кодируй как «Q20.3[Дискордантное желудочково-артериальное соединение]»

Главный вызов: дать модели достаточно данных для корректного дообучения (in-context learning) в области неонатологии, но, в то же время, избежать переобучения из-за слишком строгих правил или слишком большого количества примеров.

Итог: две версии промпта (расширенный исокращенный), два финальных инференса модели.
Оценка результатов инференса Qwen-3.5-35B
Выбранная метрика: accuracy

Accuracy (правильность) = (кол-во верных предсказаний/общее кол-во предсказаний)


Всего размеченных тестовых диагнозов: 603.

Расширенная версия промпта: 7 ошибок, Accuracy = 0,988.
Сокращенная версия промпта: 20 ошибок, Accuracy = 0,967.

=> Выбрана расширенная версия промпта.

Zero Block
Click "Block Editor" to enter the edit mode. Use layers, shapes and customize adaptability. Everything is in your hands.
Tilda Publishing
create your own block from scratch
Сравнение оригинального формата диагнозов и результата инференса большой языковой модели
What programs does the Higher School of Art and Design offer?
The British Higher School of Art and Design (BHSAD) is a partner of the University of Hertfordshire (UH) running six validated BA (Hons) programs. Upon successful completion of studies, BHSAD students are eligible to receive academic awards issued by the University of Hertfordshire and identical to those provided for UH graduates. Our students can transfer freely to UH and return back for any semester during their studies.
Аналитические задачи
Примеры задач, которые можно решить с помощью нашей базы данных
  • Провести сравнение показателей учреждений родовспоможения
    1
  • Изучить частоту переводов детей в стационары в зависимости от сезона/ дня недели 
    2
  • Проверить связь между возникновением осложнений (травмы, асфикции) у доношенных детей и временем суток
    3
  • Изучить распределение рождения детей с определенными пороками/ весом/ гестационным возрастом по месяцам
    4
  • Изучить связь между возрастом матери и рождением ребенка с низким весом/ недоношенного
    5
  • Проверить гипотезы о связи пиков сезонных инфекций с заболеваемостью новорожденных
    6
Аналитическая задача - переводы из роддомов
Визуализация переводов из роддомов
Тепловая карта роддомов (по месячно)
Динамика переводов по годам
Тепловая карта роддома (за весь период)
"Рейтинг" роддомов по переводам
Интерактивная тепловая карта показывает, как распределялись
переводы новорождённых из роддомов по месяцам, годам и типу заключения.
Аналитика помогает найти общую сезонность, пики, сравнить роддома между собой в рамках года.
Рейтинг роддомов показывает суммарное количество переводов за выбранный период и их структуру по типу заключения.
Аналитика помогает сравнить роддома между собой, увидеть лидеров по числу переводов и оценить долю реанимации в общем объёме.
Интерактивная тепловая карта в рамках выбранного роддома.
Позволяет более детально изучить конкретный роддом
Годовая динамика по роддомам показывает изменение числа переводов для каждого роддома отдельно. Аналитика помогает сравнить тренды, увидеть устойчивый рост или снижение.
Результаты
  • Подготовлен BI инструмент
    Для заказчика подготовлены интерактивные графики, с помощью которых он может самостоятельно проводить анализ, опирайся на контекст предметной области.
  • Обновление данных
    Решение поддерживает обновление исходных данных. Такой
    подход даёт заказчику основу для регулярного мониторинга уже текущих показателей.
  • Обеспечена интерпретируемость данных и снижена зависимость от ручной аналитики
    Графики построены так, чтобы заказчик мог не только видеть значения, но и понимать контекст: в какие периоды возникают всплески и как меняется структура переводов и т.д.
Исследование переводов из роддомов
Группировка
Нормализация данных
Методика расчета

Роддома были сгруппированы поколичеству родов:

Для корректного сравнения роддомов абсолютное

число переводов было нормализовано через расчёт коэффициента переводов на 100 родов.

  • от 4 до 7 тысяч
  • от 3 до 4 тысяч
  • до 3 тысяч
  • частные
  • Статистическая значимость отклонений проверяется с помощью точного теста Фишера.
  • После чего p-value корректируются методом Benjamini-Hochberg FDR для учёта множественных сравнений.
Метод сравнивает каждый месяц роддома с его собственной историей

Для каждого роддома проверяется, был ли коэффициент переводов в конкретном месяце статистически выше, чем в остальные периоды этого же роддома.
Переводы в рамках группы и месяца
Метод сравнивает роддом с похожими роддомами своей группы.

Для каждого месяца проверяется, был ли коэффициент переводов в конкретном роддоме статистически выше, чем у остальных роддомов той же категории за тот же период.

Такой подход помогает выявить отклонения от сопоставимой группы роддомов.
Переводы в рамках роддома
Сравнение с собственной историей роддома
Сравнение с похожими роддома
Результаты исследования переводов(позже допишу)
Результаты проекта
Состав группы
Наставники:

  • Артемий Минаков – Врач реаниматолог-неонатолог; исследователь ИММИ ЕУСПб
  • Анастасия Новкунская – социолог, PhD in Social Sciences, доцент и академический директор ИММИ ЕУСПб
  • Валерия Бузмакова – исследователь ШВСН ЕУСПб
  • Александр Сергеев – исследователь ШВСН ЕУСПб



Исполнители:
  • Ярослав Кашкарев
  • Дарья Литвина
  • Галина Лоскутникова

  • Виктор Леденев
  • Тимофей Анненков
Тут дно типа пандан|ЕУ|все дела
Made on
Tilda