Аннотация:
Цель: разработка масштабируемой медицинской интеллектуальной системы популяционной онкопрофилактики (ОНКО-МИС) для эффективного выявления злокачественных новообразований (ЗНО) на основе минимально необходимого набора данных из электронной медицинской карты (ЭМК) – кодов медицинских диагнозов и услуг. Система направлена на решение проблемы ограниченности ресурсов традиционных методов скрининга ЗНО при сохранении высокой эффективности ранжирования пациентов по риску.
Методы: предложенное решение основано на комбинации градиентного бустинга с моделями анализа выживаемости. Из исходных событий ЭМК конструируется более 700 предикторов, включающих социодемографические характеристики, паттерны посещений, клиническую историю и частоты событий по группам диагнозов. Ключевой особенностью является использование популяционных (оценки Каплана–Мейера) и индивидуальных (AFT-модель) характеристик риска в качестве дополнительных предикторов для градиентного бустинга. Валидация проведена на данных более 2.5 млн взрослых пациентов из 5 регионов Российской Федерации под контролем профильных и аккредитованных врачей-онкологов.
Результаты: ОНКО-МИС достигает целевой метрики Average Precision (AP) 0.228, превосходя современные решения на основе глубокого обучения и LLM с наилучшим AP 0.193. При формировании группы риска в 1% от численности населения решение способно выявлять до 3.7–5.4 раза больше пациентов с ЗНО при том же объеме скрининга. В 12-месячном ретроспективном эксперименте (426 тыс.) решение увеличивает число выявленных случаев ЗНО на +91% и расширяет охват ЗНО региона на +36 п.п. при сравнении с текущим процессом диспансеризации. Система демонстрирует высокую масштабируемость: обработка данных города-миллионника занимает менее трех часов и не требует высокопроизводительных серверов.
Выводы: ОНКО-МИС представляет собой решение для масштабируемой популяционной онкопрофилактики, использующее исключительно коды медицинских диагнозов и услуг из ЭМК. Система естественным образом встраивается в существующие медицинские процессы, направляя пациентов из группы риска к врачам первичного звена для решения о направлении к врачу-онкологу и дополнительных обследований. Минимальные требования к данным и вычислительным ресурсам делают решение доступным для применения в различных системах здравоохранения, включая удаленные регионы с ограниченными ресурсами, что открывает новые возможности для повышения эффективности популяционной онкопрофилактики.