К. И. Шахгельдян, Н. С. Куксин, И. Г. Домжалов, Р. Л. Пак, Б. И. Гельцер, “Случайный лес факторов риска как прогностический инструмент неблагоприятных событий в клинической медицине”, Компьютерные исследования и моделирование, 2025, том 17, выпуск 5,страницы 987

АНАЛИЗ И МОДЕЛИРОВАНИЕ СЛОЖНЫХ ЖИВЫХ СИСТЕМ

Случайный лес факторов риска как прогностический инструмент неблагоприятных событий в клинической медицине

К. И. Шахгельдян^a, Н. С. Куксин^a, И. Г. Домжалов^a, Р. Л. Пак^b, Б. И. Гельцер^a

^a Владивостокский государственный университет, Россия, 690014, г. Владивосток, ул. Гоголя, д. 41
^b Дальневосточный федеральный университет, Россия, 690922, г. Владивосток, о. Русский, п. Аякс, к. 10

Аннотация: Целью исследования являются разработка ансамблевого метода машинного обучения, обеспечивающего построение интерпретируемых прогностических моделей, и его апробация на примере прогнозирования внутригоспитальной летальности (ВГЛ) у больных инфарктом миокарда с подъемом сегмента ST (ИМпST).
Проведено ретроспективное когортное исследование по данным 5446 электронных историй болезни пациентов с ИМпST, которым выполнялось чрескожное коронарное вмешательство (ЧКВ). Было выделено две группы лиц, первую изк оторых составили 335 (6,2%) больных, умерших в стационаре, вторую — 5111 (93,8%) — с благоприятным исходом лечения. Пул потенциальных предикторов был сформирован с помощью методов математической статистики. С помощью методов мультиметрической категоризации (минимизация p-value, максимизация площади под ROC-кривой-AUC и результаты анализа shap-value), деревьев решений и многофакторной логистической регрессии (МЛР) предикторы были преобразованы в факторы риска ВГЛ. Для разработки прогностических моделей ВГЛ использовали МЛР, случайный лес факторов риска (СЛФР), стохастический градиентный бустинг (XGboost), случай- ный лес, методы Adaptive boosting, Gradient Boosting, Light Gradient-Boosting Machine, Categorical Boosting (CatBoost), Explainable Boosting Machine и Stacking.
Авторами разработан метод СЛФР, который обобщает результаты прогноза модифицированных деревьев решений, выделяет факторы риска и ранжирует их по интенсивности влияния на вероятность развития неблагоприятного события. СЛФР позволяет разрабатывать модели с высоким прогностическим потенциалом (AUC = 0,908), сопоставимым с моделями CatBoost и Stacking (AUC: 0,904 и 0,908 соответственно). Метод СЛФР может рассматриваться в качестве важного инструмента для клинического обоснования результатов прогноза и стать основой для разработки высокоточных интерпретируемых моделей.

Ключевые слова: ансамблевые методы машинного обучения, факторы риска, категоризация непрерывных переменных, аддитивное объяснение Шепли, интерпретируемые модели машинного обучения

УДК: 004.852

Поступила в редакцию: 06.08.2025
Исправленный вариант: 20.09.2025
Принята в печать: 11.10.2025

DOI: 10.20537/2076-7633-2025-17-5-987-1004