А. К. Горшенин, А. М. Достовалова, “MMRFIGN: ансамблевая графовая модель сегментации несбалансированных изображений высокого разрешения, информированная мультикомпонентными марковскими случайными полями”, Докл. РАН. Матем., информ., проц. упр., 2025, том 527,страницы 156

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

MMRFIGN: ансамблевая графовая модель сегментации несбалансированных изображений высокого разрешения, информированная мультикомпонентными марковскими случайными полями

А. К. Горшенин, А. М. Достовалова

Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия

Аннотация: В работе представлена новая ансамблевая графовая нейросетевая модель MMRFIGN, информированная мультикомпонентными Марковскими случайными полями для повышения качества сегментации объектов на изображениях высокого разрешения для случаев несбалансированных и изменчивых наборов данных. Ключевым элементом в ней является специально разработанный двухветочный блок графовых сверток. Он реализует одновременную обработку локальных и глобальных признаков снимка, построенных на основе его мультимасштабных разбиений, используя мультикомпонентную марковскую модель для моделирования и восстановления пространственных взаимосвязей между ними. Доказана теорема о более высокой скорости убывания функции потерь мультикомпонентной графовой архитектуры, означающая более быстрое обучение модели по сравнению с сопоставимыми по размеру графовыми и сверточными решениями. Модель MMRFIGN апробирована в задаче сегментации снимков с беспилотных летательных аппаратов неоднородных урбанистических ландшафтов (использованы открытые наборы UAVid и UDD: разрешение Ultra HD 4K, присутствует дисбаланс классов объектов по численности). Архитектура MMRFIGN превзошла в распознавании крупных (здания, дороги) и разномасштабных малых объектов (автомобили) как современные сверточные (DeepLabV3, ENet), так и трансформерные (SegFormer и SOTA-модель 2025 года LWGANet) архитектуры: для крупных прирост по метрике F1 достигает 25.04% (в среднем до 12.08%), для малых - 14.87% (в среднем до 11.52%). MMRFIGN также превосходит как специализированное трансформерную SOTA-модель LWGANet (до 15.11% для ряда классов), так и альтернативные реализации ансамбля на основе графовых архитектур с вниманием – вплоть до 20.97%. При этом MMRFIGN содержит меньше параметров, чем базовые сети: продемонстрирована возможность уменьшения размера в 1.78 раза.

Ключевые слова: вероятностно-информированные нейронные сети, семантическая сегментация, случайные поля Маркова, дисбаланс классов, беспилотные летательные аппараты.

УДК: 004.852

Поступило: 20.08.2025
Принято к публикации: 22.09.2025

DOI: 10.7868/S2686954325070136