Аннотация:
В работе представлена новая ансамблевая графовая нейросетевая модель MMRFIGN, информированная мультикомпонентными Марковскими случайными полями для повышения качества сегментации объектов на изображениях высокого разрешения для случаев несбалансированных и изменчивых наборов данных. Ключевым элементом в ней является специально разработанный двухветочный блок графовых сверток. Он реализует одновременную обработку локальных и глобальных признаков снимка, построенных на основе его мультимасштабных разбиений, используя мультикомпонентную марковскую модель для моделирования и восстановления пространственных взаимосвязей между ними. Доказана теорема о более высокой скорости убывания функции потерь мультикомпонентной графовой архитектуры, означающая более быстрое обучение модели по сравнению с сопоставимыми по размеру графовыми и сверточными решениями. Модель MMRFIGN апробирована в задаче сегментации снимков с беспилотных летательных аппаратов неоднородных урбанистических ландшафтов (использованы открытые наборы UAVid и UDD: разрешение Ultra HD 4K, присутствует дисбаланс классов объектов по численности). Архитектура MMRFIGN превзошла в распознавании крупных (здания, дороги) и разномасштабных малых объектов (автомобили) как современные сверточные (DeepLabV3, ENet), так и трансформерные (SegFormer и SOTA-модель 2025 года LWGANet) архитектуры: для крупных прирост по метрике F1 достигает 25.04% (в среднем до 12.08%), для малых - 14.87% (в среднем до 11.52%). MMRFIGN также превосходит как специализированное трансформерную SOTA-модель LWGANet (до 15.11% для ряда классов), так и альтернативные реализации ансамбля на основе графовых архитектур с вниманием – вплоть до 20.97%. При этом MMRFIGN содержит меньше параметров, чем базовые сети: продемонстрирована возможность уменьшения размера в 1.78 раза.