Аннотация:
В работе проведено исследование интерпретируемости двух популярных архитектур глубокого обучения ResNet50 и Vision Transformer (ViT-224) в рамках решения задачи классификации патогенных микроорганизмов на изображениях, полученных посредством сканирующего электронного микроскопа и предварительной пробоподготовкой с использованием лантаноидного контрастирования. Помимо стандартных показателей качества, таких как: точность, полнота и F1-мера, ключевым аспектом стало исследование встроенных карт внимания Vision Transformer и пост-интерпретации работы обученной модели ResNet50 с помощью метода Grad-CAM. Эксперименты выполнялись на исходном наборе данных, а также трёх его модификациях: с обнулённым фоном (threshold), с модифицированными участками изображения методом inpainting, и с полностью очищенным фоном с помощью обнуления фоновых участков. Для оценки универсальности механизма внимания в Vision Transformer дополнительно проведён тест на классической задаче распознавания рукописных цифр MNIST. Результаты показали, что архитектура Vision Transformer демонстрирует более локализованные и биологически обоснованные тепловые карты внимания, а также большую устойчивость к изменению фонового шума.
Ключевые слова:
архитектура Vision Transformer, модель ResNet50, метод Grad-CAM, карты внимания, тепловые карты внимания, интерпретируемость, классификация, бактерии, анализ изображений