Аннотация:
Компьютерные лингвистические модели получили широкое распространение в области обработки естественного языка и недавно стали активно применяться для решения различных задач компьютерного зрения. В данной статье проведены компьютерные исследования, направленные на выявление эффективности применения моделей трансформеров в задаче классификации рентгеновских снимков легких. В исследованиях использованы предварительно обученные модели трансформеров с различными размерами ViT-B(16/32), ViT-L(16/32), которые затем были дообучены на наборе рентгеновских снимков легких. Также проведены компьютерные исследования применения сверточных нейронных сетей VGG-16, InceptionV3, ResNet50, EfficientNetV2, DenseNet121. Сравнительный анализ результатов классификации исследуемых рентгеновских снимков легких показал, что модель трансформера ViT-B/32 превзошла по показателям точности модели сверточных нейронных сетей accuracy=97.56%, AUC=99%. Таким образом, языковые компьютерные модели в лице моделей ViT могут успешно использоваться в задачах классификации рентгеновских снимков легких.