RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2025, том 37, выпуск 6(3), страницы 177–188 (Mi tisp1098)

Векторные представления шрифтов: дополнительный признак для понимания документов

Д. Е. Копыловab, М. В. Щурикab

a Институт динамики систем и теории управления имени В.М. Матросова Сибирского отделения Российской академии наук
b Институт математики, экономики и информатики Иркутского государственного университета

Аннотация: В статье представлена модель на основе сверточной нейронной сети, которая ставит в соответствие изображению текста векторы, кодирующие информацию о шрифтах. Модель состоит из двух идентичных сверточных блоков, объединяющих признаки в вектор, который затем анализируется линейными слоями для поиска отличий. Обученная таким образом модель способна различать шрифты, игнорируя содержание текста, что делает ее универсальной для различных типов документов. Векторные представления шрифтов тестируются на дополнительных задачах, таких как классификация текста по жирности начертания и наклону, демонстрируя высокую точность и подтверждая их полезность для анализа стилевых особенностей. Эксперименты с вариативными и ручными шрифтами показывают универсальность модели и ее применимость для работы с разнообразными данными. Результаты сравнения с базовой моделью подтверждают эффективность предложенной архитектуры. Однако выявлены ограничения, связанные с работой на данных низкого качества и мультиязычных текстах, что открывает направления для будущих исследований. Предложенный подход представляет значительный вклад в область обработки документов, расширяя возможности анализа шрифтов и их использования в задачах классификации, поиска и выделения ключевых элементов текста. Код и модели были опубликованы на GitHub (https://github.com/YRL-AIDA/FontEmb).

Ключевые слова: сверточные нейронные сети, классификация шрифтов, нейронные сети, компьютерные шрифты

DOI: 10.15514/ISPRAS-2025-37(6)-44



© МИАН, 2026