Аннотация:
В статье представлена модель на основе сверточной нейронной сети, которая ставит в соответствие изображению текста векторы, кодирующие информацию о шрифтах. Модель состоит из двух идентичных сверточных блоков, объединяющих признаки в вектор, который затем анализируется линейными слоями для поиска отличий. Обученная таким образом модель способна различать шрифты, игнорируя содержание текста, что делает ее универсальной для различных типов документов. Векторные представления шрифтов тестируются на дополнительных задачах, таких как классификация текста по жирности начертания и наклону, демонстрируя высокую точность и подтверждая их полезность для анализа стилевых особенностей. Эксперименты с вариативными и ручными шрифтами показывают универсальность модели и ее применимость для работы с разнообразными данными. Результаты сравнения с базовой моделью подтверждают эффективность предложенной архитектуры. Однако выявлены ограничения, связанные с работой на данных низкого качества и мультиязычных текстах, что открывает направления для будущих исследований. Предложенный подход представляет значительный вклад в область обработки документов, расширяя возможности анализа шрифтов и их использования в задачах классификации, поиска и выделения ключевых элементов текста. Код и модели были опубликованы на GitHub (https://github.com/YRL-AIDA/FontEmb).