А. О. Богатенкова, И. С. Козлов, О. В. Беляева, А. И. Перминов, “Извлечение логической структуры из сканированных документов”, Труды ИСП РАН, 2020, том 32, выпуск 4,страницы 175

Эта публикация цитируется в 3 статьях

Извлечение логической структуры из сканированных документов

А. О. Богатенкова^a, И. С. Козлов^b, О. В. Беляева^b, А. И. Перминов^a

^a Московский государственный университет имени М.В. Ломоносова
^b Институт системного программирования им. В.П. Иванникова РАН

Аннотация: В статье предложен конвейер обработки сканированных документов, а также разработан метод извлечения структуры из них. Данный метод основан на многоклассовой классификации строк документа, в том числе классификации на заголовки и списки. Конвейер состоит из извлечения текста и рамок строк документов с помощью методов OCR, формирования признаков и обучения классификатора на данных признаках. Кроме того, размечен и доступен для изучения корпус документов, проведена экспериментальная проверка реализованного метода на данном корпусе и описаны возможности для дальнейшей работы и исследований.

Ключевые слова: машинное обучение, структура документа, обработка естественного языка, OCR.

DOI: 10.15514/ISPRAS-2020-32(4)-13