Эта публикация цитируется в
1 статье
КОМПЬЮТЕРНОЕ ОБЕСПЕЧЕНИЕ И ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА
Моделирование процесса распознавания символов в нормативных документах организации
Т. В. Хоменко,
А. А. Иргалиев,
В. Д. Тараканов Астраханский государственный технический университет, Астрахань, Россия
Аннотация:
Целью моделирования процесса оптического распознавания символов является повышение качества классификации различных документов. Нецифровые документы, например отсканированные или сфото-графированные, в системах электронного документооборота сложно корректно классифицировать. Принято решение смоделировать процесс оптического распознавания символов в нормативных документах организации. Рассмотрены различные методы для моделирования данного процесса. Приведена структура подразделений для системы электронного документооборота. Рассмотрены методы реализации оптического распознавания символов (ОРС). Выявлены этапы разработки системы ОРС: обработка изображения, сегментация, распознавание. Проанализированы методы обработки изображения. Раскрыты основные процессы, связанные с обработкой изображения: выравнивание, размытие, бинаризация, нахождение контуров, удаление лишних линий. Произведено сравнение методов размытия изображения. Определены два этапа бинаризации изображения: перевод цветного изображения в серое, бинаризация серого изображения. В качестве второго этапа бинаризации предложен оператор Кенни, который используется для обнаружения границ изображения. Последним этапом обработки изображения установлен процесс удаления лишних линий. Рассмотрены алгоритмы разделения областей текста на сегменты. Выявлены 3 этапа сегментации: сегментация строк, сегментация слов, сегментация символов. Определен алгоритм сегментирования, основанный на вычислении средней яркости пикселей изображения для поиска различных интервалов: межстрочного, межсловного, межсимвольного. Рассмотрены доступные популярные онлайн-сервисы ОРС, а также некоторые популярные настольные программы. Обнаружена связь между искусственной нейронной сетью и оптическим распознаванием объектов. Для реализации этапа распознавания предложено использовать искусственную нейронную сеть.
Ключевые слова:
обработка изображений, сегментация, распознавание символов, бинаризация, размытие, контуры изображений, искусственная нейронная сеть, классификация документов, документооборот, ознакомление с документом, организация, управление.
УДК:
651.4
Поступила в редакцию: 30.11.2022
Принята в печать: 24.04.2023
DOI:
10.24143/2072-9502-2023-2-85-92