RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Южно-Уральского государственного университета. Серия «Математическое моделирование и программирование» // Архив

Вестн. ЮУрГУ. Сер. Матем. моделирование и программирование, 2025, том 18, выпуск 3, страницы 87–95 (Mi vyuru770)

Программирование

Использование нечеткого сравнения строк при решении задачи автоматического переноса форматирования поэтических произведений

Н. Н. Тесляa, Г. Н. Белякb

a Санкт-Петербургский Федеральный исследовательский центр РАН, г. Санкт-Петербург, Российская Федерация
b Институт русской литературы (Пушкинский Дом) РАН, г. Санкт-Петербург, Российская Федерация

Аннотация: Создание научно-просветительского ресурса «Пушкин Цифровой» связано с необходимостью верстки стихотворных текстов на основе информации о верстке из других изданий. От издания к изданию тексты могут отличаться, и в каждом случае верстка осуществляется заново по правилам данного издания. Ручная верстка требует внимательности и существенных временных и трудовых затрат от специалиста, поскольку требуется сравнить несколько одинаковых текстов в нескольких изданиях. Представленный метод решает две задачи. Во-первых, определяется, насколько отличаются тексты в изданиях, обеспечивая возможность оценить количество ошибок или намеренных трансформаций текста, что является отдельным предметом исследования текстологов. Во-вторых, на основе оценки различия строк и нечеткого их сопоставления формируются правила верстки для каждой строки с учетом того, какие правила используются в ранних изданиях. Метод опробован на 914 текстах лирических произведений А.С. Пушкина, обеспечив корректный полный перенос верстки для 74,55 % текстов, тогда как для 25,45 % этого сделать не удалось и пришлось прибегнуть к ручной верстке.

Ключевые слова: нечеткое сравнение строк, расстояние Левенштейна, форматирование, обработка текста.

УДК: 004.912

MSC: 68T50

Поступила в редакцию: 19.12.2024

DOI: 10.14529/mmp250308



© МИАН, 2026