Аннотация:
Создание научно-просветительского ресурса «Пушкин Цифровой» связано с необходимостью верстки стихотворных текстов на основе информации о верстке из других изданий. От издания к изданию тексты могут отличаться, и в каждом случае верстка осуществляется заново по правилам данного издания. Ручная верстка требует внимательности и существенных временных и трудовых затрат от специалиста, поскольку требуется сравнить несколько одинаковых текстов в нескольких изданиях. Представленный метод решает две задачи. Во-первых, определяется, насколько отличаются тексты в изданиях, обеспечивая возможность оценить количество ошибок или намеренных трансформаций текста, что является отдельным предметом исследования текстологов. Во-вторых, на основе оценки различия строк и нечеткого их сопоставления формируются правила верстки для каждой строки с учетом того, какие правила используются в ранних изданиях. Метод опробован на 914 текстах лирических произведений А.С. Пушкина, обеспечив корректный полный перенос верстки для 74,55 % текстов, тогда как для 25,45 % этого сделать не удалось и пришлось прибегнуть к ручной верстке.
Ключевые слова:
нечеткое сравнение строк, расстояние Левенштейна, форматирование, обработка текста.