Д. А. Морозов, Г. О. Феоктистов, А. В. Глазкова, “Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов”, Модел. и анализ информ. систем, 2025, том 32, номер 4,страницы 384

Artificial intelligence

Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов

Д. А. Морозов^a, Г. О. Феоктистов^a, А. В. Глазкова^b

^a Новосибирский национальный исследовательский государственный университет, Новосибирск, Россия
^b Тюменский государственный университет, Тюмень, Россия

Аннотация: Задача автоматической морфемной сегментации для морфологически богатых, но малоресурсных языков, таких как белорусский, остаётся недостаточно изученной. Настоящая работа представляет собой первое масштабное сравнительное исследование эффективности современных нейросетевых подходов к морфемной сегментации на материале белорусского языка. Мы сопоставили три подхода, показавших высокое качество в случае других языков: алгоритмы на базе свёрточных нейронных сетей, алгоритмы на основе LSTM-сетей и дообучение BERT-подобных моделей. Из-за малого числа доступных моноязычных белорусских моделей, мы также добавили к сравнению более крупные русскоязычные и многоязычные модели. Эксперименты проводились на свободно доступном наборе данных Slounik с использованием двух стратегий разбиения данных на обучающую и тестовую выборки. В первом случае разбиение было случайным, во втором случае слова были разбиты по корням так, чтобы однокоренные слова не могли попасть одновременно в обучающую и тестовую выборки. Наилучшей производительности в ходе экспериментов достиг ансамбль LSTM-сетей с долей полностью верных разборов 91.42% при случайном разбиении и 73.89% при разбиении по корням. Сопоставимые результаты продемонстрировали дообученные многоязычные и русскоязычные BERT-подобные модели, что подчёркивает возможность применения в этой задаче крупных моделей, в том числе, обученных на близкородственных и более ресурсообеспеченных языках. Анализ ошибок подтвердил, что большинство неточностей, как и для других славянских языков, связано с определением границ корня.

Ключевые слова: обработка естественного языка, автоматическая морфемная сегментация, глубокое обучение, белорусский язык, малоресурсные языки.

УДК: 004.912

MSC: 68T50

Поступила в редакцию: 16.09.2025
Исправленный вариант: 06.10.2025
Принята в печать: 10.10.2025

DOI: 10.18255/1818-1015-2025-4-384-395