RUS  ENG
Полная версия
ЖУРНАЛЫ // Моделирование и анализ информационных систем // Архив

Модел. и анализ информ. систем, 2025, том 32, номер 4, страницы 384–395 (Mi mais857)

Artificial intelligence

Алгоритмы автоматической морфемной сегментации для белорусского языка: сравнение актуальных подходов

Д. А. Морозовa, Г. О. Феоктистовa, А. В. Глазковаb

a Новосибирский национальный исследовательский государственный университет, Новосибирск, Россия
b Тюменский государственный университет, Тюмень, Россия

Аннотация: Задача автоматической морфемной сегментации для морфологически богатых, но малоресурсных языков, таких как белорусский, остаётся недостаточно изученной. Настоящая работа представляет собой первое масштабное сравнительное исследование эффективности современных нейросетевых подходов к морфемной сегментации на материале белорусского языка. Мы сопоставили три подхода, показавших высокое качество в случае других языков: алгоритмы на базе свёрточных нейронных сетей, алгоритмы на основе LSTM-сетей и дообучение BERT-подобных моделей. Из-за малого числа доступных моноязычных белорусских моделей, мы также добавили к сравнению более крупные русскоязычные и многоязычные модели. Эксперименты проводились на свободно доступном наборе данных Slounik с использованием двух стратегий разбиения данных на обучающую и тестовую выборки. В первом случае разбиение было случайным, во втором случае слова были разбиты по корням так, чтобы однокоренные слова не могли попасть одновременно в обучающую и тестовую выборки. Наилучшей производительности в ходе экспериментов достиг ансамбль LSTM-сетей с долей полностью верных разборов 91.42% при случайном разбиении и 73.89% при разбиении по корням. Сопоставимые результаты продемонстрировали дообученные многоязычные и русскоязычные BERT-подобные модели, что подчёркивает возможность применения в этой задаче крупных моделей, в том числе, обученных на близкородственных и более ресурсообеспеченных языках. Анализ ошибок подтвердил, что большинство неточностей, как и для других славянских языков, связано с определением границ корня.

Ключевые слова: обработка естественного языка, автоматическая морфемная сегментация, глубокое обучение, белорусский язык, малоресурсные языки.

УДК: 004.912

MSC: 68T50

Поступила в редакцию: 16.09.2025
Исправленный вариант: 06.10.2025
Принята в печать: 10.10.2025

DOI: 10.18255/1818-1015-2025-4-384-395



© МИАН, 2026