RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 146–155 (Mi danma674)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Дискриминативная лемматизация сокращений в эпоху LLM

А. В. Глазковаab, И. А. Смальc, О. Н. Ляшевскаяde, Д. А. Морозовbc

a Тюменский государственный университет, Тюмень, Россия
b Национальный корпус русского языка, Москва, Россия
c Новосибирский государственный университет, Новосибирск, Россия
d Высшая школа экономики, Москва, Россия
e Институт русского языка имени В.В. Виноградова, Москва, Россия

Аннотация: В работе представлено исследование эффективности дискриминативных методов лемматизации сокращений в русскоязычных текстах. В отличие от генеративных подходов, дискриминативные модели осуществляют выбор оптимальной леммы из фиксированного набора вариантов, что исключает риск генерации грамматически некорректных словоформ. Впервые для русского языка проводится комплексный анализ четырех контекстно-ориентированных подходов: (1) ранжирования на основе маскированного языкового моделирования, (2) бинарной классификации, (3) многоклассовой классификации, а также (4) обучения с использованием инструкций. Особое внимание уделено случаям контекстной неоднозначности, когда одно сокращение в пределах одного текстового фрагмента соответствует разным лемам. Результаты демонстрируют, что многоклассовая классификация с дообучением предобученных моделей достигает наивысшего качества (F-мера с макроусреднением – 97.75–99.92% в зависимости от сокращения); однако в условиях ограниченного объема обучающих данных обучение с использованием инструкций и ранжирование на основе маскированного языкового моделирования показывают перспективные результаты. Кроме того, эффективность данных подходов возрастает в случаях контекстной неоднозначности. Исследование вносит вклад в развитие методов обработки русскоязычных текстов, предлагая практические рекомендации по выбору архитектур для задач лемматизации сокращений.

Ключевые слова: лемматизация, сокращения, русский язык, дискриминативные методы, классификация текстов, обработка естественного языка.

УДК: 004.8

Поступило: 21.08.2025
Принято к публикации: 22.09.2025

DOI: 10.7868/S2686954325070124



Реферативные базы данных:


© МИАН, 2026