A. Glazkova, O. Lyashevskaya, D. Morozov, I. Smal, “Transformer-based approaches for lemmatizing abbreviations in Russian texts”, Зап. научн. сем. ПОМИ, 2025, том 546,страницы 32

Transformer-based approaches for lemmatizing abbreviations in Russian texts

[Трансформерные подходы к лемматизации аббревиатур в русских текстах]

A. Glazkova^a, O. Lyashevskaya^bc, D. Morozov^de, I. Smal^d

^a University of Tyumen
^b Vinogradov Russian Language Institute RAS
^c HSE University
^d Novosibirsk State University
^e Russian National Corpus

Аннотация: В статье рассматривается задача лемматизации аббревиатур в русском языке. Сложность данной задачи заключается в том, что лемматизация аббревиатур требует не только приведения слова к его нормальной форме, но и выбора верного варианта воостановления аббревиатуры. В работе исследуются два подхода, основанные на использовании предварительно обученных больших языковых моделей. Первый подход – шенеративный, при котором модель формирует лемму в виде текстовой строки. Второй подход базируется на классифкаторах, выбирающих наиболее подходящую лемму для тех аббревиатур, которые имеют несколько распространённых вариантов расшифровки. В статье обсуждаются преимущества и ограничения обоих методов. Эксперименты проводились на материалах Национального корпуса русского языка. Библ. – 28 назв.

Ключевые слова: лемматизация, аббревиатуры, морфологический анализ, русский язык, классификация текстов, генеративные модели.

УДК: 004.912

Поступило: 28.02.2025

Язык публикации: английский