RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2025, том 546, страницы 32–47 (Mi znsl7628)

Transformer-based approaches for lemmatizing abbreviations in Russian texts

[Трансформерные подходы к лемматизации аббревиатур в русских текстах]

A. Glazkovaa, O. Lyashevskayabc, D. Morozovde, I. Smald

a University of Tyumen
b Vinogradov Russian Language Institute RAS
c HSE University
d Novosibirsk State University
e Russian National Corpus

Аннотация: В статье рассматривается задача лемматизации аббревиатур в русском языке. Сложность данной задачи заключается в том, что лемматизация аббревиатур требует не только приведения слова к его нормальной форме, но и выбора верного варианта воостановления аббревиатуры. В работе исследуются два подхода, основанные на использовании предварительно обученных больших языковых моделей. Первый подход – шенеративный, при котором модель формирует лемму в виде текстовой строки. Второй подход базируется на классифкаторах, выбирающих наиболее подходящую лемму для тех аббревиатур, которые имеют несколько распространённых вариантов расшифровки. В статье обсуждаются преимущества и ограничения обоих методов. Эксперименты проводились на материалах Национального корпуса русского языка. Библ. – 28 назв.

Ключевые слова: лемматизация, аббревиатуры, морфологический анализ, русский язык, классификация текстов, генеративные модели.

УДК: 004.912

Поступило: 28.02.2025

Язык публикации: английский



© МИАН, 2026