Аннотация:
В статье рассматривается задача лемматизации аббревиатур в русском языке. Сложность данной задачи заключается в том, что лемматизация аббревиатур требует не только приведения слова к его нормальной форме, но и выбора верного варианта воостановления аббревиатуры. В работе исследуются два подхода, основанные на использовании предварительно обученных больших языковых моделей. Первый подход – шенеративный, при котором модель формирует лемму в виде текстовой строки. Второй подход базируется на классифкаторах, выбирающих наиболее подходящую лемму для тех аббревиатур, которые имеют несколько распространённых вариантов расшифровки. В статье обсуждаются преимущества и ограничения обоих методов. Эксперименты проводились на материалах Национального корпуса русского языка. Библ. – 28 назв.
Ключевые слова:
лемматизация, аббревиатуры, морфологический анализ, русский язык, классификация текстов, генеративные модели.