RUS  ENG
Полная версия
ЖУРНАЛЫ // Моделирование и анализ информационных систем // Архив

Модел. и анализ информ. систем, 2025, том 32, номер 3, страницы 298–310 (Mi mais853)

Artificial intelligence

Сравнение современных моделей русскоязычных текстов для задачи классификации по уровням CEFR

В. А. Лавровский, Н. С. Лагутина, О. Б. Лавровская

Ярославский государственный университет им. П.Г. Демидова, Ярославль, Россия

Аннотация: Разработка качественных инструментов автоматического определения уровней текстов по шкале CEFR позволяет создавать учебные и проверочные материалы более быстро и объективно. В данной работе авторы исследуют два типа современных моделей текста: лингвистические характеристики и эмбеддинги больших языковых моделей для задачи классификации русскоязычных текстов по шести уровням CEFR: A1—C2 и трём укрупнённым категориям A, B, C. Два вида моделей явным образом представляет текст в виде вектора числовых характеристик. При этом разделение текста на уровни рассматривается как обычная задача классификации в области компьютерной лингвистики. Эксперименты проводились с собственным корпусом из 1904 текстов. Лучшее качество достигается rubert-base-cased-conversational без дополнительной адаптации при определении как шести, так и трёх категорий текста. Максимальное значение F-меры для уровней A, B, C равно 0,77. Максимальное значение F-меры для прогнозирования шести категорий текста равно 0,67. Качество определения уровня текста больше зависит от модели, чем от алгоритма классификации машинного обучения. Результаты отличаются друг от друга не более чем на 0,01-0,02, особенно это касается ансамблевых методов.

Ключевые слова: автоматическая обработка текста, классификация русскоязычных текстов, лингвистические характеристики, эмбеддинги, BERT, GPT, CEFR.

УДК: 004.912

MSC: 68T50

Поступила в редакцию: 04.08.2025
Исправленный вариант: 25.08.2025
Принята в печать: 27.08.2025

DOI: 10.18255/1818-1015-2025-3-298-310



© МИАН, 2026