RUS  ENG
Полная версия
ЖУРНАЛЫ // Искусственный интеллект и принятие решений // Архив

Искусственный интеллект и принятие решений, 2023, выпуск 4, страницы 103–114 (Mi iipr52)

Анализ текстовой и графической информации

Автоматическая классификация русскоязычных Интернет-текстов по жанрам

К. В. Лагутинаa, Е. И. Бойчукb, Н. С. Лагутинаa

a Ярославский государственный университет им. П. Г. Демидова, Ярославль, Россия
b Ярославский государственный педагогический университет им. К. Д. Ушинского, Ярославль, Россия

Аннотация: Статья посвящена применению современных языковых моделей на основе BERT и трех типов лингвистических характеристик текста для автоматического определения жанра, а также сравнительному анализу данных моделей с точки зрения компьютерной и классической лингвистики. Собран корпус из русскоязычных Интернет-текстов восьми жанров: посты ВКонтакте, комментарии, статьи с портала Хабр, описания компаний, новости, научные статьи, реклама, отзывы на фильмы с сайта Кинопоиск. Каждый текст представлен в виде вектора числовых характеристик с помощью каждой из выбранных моделей: пяти вариаций BERT и лингвистических характеристик уровней символов, структуры и ритма.

Ключевые слова: стилометрия, обработка естественного языка, ритмические характеристики, жанры, классификация текстов, BERT.

DOI: 10.14357/20718594230410



Реферативные базы данных:


© МИАН, 2026