Аннотация:
Статья посвящена применению современных языковых моделей на основе BERT и трех типов лингвистических характеристик текста для автоматического определения жанра, а также сравнительному анализу данных моделей с точки зрения компьютерной и классической лингвистики. Собран корпус из русскоязычных Интернет-текстов восьми жанров: посты ВКонтакте, комментарии, статьи с портала Хабр, описания компаний, новости, научные статьи, реклама, отзывы на фильмы с сайта Кинопоиск. Каждый текст представлен в виде вектора числовых характеристик с помощью каждой из выбранных моделей: пяти вариаций BERT и лингвистических характеристик уровней символов, структуры и ритма.