RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2017, том 29, выпуск 2, страницы 161–200 (Mi tisp214)

Эта публикация цитируется в 15 статьях

Обзор и экспериментальное сравнение методов кластеризации текстов

П. А. Пархоменкоab, А. А. Григорьевbc, Н. А. Астраханцевb

a Московский государственный университет имени М.В. Ломоносова
b Институт системного программирования РАН
c Национальный исследовательский университет "Высшая школа экономики"

Аннотация: Кластеризация текстовых документов применяется во многих приложениях, таких как информационный поиск, исследовательский поиск, определение спама. Этой задаче посвящено множество научных работ, однако в настоящее время остается недостаточно изученным влияние специфики научных статей, в частности принадлежности документов одной предметной области или недоступности полных текстов, на эффективность кластеризации. В данной работе предлагаются обзор и экспериментальное сравнение методов кластеризации текстовых документов в приложении к научным статьям. Исследуются методы, основанные на мешке слов, извлечении терминологии, тематическом моделировании, а также векторном представлении слов (word embedding) и документов, полученном с помощью искусственных нейронных сетей (word2vec, paragraph2vec).

Ключевые слова: кластеризация текстовых документов, мешок слов, извлечение терминологии, тематическое моделирование, векторное представление, искусственные нейронные сети.

DOI: 10.15514/ISPRAS-2017-29(2)-6



Реферативные базы данных:


© МИАН, 2026