RUS  ENG
Полная версия
ЖУРНАЛЫ // Управление большими системами // Архив

УБС, 2025, выпуск 116, страницы 47–67 (Mi ubs1299)

Системный анализ

Кластеризация текстов финансовых сообщений

А. А. Егоркин

ФГБОУ ВО Российский государственный социальный университет, Москва

Аннотация: Работа посвящена задаче кластеризации текстов финансовых сообщений алгоритмами машинного обучения. С помощью алгоритмов кластеризации можно выделить группы похожих финансовых сообщений, выделить среди них однотипные или подозрительные, а также использовать в дальнейшем анализе найденные кластеры, а не сами тексты сообщений. В работе используются такие алгоритмы кластеризации как K-means, DBSCAN и иерархический метод кластеризации. В качестве текстов финансовых сообщений в работе используется информация о банковских транзакциях. Ввиду того, что банковские проводки подчинены строгим правилам бухгалтерского учета, устанавливаемым Банком России, представляется возможным ввести метрику оценки качества кластеризации. Данная метрика позволяет ранжировать между собой качество кластеризации с помощью алгоритмов машинного обучения, а также подобрать параметры, используемые при обучении данных моделей. Отдельное внимание в статье уделено особенностям используемых данных и тому, каким образом эти особенности могут быть учтены в практической части. В практической части работы приводятся результаты применения моделей кластеризации с указанием оптимальных параметров данных алгоритмов. В заключении делается вывод о лучших алгоритмах кластеризации применительно к финансовым текстам.

Ключевые слова: метод k-средних, DBSCAN, иерархический метод кластеризации, кластеризация финансовых сообщений.

УДК: 519.8
ББК: 22.18

Поступила в редакцию: 14 февраля 2025 г.
Опубликована: 31 июля 2025 г.

DOI: 10.25728/ubs.2025.116.3



© МИАН, 2026