Аннотация:
Тематическое моделирование является ключевым инструментом для анализа больших текстовых данных, позволяя выявлять скрытые смысловые структуры. Однако традиционные методы, такие как LDA, сталкиваются с проблемами при работе с многозначными и монолексемными токенами, что снижает точность и интерпретируемость результатов. Целью исследования является разработка метода моделирования тематического окружения терминов на основе модифицированного подхода LDA (Latent Dirichlet Allocation), интегрирующего контекстные признаки, векторные представления слов и внешние тезаурусы. Основные задачи включали: учет многозначности терминов, а также повышение интерпретируемости тематических кластеров. В работе используется математическая модель, объединяющая вероятностное тематическое моделирование с векторным представлением, что позволяет различать значения терминов и устанавливать точные связи между ними. Результаты, полученные на корпусах публикаций Dimensions AI и PubMed, демонстрируют улучшенное распределение терминов в тематических кластерах, включая анализ частоты встречаемости и векторное сходство. Исследование подтверждает эффективность комбинированного подхода для обработки сложных лингвистических конструкций в автоматизированном анализе текстов.