О. В. Золотарев, В. А. Юрчак, “Модификация метода моделирования тематического окружения терминов на основе подхода LDA”, Comp. nanotechnol., 2025, том 12, выпуск 2,страницы 19

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И МАШИННОЕ ОБУЧЕНИЕ

Модификация метода моделирования тематического окружения терминов на основе подхода LDA

О. В. Золотарев, В. А. Юрчак

Российский новый университет

Аннотация: Тематическое моделирование является ключевым инструментом для анализа больших текстовых данных, позволяя выявлять скрытые смысловые структуры. Однако традиционные методы, такие как LDA, сталкиваются с проблемами при работе с многозначными и монолексемными токенами, что снижает точность и интерпретируемость результатов. Целью исследования является разработка метода моделирования тематического окружения терминов на основе модифицированного подхода LDA (Latent Dirichlet Allocation), интегрирующего контекстные признаки, векторные представления слов и внешние тезаурусы. Основные задачи включали: учет многозначности терминов, а также повышение интерпретируемости тематических кластеров. В работе используется математическая модель, объединяющая вероятностное тематическое моделирование с векторным представлением, что позволяет различать значения терминов и устанавливать точные связи между ними. Результаты, полученные на корпусах публикаций Dimensions AI и PubMed, демонстрируют улучшенное распределение терминов в тематических кластерах, включая анализ частоты встречаемости и векторное сходство. Исследование подтверждает эффективность комбинированного подхода для обработки сложных лингвистических конструкций в автоматизированном анализе текстов.

Ключевые слова: метод LDA, тезаурусы, многозначные токены, монолексемные токены, Dimensions AI, PubMed.

УДК: 004.827

DOI: 10.33693/2313-223X-2025-12-2-19-27