А. М. Федоров, И. О. Датьев, И. Г. Вишняков, “Метод интеграции больших языковых моделей в алгоритмы фокусированного мониторинга открытых данных социальных медиа”, Информатика и автоматизация, 2025, выпуск 24, том 6,страницы 1623

Искусственный интеллект, инженерия данных и знаний

Метод интеграции больших языковых моделей в алгоритмы фокусированного мониторинга открытых данных социальных медиа

А. М. Федоров^ab, И. О. Датьев^b, И. Г. Вишняков^b

^a Филиал МАУ в г. Апатиты
^b ИИММ КНЦ РАН

Аннотация: Актуальность исследования определяется важностью и сложностью выполнения оперативных обобщений постоянно возрастающего массива пользовательских сообщений в социальных сетях. Предлагается уменьшить сложность решаемой задачи за счет использования роботизированных алгоритмов и их автоматизированной интеллектуальной фокусировки на целевые платформы, доступность данных и их объемы. Рассматривается способность больших языковых моделей (LLMs) генерировать высококачественные, связные и контекстно-зависимые аннотации (рефераты), подходящие для динамической природы неструктурированных, «зашумленных» данных социальных сетей. Представлены особенности технологии RAG LLM при реферировании публикаций социальных сетей. Основным недостатком языковых моделей является нестабильность и сложность прослеживания результатов для подтверждения фактической точности. Авторами предложен гибридный метод для обобщения сообщений в социальных сетях за определенный период времени. Метод заключается в комплексном и вариативном сочетании классических способов извлечений данных из их хранилищ, а также реферативных и генеративных возможностей больших языковых моделей. Большие языковые модели использованы для векторизации анализируемых данных. Применение алгоритмов кластеризации к полученным векторным представлениям позволило повысить стабильность и качество результатов. В рамках технологии RAG возможности больших языковых моделей расширены средствами интеллектуального поиска в используемой для хранения исходных данных базе MongoDB. В работе представлены три конвейера, каждый из которых является вариантом реализации метода и обладает преимуществами и недостатками в различных условиях применения. Приведены используемые для оценки конвейеров метрики и произведен сравнительный анализ. В целом, метод позволяет уменьшить конфабуляции большой языковой модели и получать обобщения публикаций за разные временные периоды в режиме реального времени. Предложенный метод применяется на практике в разработанной авторами системе мониторинга открытых данных социальных медиа.

Ключевые слова: социальные медиа, публикации, обобщение, большие языковые модели, генерация дополненная поиском, интеллектуальные агенты, гибридный метод.

УДК: 004.8

Поступила в редакцию: 20.08.2025

DOI: 10.15622/ia.24.6.4