RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Информатика и автоматизация, 2025, выпуск 24, том 6, страницы 1623–1648 (Mi trspy1401)

Искусственный интеллект, инженерия данных и знаний

Метод интеграции больших языковых моделей в алгоритмы фокусированного мониторинга открытых данных социальных медиа

А. М. Федоровab, И. О. Датьевb, И. Г. Вишняковb

a Филиал МАУ в г. Апатиты
b ИИММ КНЦ РАН

Аннотация: Актуальность исследования определяется важностью и сложностью выполнения оперативных обобщений постоянно возрастающего массива пользовательских сообщений в социальных сетях. Предлагается уменьшить сложность решаемой задачи за счет использования роботизированных алгоритмов и их автоматизированной интеллектуальной фокусировки на целевые платформы, доступность данных и их объемы. Рассматривается способность больших языковых моделей (LLMs) генерировать высококачественные, связные и контекстно-зависимые аннотации (рефераты), подходящие для динамической природы неструктурированных, «зашумленных» данных социальных сетей. Представлены особенности технологии RAG LLM при реферировании публикаций социальных сетей. Основным недостатком языковых моделей является нестабильность и сложность прослеживания результатов для подтверждения фактической точности. Авторами предложен гибридный метод для обобщения сообщений в социальных сетях за определенный период времени. Метод заключается в комплексном и вариативном сочетании классических способов извлечений данных из их хранилищ, а также реферативных и генеративных возможностей больших языковых моделей. Большие языковые модели использованы для векторизации анализируемых данных. Применение алгоритмов кластеризации к полученным векторным представлениям позволило повысить стабильность и качество результатов. В рамках технологии RAG возможности больших языковых моделей расширены средствами интеллектуального поиска в используемой для хранения исходных данных базе MongoDB. В работе представлены три конвейера, каждый из которых является вариантом реализации метода и обладает преимуществами и недостатками в различных условиях применения. Приведены используемые для оценки конвейеров метрики и произведен сравнительный анализ. В целом, метод позволяет уменьшить конфабуляции большой языковой модели и получать обобщения публикаций за разные временные периоды в режиме реального времени. Предложенный метод применяется на практике в разработанной авторами системе мониторинга открытых данных социальных медиа.

Ключевые слова: социальные медиа, публикации, обобщение, большие языковые модели, генерация дополненная поиском, интеллектуальные агенты, гибридный метод.

УДК: 004.8

Поступила в редакцию: 20.08.2025

DOI: 10.15622/ia.24.6.4



© МИАН, 2026