RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2025, том 546, страницы 174–192 (Mi znsl7636)

Knowledge as recollection: advancing multimodal retrieval-augmented generation

[Знание как припоминание: мультимодальная генерация, дополненная поиском]

R. Derunetsab, I. Bondarenkoab, M. Kulakovb, V. Prokopenkob, F. Tikhunovb

a Novosibirsk State University, Siberian Neuronets LLC
b Novosibirsk State University

Аннотация: В данной работе представлен алгоритм мультимодальной генерации высказываний с привлечением внешней базы знаний (Retrieval-Augmented Generation, RAG), позволяющий эффективно превратить текстовую большую языковую модель (LLM) в мультимодальную систему без необходимости проведения ресурсоёмкого мультимодального обучения. Предлагаемый подход использует текстовые модели, дополняя их извлечением внешних знаний из источников в различных модальностях (текст, изображение, аудио). Это позволяет снизить вычислительные затраты при сохранении конкурентоспособного качества.
Разработана модульная архитектура, включающая четыре ключевых компонента: “припоминание” (retrieval), “узнавание” (recognition), сопоставление (matching) и генерацию (generation). Предложена система, где извлечение реализуется с помощью тримодального эмбеддера общего назначения (ONE-PEACE), а также понижения размерности с применением метода главных компонент (PCA), что обеспечивает эффективный поиск в масштабной базе знаний на основе Википедии с использованием приближённого поиска ближайших соседей (Annoy). Компонент “узнавания” включает специализированные унимодальные модели (BLIP – для изображений, AST – для классификации аудио, Whisper – для распознавания речи), преобразующие входные данные в краткие текстовые описания. На этапе сопоставления описания соотносятся с извлечёнными данными на основе эмбеддингов предложений, сгенерированных MPNet, что позволяет сформировать релевантный контекст для генерации ответа.
Проведённая оценка на бенчмарках MMBench и Tiny LVLM демонстрирует способность системы решать различные визуально языковые задачи, оценка ответов показала высокий уровень здравого смысла рассуждений и низкий уровень галлюцинаций. Несмотря на компактность архитектуры и экономное использование ресурсов, система показывает качество, сопоставимое или превосходящее существующие мультимодальные LLM. Библ. – 46 назв.

Ключевые слова: большие языковые модели, мультимодальное машинное обучение, обработка естественного языка, генерация, дополненная поиском.

УДК: 004.912

Поступило: 25.02.2025

Язык публикации: английский



© МИАН, 2026