Knowledge as recollection: advancing multimodal retrieval-augmented generation
[Знание как припоминание: мультимодальная генерация, дополненная поиском]
R. Derunetsab,
I. Bondarenkoab,
M. Kulakovb,
V. Prokopenkob,
F. Tikhunovb a Novosibirsk State University, Siberian Neuronets LLC
b Novosibirsk State University
Аннотация:
В данной работе представлен алгоритм мультимодальной генерации высказываний с привлечением внешней базы знаний (Retrieval-Augmented Generation, RAG), позволяющий эффективно превратить текстовую большую языковую модель (LLM) в мультимодальную систему без необходимости проведения ресурсоёмкого мультимодального обучения. Предлагаемый подход использует текстовые модели, дополняя их извлечением внешних знаний из источников в различных модальностях (текст, изображение, аудио). Это позволяет снизить вычислительные затраты при сохранении конкурентоспособного качества.
Разработана модульная архитектура, включающая четыре ключевых компонента: “припоминание” (retrieval), “узнавание” (recognition), сопоставление (matching) и генерацию (generation). Предложена система, где извлечение реализуется с помощью тримодального эмбеддера общего назначения (ONE-PEACE), а также понижения размерности с применением метода главных компонент (PCA), что обеспечивает эффективный поиск в масштабной базе знаний на основе Википедии с использованием приближённого поиска ближайших соседей (Annoy). Компонент “узнавания” включает специализированные унимодальные модели (BLIP – для изображений, AST – для классификации аудио, Whisper – для распознавания речи), преобразующие входные данные в краткие текстовые описания. На этапе сопоставления описания соотносятся с извлечёнными данными на основе эмбеддингов предложений, сгенерированных MPNet, что позволяет сформировать релевантный контекст для генерации ответа.
Проведённая оценка на бенчмарках MMBench и Tiny LVLM демонстрирует способность системы решать различные визуально языковые задачи, оценка ответов показала высокий уровень здравого смысла рассуждений и низкий уровень галлюцинаций. Несмотря на компактность архитектуры и экономное использование ресурсов, система показывает качество, сопоставимое или превосходящее существующие мультимодальные LLM. Библ. – 46 назв.
Ключевые слова:
большие языковые модели, мультимодальное машинное обучение, обработка естественного языка, генерация, дополненная поиском.
УДК:
004.912
Поступило: 25.02.2025
Язык публикации: английский