RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 84–93 (Mi danma669)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Генерация описаний к изображениям на русском языке в формальном и разговорном стилях с использованием нейросетевого ансамбля

М. А. Привалов, А. С. Кожаринов

Федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский технологический университет "МИСИС", Москва, Россия

Аннотация: В статье описывается решение задачи генерации описаний к изображениям на русском языке с учетом двух стилей речи – формального и разговорного. Актуальность исследования обусловлена потребностью в инструментах, способствующих обучению русскому языку как иностранному, особенно в части освоения разговорного стиля. Предлагается подход, основанный на мультимодальной нейросетевой архитектуре типа энкодер-декодер (ансамбль), где в качестве энкодера выступает предобученная сверточная сеть (CNN) ResNet-152, а в качестве декодера – сеть LSTM. Улучшению качества генерации способствует механизм внимания Bahdanau Attention. В рамках работы был создан уникальный датасет на основе MS COCO путем его перевода и стилизации с помощью большой языковой модели GigaChat. При ансамблировании нейронных сетей применяется ruCLIPScore. Результаты исследования работоспособности ансамбля нейронных сетей показывают его превосходство по метрике ruCLIPScore над отдельными моделями, а также способность формировать стилистически разнообразные описания.

Ключевые слова: нейронные сети, обработка естественного языка, генерация подписей к изображениям, компьютерное зрение.

УДК: 004.8

Поступило: 19.08.2025
Принято к публикации: 15.09.2025

DOI: 10.7868/S2686954325070070



Реферативные базы данных:


© МИАН, 2026