Аннотация:
В статье описывается решение задачи генерации описаний к изображениям на русском языке с учетом двух стилей речи – формального и разговорного. Актуальность исследования обусловлена потребностью в инструментах, способствующих обучению русскому языку как иностранному, особенно в части освоения разговорного стиля. Предлагается подход, основанный на мультимодальной нейросетевой архитектуре типа энкодер-декодер (ансамбль), где в качестве энкодера выступает предобученная сверточная сеть (CNN) ResNet-152, а в качестве декодера – сеть LSTM. Улучшению качества генерации способствует механизм внимания Bahdanau Attention. В рамках работы был создан уникальный датасет на основе MS COCO путем его перевода и стилизации с помощью большой языковой модели GigaChat. При ансамблировании нейронных сетей применяется ruCLIPScore. Результаты исследования работоспособности ансамбля нейронных сетей показывают его превосходство по метрике ruCLIPScore над отдельными моделями, а также способность формировать стилистически разнообразные описания.
Ключевые слова:
нейронные сети, обработка естественного языка, генерация подписей к изображениям, компьютерное зрение.
УДК:
004.8
Поступило: 19.08.2025 Принято к публикации: 15.09.2025