B. Malashenko, I. Jarsky, V. Efimova, “Leveraging large language models for scalable vector graphics processing: a review”, Зап. научн. сем. ПОМИ, 2025, том 546,страницы 59

Leveraging large language models for scalable vector graphics processing: a review

[Использование крупных языковых моделей для обработки векторной графики (SVG): обзор]

B. Malashenko, I. Jarsky, V. Efimova

ITMO University, Kronverksky Pr. 49, St. Petersburg, Russia

Аннотация: В последние годы быстрый прогресс в компьютерном зрении значительно улучшил обработку и генерацию растровых изображений. При этом векторная графика – ключевая область цифрового дизайна благодаря масштабируемости и удобству редактирования – изучена сравнительно мало. Традиционные методы векторизации и генерации векторной графики часто требуют много времени и приводят к чрезмерно сложным результатам, что ограничивает их практическое применение. Появление крупных языковых моделей (LLM) открыло новые возможности для генерации, редактирования и анализа векторной графики, особенно в формате SVG, который представляет собой текстовую разметку и хорошо интегрируется с LLM.
В статье выполнен систематический обзор подходов на основе LLM к обработке SVG и выделены три ключевые задачи: генерация, редактирование и понимание. Рассмотрены заметные модели (IconShop, StrokeNUWA, StarVector) с анализом сильных и слабых сторон. Проанализированы бенчмарки для задач с SVG (SVGEditBench, VGBench, SGP-Bench) и приведены экспериментальные результаты для ряда LLM. Результаты показывают, что модели, доработанные для рассуждений о векторной графике, превосходят стандартные LLM, особенно в задачах генерации и понимания. В работе подчёркивается необходимость создания более разнообразных и богато аннотированных датасетов для дальнейшего улучшения возможностей LLM в задачах векторной графики.
Библ. – 45 назв.

Ключевые слова: векторная графика, SVG, большие языковые модели, порождение изображений.

УДК: 004.932

Поступило: 28.02.2025

Язык публикации: английский