Аннотация:
В последние годы быстрый прогресс в компьютерном зрении значительно улучшил обработку и генерацию растровых изображений. При этом векторная графика – ключевая область цифрового дизайна благодаря масштабируемости и удобству редактирования – изучена сравнительно мало. Традиционные методы векторизации и генерации векторной графики часто требуют много времени и приводят к чрезмерно сложным результатам, что ограничивает их практическое применение. Появление крупных языковых моделей (LLM) открыло новые возможности для генерации, редактирования и анализа векторной графики, особенно в формате SVG, который представляет собой текстовую разметку и хорошо интегрируется с LLM.
В статье выполнен систематический обзор подходов на основе LLM к обработке SVG и выделены три ключевые задачи: генерация, редактирование и понимание. Рассмотрены заметные модели (IconShop, StrokeNUWA, StarVector) с анализом сильных и слабых сторон. Проанализированы бенчмарки для задач с SVG (SVGEditBench, VGBench, SGP-Bench) и приведены экспериментальные результаты для ряда LLM. Результаты показывают, что модели, доработанные для рассуждений о векторной графике, превосходят стандартные LLM, особенно в задачах генерации и понимания. В работе подчёркивается необходимость создания более разнообразных и богато аннотированных датасетов для дальнейшего улучшения возможностей LLM в задачах векторной графики.
Библ. – 45 назв.
Ключевые слова:
векторная графика, SVG, большие языковые модели, порождение изображений.