Аннотация:
Современные большие языковые модели (LLM), обученные на коде, предлагают новые подходы к автоматическому распознаванию шаблонов проектирования. Однако влияние различных представлений кода на точность классификации с использованием LLM остается
недостаточно исследованным. Настоящая работа оценивает эффективность классификаторов, обученных на эмбеддингах CodeT5, DeepSeek-Coder и LLaMA (7B и 13B), с использованием набора DPD-Att (14 категорий, включая “Unknown”). Эмбеддинги CodeT5 демонстрируют наилучшие и наиболее стабильные результаты (до 85% точности), в то время как DeepSeek-Coder и LLaMA показывают конкурентные, но менее устойчивые показатели.
Ключевые слова:
эмбеддинги кода, анализ программного кода, представление кода, распознавание шаблонов, обнаружение шаблонов проектирования.