Аннотация:
С ростом масштабов и сложности программного обеспечения возрастает потребность в интеллектуальных способах выявления уязвимостей. Одним из таких способов является применение больших языковых моделей, обученных на программном коде, способных анализировать и классифицировать уязвимые участки на ранних этапах разработки. Эффективность моделей зависит от способа представления кода и подготовки входных данных. Методы предобработки могут существенно влиять на точность и устойчивость модели. Цель исследования: провести анализ влияния различных методов предобработки программного кода на точность и устойчивость больших языковых моделей (CodeBERT, GraphCodeBERT, UniXcoder) в задачах выявления уязвимостей. Анализ проводится на основе изменений исходного кода, полученных из коммитов, связанных с уязвимостями базы данных CVE. Методология исследования представляет собой экспериментальный анализ эффективности и устойчивости моделей CodeBERT, GraphCodeBERT и UniXcoder при решении задачи классификации уязвимостей. Эффективность оценивается на основе метрик Accuracy и F1 score. Результаты исследования: получены оценки эффективности различных методов предобработки программного кода при использовании больших языковых моделей в задачах классификации уязвимостей.
Ключевые слова:
большие языковые модели, предобработка кода, анализ уязвимостей, безопасность программного обеспечения, категории уязвимостей, статистический анализ.