В. В. Чаругин, В. В. Чаругин, А. В. Ставцев, А. Н. Чесалин, “Анализ методов предобработки программного кода для повышения эффективности применения больших языковых моделей в задачах обнаружения уязвимостей”, Comp. nanotechnol., 2025, том 12, выпуск 3,страницы 67

СИСТЕМНЫЙ АНАЛИЗ, УПРАВЛЕНИЕ И ОБРАБОТКА ИНФОРМАЦИИ, СТАТИСТИКА

Анализ методов предобработки программного кода для повышения эффективности применения больших языковых моделей в задачах обнаружения уязвимостей

В. В. Чаругин, В. В. Чаругин, А. В. Ставцев, А. Н. Чесалин

МИРЭА – Российский технологический университет

Аннотация: С ростом масштабов и сложности программного обеспечения возрастает потребность в интеллектуальных способах выявления уязвимостей. Одним из таких способов является применение больших языковых моделей, обученных на программном коде, способных анализировать и классифицировать уязвимые участки на ранних этапах разработки. Эффективность моделей зависит от способа представления кода и подготовки входных данных. Методы предобработки могут существенно влиять на точность и устойчивость модели. Цель исследования: провести анализ влияния различных методов предобработки программного кода на точность и устойчивость больших языковых моделей (CodeBERT, GraphCodeBERT, UniXcoder) в задачах выявления уязвимостей. Анализ проводится на основе изменений исходного кода, полученных из коммитов, связанных с уязвимостями базы данных CVE. Методология исследования представляет собой экспериментальный анализ эффективности и устойчивости моделей CodeBERT, GraphCodeBERT и UniXcoder при решении задачи классификации уязвимостей. Эффективность оценивается на основе метрик Accuracy и F1 score. Результаты исследования: получены оценки эффективности различных методов предобработки программного кода при использовании больших языковых моделей в задачах классификации уязвимостей.

Ключевые слова: большие языковые модели, предобработка кода, анализ уязвимостей, безопасность программного обеспечения, категории уязвимостей, статистический анализ.

УДК: 004.032.26

DOI: 10.33693/2313-223X-2025-12-3-67-79