Д. Д. Панов, Н. В. Шимчик, Д. А. Чибисов, А. А. Белеванцев, В. Н. Игнатьев, “Повышение точности статического анализа кода при помощи больших языковых моделей”, Труды ИСП РАН, 2025, том 37, выпуск 6(1),страницы 83

Повышение точности статического анализа кода при помощи больших языковых моделей

Д. Д. Панов^ab, Н. В. Шимчик^ab, Д. А. Чибисов^ab, А. А. Белеванцев^ab, В. Н. Игнатьев^ab

^a Институт системного программирования им. В.П. Иванникова РАН
^b Московский государственный университет имени М. В. Ломоносова

Аннотация: В данной работе описывается подход к проверке результатов статического анализа кода при помощи больших языковых моделей (LLM), выполняющий фильтрацию предупреждений с целью удаления ложных. Для составления запроса к LLM предложенный подход сохраняет информацию, собранную анализатором, такую как абстрактное синтаксическое дерево программы, таблицы символов, резюме типов и функций. Эта информация может как напрямую передаваться в запросе к модели, так и использоваться для более точного определения фрагментов кода, необходимых для проверки истинности предупреждения. Подход был реализован в SharpChecker – промышленном статическом анализаторе для языка C#. Его тестирование на реальном коде показало повышение точности результатов на величину до 10 процентных пунктов при сохранении высокой полноты (от 0,8 до 0,97) для чувствительных к контексту и путям межпроцедурных детекторов утечки ресурсов, разыменования null и целочисленного переполнения. Для детектора недостижимого кода применение информации из статического анализатора позволило повысить полноту на 11–27 процентных пунктов по сравнению с подходом, использующим в запросе только исходный код программы.

Ключевые слова: статический анализ кода, большие языковые модели LLM

DOI: 10.15514/ISPRAS-2025-37(6)-5