И. С. Алексеевская, Д. В. Хайбуллин, Д. Ю. Турдаков, “Разработка защиты больших языковых моделей от состязательных атак в сценарии черного ящика на основе перефразирования”, Труды ИСП РАН, 2025, том 37, выпуск 5,страницы 195

Разработка защиты больших языковых моделей от состязательных атак в сценарии черного ящика на основе перефразирования

И. С. Алексеевская^a, Д. В. Хайбуллин^ba, Д. Ю. Турдаков^ba

^a Институт системного программирования им. В.П. Иванникова РАН
^b Московский государственный университет имени М. В. Ломоносова

Аннотация: В последнее время актуальность генеративных моделей существенно возросла, а их область применения становится все больше. Однако, главная проблема современных больших языковых моделей заключается в том, что существуют состязательные атаки, с помощью которых можно заставить модель выдавать запрещенную информацию. В последних работах были представлены состязательные уязвимости в классе атак “побег из тюрьмы” (jailbreaks) на большие языковые модели в сценарии черного ящика на основе перефразирования. Мы стремимся продолжить и расширить данное исследование, а также разработать защищенные модели от подобных атак, используя для этого процедуру “красной команды” (red-teaming). Более того, мы проводим обширные эксперименты, которые оценивают качество генерации текстов защищенных моделей на различных бенчмарках.

Ключевые слова: выравнивание, большие языковые модели, атаки “побег из тюрьмы”, процедура “красной команды”, доверенный искусственный интеллект.

DOI: 10.15514/ISPRAS-2025-37(5)-15