RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2025, том 37, выпуск 5, страницы 195–204 (Mi tisp1052)

Разработка защиты больших языковых моделей от состязательных атак в сценарии черного ящика на основе перефразирования

И. С. Алексеевскаяa, Д. В. Хайбуллинba, Д. Ю. Турдаковba

a Институт системного программирования им. В.П. Иванникова РАН
b Московский государственный университет имени М. В. Ломоносова

Аннотация: В последнее время актуальность генеративных моделей существенно возросла, а их область применения становится все больше. Однако, главная проблема современных больших языковых моделей заключается в том, что существуют состязательные атаки, с помощью которых можно заставить модель выдавать запрещенную информацию. В последних работах были представлены состязательные уязвимости в классе атак “побег из тюрьмы” (jailbreaks) на большие языковые модели в сценарии черного ящика на основе перефразирования. Мы стремимся продолжить и расширить данное исследование, а также разработать защищенные модели от подобных атак, используя для этого процедуру “красной команды” (red-teaming). Более того, мы проводим обширные эксперименты, которые оценивают качество генерации текстов защищенных моделей на различных бенчмарках.

Ключевые слова: выравнивание, большие языковые модели, атаки “побег из тюрьмы”, процедура “красной команды”, доверенный искусственный интеллект.

DOI: 10.15514/ISPRAS-2025-37(5)-15



© МИАН, 2026