RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2025, том 37, выпуск 4(2), страницы 133–146 (Mi tisp1030)

Извлечение знаний в ограниченной области для примеров состязательных атак «черного ящика»

К. С. Лукьяновabc, А. И. Перминовa, Д. Ю. Турдаковac, М. А. Паутовcd

a Институт системного программирования им. В.П. Иванникова РАН
b Московский физико-технический институт (национальный исследовательский университет)
c Исследовательский центр доверенного искусственного интеллекта ИСП РАН
d AIRI - научно-исследовательский институт искусственного интеллекта

Аннотация: Устойчивость нейронных сетей к состязательным возмущениям в условиях «чёрного ящика» остаётся сложной проблемой. Большинство существующих методов атак требуют чрезмерного количества запросов к целевой модели, что ограничивает их практическую применимость. В данной работе мы предлагаем подход, в котором суррогатная модель-ученик итеративно обучается на неудачных попытках атак, постепенно изучая локальное поведение модели «чёрного ящика». Эксперименты показывают, что этот метод значительно сокращает количество необходимых запросов, сохраняя при этом высокую вероятность успеха атак.

Ключевые слова: состязательная атака черного ящика, извлечение знаний

DOI: 10.15514/ISPRAS-2025-37(4)-23



© МИАН, 2026