Аннотация:
Устойчивость нейронных сетей к состязательным возмущениям в условиях «чёрного ящика» остаётся сложной проблемой. Большинство существующих методов атак требуют чрезмерного количества запросов к целевой модели, что ограничивает их практическую применимость. В данной работе мы предлагаем подход, в котором суррогатная модель-ученик итеративно обучается на неудачных попытках атак, постепенно изучая локальное поведение модели «чёрного ящика». Эксперименты показывают, что этот метод значительно сокращает количество необходимых запросов, сохраняя при этом высокую вероятность успеха атак.