Abstract

本文提出了一种方法,对于深度神经网络分类器,存在通用的很小的干扰(肉眼难察觉)让分类器做出错误的判断。

Introduction

本文的贡献在于:

  • 证明了通用干扰的存在性
  • 给出了找到这种干扰的算法
  • universial体现在两个方面:

    • 用很小的训练集就可以训练出对于新图片都大概率有效的干扰
    • 对于深度神经网络泛化的很好

Universal perturbations

  • $\mu$ 表示 $\mathbb{R}^d$ 中图片的分布
  • $x \in \mathbb{R}^d$ 表示一张图片
  • $\hat{k}$ 表示分类函数, $\hat{k}(x)$ 表示图片 $x$ 的分类结果
  • $v$ 表示干扰向量
  • 最终目标:

    • $||v||_p \le \xi$ ,是很小的干扰,在范数上加以限制
    • $\mathop{\mathbb{P}}\limits_{x \sim \mu}(\hat{k}(x+v)\ne \hat{k}(x)) \ge 1-\delta$ ,干扰会大概率导致分类错误
  • 算法

    • 设 $X=\{x_1,\dots,x_m\}$ 是一组服从分布 $\mu$ 的图片,需要找到一个 $v$ 来使分类器分类错误。
    • 每一步 $\Delta v_i$ 都会找到一个边界点,即 $\Delta v_i \leftarrow \mathrm{arg} \min\limits_r ||r||_2 \mathrm{s.t.} \hat{k}(x_i+v+r) \ne \hat{k}(x_i)$ 。范数最小也就决定了它一定在边界上。
    • 另一个需要注意的就是如何让 $||v||_p \le \xi$ 一直被满足,用到重投影。每当不满足时,将点投影回最近的满足要求的点,即 $\mathcal{P}_{p,\xi}(v)=\mathrm{arg}\min_{v'}||v-v'||_2 \mathrm{s.t.} ||v'||_p \le \xi$ 。

Universal perturbations for deep nets

  • 在 ILSVRC2012 数据集上对不同网络进行实验:
  • 对于不同网络的干扰噪声示例,并不唯一:
  • 对于同一个网络使用不同的数据产生的不同噪声:

未完待续

最后修改:2021 年 01 月 07 日 06 : 02 PM
如果觉得我的文章对你有用,请随意赞赏