Universal adversarial perturbations

Abstract

本文提出了一种方法,对于深度神经网络分类器,存在通用的很小的干扰(肉眼难察觉)让分类器做出错误的判断。

Introduction

本文的贡献在于:

  • 证明了通用干扰的存在性
  • 给出了找到这种干扰的算法
  • universial体现在两个方面:

    • 用很小的训练集就可以训练出对于新图片都大概率有效的干扰
    • 对于深度神经网络泛化的很好

Universal perturbations

  • $\mu$ 表示 $\mathbb{R}^d$ 中图片的分布
  • $x \in \mathbb{R}^d$ 表示一张图片
  • $\hat{k}$ 表示分类函数, $\hat{k}(x)$ 表示图片 $x$ 的分类结果
  • $v$ 表示干扰向量
  • 最终目标:

    • $||v||_p \le \xi$ ,是很小的干扰,在范数上加以限制
    • $\mathop{\mathbb{P}}\limits_{x \sim \mu}(\hat{k}(x+v)\ne \hat{k}(x)) \ge 1-\delta$ ,干扰会大概率导致分类错误
  • 算法

    • 设 $X=\{x_1,\dots,x_m\}$ 是一组服从分布 $\mu$ 的图片,需要找到一个 $v$ 来使分类器分类错误。
    • 每一步 $\Delta v_i$ 都会找到一个边界点,即 $\Delta v_i \leftarrow \mathrm{arg} \min\limits_r ||r||_2 \mathrm{s.t.} \hat{k}(x_i+v+r) \ne \hat{k}(x_i)$ 。范数最小也就决定了它一定在边界上。
    • 另一个需要注意的就是如何让 $||v||_p \le \xi$ 一直被满足,用到重投影。每当不满足时,将点投影回最近的满足要求的点,即 $\mathcal{P}_{p,\xi}(v)=\mathrm{arg}\min_{v’}||v-v’||_2 \mathrm{s.t.} ||v’||_p \le \xi$ 。

Universal perturbations for deep nets

  • 在 ILSVRC2012 数据集上对不同网络进行实验:
  • 对于不同网络的干扰噪声示例,并不唯一:
  • 对于同一个网络使用不同的数据产生的不同噪声:

未完待续

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇