Deep Learning | Chapter 7 · Regularization for Deep Learning
  • 机器学习的核心问题在于泛化。
  • 大多数正则化策略是对估计进行正则化,以 bias 的增加换取方差的减少。

7.1 Parameter Norm Penalties

  • $\tilde{J}(\pmb{\theta};\pmb{X},\pmb{y})=J(\pmb{\theta};\pmb{X},\pmb{y})+\alpha \Omega(\pmb{\theta})$

7.1.1 $L^2$ Parameter Regularization

  • $\Omega(\pmb{\theta})=\frac{1}{2}||\pmb{w}||^2_2$ ,即 $\tilde{J}(\pmb{\theta};\pmb{X},\pmb{y})=\frac{\alpha}{2}\pmb{w}^{\mathrm{T}}\pmb{w}J(\pmb{\theta};\pmb{X},\pmb{y})$
  • 从局部看, $\tilde{J}$ 对于 $\pmb{w}$ 求梯度,再使用梯度下降法,每一步 $w$ 会进行更新:$\pmb{w}-\epsilon (\alpha \pmb{w}+\nabla_{\pmb{w}}J(\pmb{w};\pmb{X},\pmb{y}))$ ,可以看出 $\pmb{w}$ 在每一步中都会收缩。
  • 从全局看,假设对损失函数 $J$ 进行关于 $\pmb{w}=\mathop{\arg\min}_{\pmb{w}}J(\pmb{w})$二次近似,可以得到 $\hat{J}(\pmb{\theta})=J(\pmb{w}^*)+\frac{1}{2}(\pmb{w}-\pmb{w}^*)^\mathrm{T}H(\pmb{w}-\pmb{w}^*)$ 。这里也就是泰勒的二次展开,只不过一次项中由于有梯度因子 $\pmb{g}$ 所以为 $0$ 。

    • 在此基础上加上正则项可以得到 $\hat{J}(\pmb{\theta})=J(\pmb{w}^*)+\frac{1}{2}(\pmb{w}-\pmb{w}^*)^\mathrm{T}H(\pmb{w}-\pmb{w}^*)+\frac{\alpha}{2}\pmb{w}^\mathrm{T}\pmb{w}$ 。
    • 为了求得使目标损失函数 $J$ 最小化的权重,求其梯度并使之为 $0$ ,可以得到 $\alpha \pmb{w}+H(\pmb{w}-\pmb{w}^*)=0$ ,进一步解如下。也就是说 $L^2$ 正则项的目的就是把原先的解 $\pmb{w}^*$ 沿着 $H$ 的特征向量以 $\frac{\lambda_i}{\lambda_i + \alpha}$ 因子缩放。
    • 也就是这个图,我的理解是:对梯度影响较小的方向,也就是图中的横向,正则项对其影响较大,也就容易引起权重衰减;反之,对于梯度影响较小的方向,正则项对其影响较小,不会引起权重衰减。

7.1.2 $L^1$ Regularization

  • $\Omega(\pmb{\theta})=||\pmb{w}||_1=\sum_limits_i |w_i|$
  • $\nabla_{\pmb{w}}\$

未完待续

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇