# Variational Dropout Sparsifies Deep Neural Networks ###### tags: `Model Compression` 閱讀筆記 同樣利用 Variational Inference 的概念求解後驗機率,並將 KL term 當作正則項,提出 Sparse Variational Dropout 對 Variational Dropout 進行拓展。 Dropout 可以視為在訓練過程中引入 noise,降低網路過擬的狀況,通常使用 Bernoulli 分佈; 另一種是 Gaussian Dropout,在權重裡引入高斯噪音來模擬 binary dropout 帶來的 noise,可以在不刪除節點連接的狀況下進行訓練。高斯噪音可如下式表示 ![](https://i.imgur.com/ugKQFCr.png) 當 Gaussian dropout 變異數固定時,等同於最佳化 ELBO (Evidence Lower Bound) 問題,如果我們嘗試連變異數一同訓練,則後驗機率的估計可以下式表示 ![](https://i.imgur.com/uaKZHPu.png) 而權重可表示如下,每一個權重都有自己的 dropout rate ![](https://i.imgur.com/CfXUwfh.png) 以上為 Variation Dropout 的概念,由於 $α_{ij}$ 越大會引入越多噪聲,[Variational Dropout and the Local Reparameterization Trick](https://arxiv.org/abs/1506.02557) 將 $α_{ij}$ 限制在 (0, 1) 之間。本論文基於 Variation dropout 的概念進行延伸,為了避免權重因為 $α_{ij}$ 導致變異數過大,將 noise 項獨立於權重,在向後傳播的過程中,梯度就不會受 $α_{ij}$ 影響 ![](https://i.imgur.com/rIrga8l.png) 同時要達到更好的稀疏化,該論文將 KL 項近似於以下的式子 ![](https://i.imgur.com/zwl6lV3.png) 當 $log(α_{ij})$ 趨近無窮大時,KL 趨近於一個常數; 而當 $log(α_{ij})$ 趨近負無窮大時, KL 趨近於 $0.5 log(α_{ij})$。由於 KL 項隨 $α$ 上升而增加,這樣可以帶來讓模型傾向大 $α$ 的正則化效果,當 $α$ 趨近無窮大時,等同 binary dropout p -> 1 ($α = p/1-p$),也就是說權重幾乎等同於被 dropout 掉。 ![](https://i.imgur.com/7WVsFGG.png) 換個角度來說,$α_{ij}$ 趨近無窮大會對權重 $w_{ij}$ 引入非常大的噪音,代表 $w_{ij}$ 是完全隨機且幅值沒有上限,這會影響模型預測以及 log likelihood,所以 $w_{ij}$ 趨近於 0 對模型是有益的,而後驗機率估計會趨近於 delta 函式。 ![](https://i.imgur.com/qRauCAz.png) ![](https://i.imgur.com/3a0RgVN.png) 論文的結果如下 ![](https://i.imgur.com/zULvm6L.png) ## Reference 1. [Variational Dropout Sparsifies Deep Neural Networks]()
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up