深度學習：使用激勵函數的目的、如何選擇激勵函數 Deep Learning : the role of the activation function

# 深度學習：使用激勵函數的目的、如何選擇激勵函數 Deep Learning : the role of the activation function ###### tags:`學習紀錄` [toc] --- ## Before Meeting :::success ::: [refer](https://mropengate.blogspot.com/2017/02/deep-learning-role-of-activation.html) [refer]() [refer]() --- ## Recent Paper --- ### Deep Learning : the role of the activation function :::success #### Abstracion - ![](https://i.imgur.com/RJPLExz.png) ::: :::info #### Detail - 一、使用激勵函數的目的 - 懶人包：激勵函數主要作用是引入非線性。 - 在類神經網路中如果不使用激勵函數，那麼在類神經網路中皆是以上層輸入的線性組合作為這一層的輸出（也就是矩陣相乘），輸出和輸入依然脫離不了線性關係，做深度類神經網路便失去意義。 - 二、激勵函數的選擇：為何 ReLU 勝出？ - 懶人包：常見的激勵函數選擇有 sigmoid, tanh, Relu，實用上最常使用 ReLU ，一些變形如 Leaky ReLU, Maxout 也可以試試，tanh 和 sigmoid 盡量別用。 - ![](https://i.imgur.com/t73PUGt.png) - 截至目前為止，在深度學習領域 Relu 激勵函數蔚為主流，主要考量的因素有以下幾點： - 1. 梯度消失問題 (vanishing gradient problem) - ![](https://i.imgur.com/1T5rkB3.png) - ReLU的分段線性性質能有效的克服梯度消失的問題。 - 對使用反向傳播訓練的類神經網絡來說，梯度的問題是最重要的，使用 sigmoid 和 tanh 函數容易發生梯度消失問題，是類神經網絡加深時主要的訓練障礙。 - 具體的原因是這兩者函數在接近飽和區 (如sigmoid函數在 [-4, +4] 之外)，求導後趨近於0，也就是所謂梯度消失，造成更新的訊息無法藉由反向傳播傳遞。 - ![](https://i.imgur.com/W1roGd5.png) - 2. 類神經網路的稀疏性（奧卡姆剃刀原則） - ![](https://i.imgur.com/qpH6Oly.png) - Relu會使部分神經元的輸出為0，可以讓神經網路變得稀疏，緩解過度擬合的問題。 - 但衍生出另一個問題是，如果把一個神經元停止後，就難以再次開啟（Dead ReLU Problem），因此又有 Leaky ReLU 類 (x<0時取一個微小值而非0), maxout (增加激勵函數專用隱藏層，有點暴力) 等方法，或使用 adagrad 等可以調節學習率的演算法。 - ![](https://i.imgur.com/6Ew1KDF.png) - 3. 生物事實：全有全無律 (all or none law) - ![](https://i.imgur.com/FqQLlov.png) - 在神經生理方面，當刺激未達一定的強度時，神經元不會興奮，因此不會產生神經衝動。如果超過某個強度，才會引起神經衝動。Relu比較好的捕捉了這個生物神經元的特徵。 - 4. 計算量節省 - Relu 計算量小，只需要判斷輸入是否大於0，不用指數運算。 ::: :::warning #### Conclusion ::: [refer]() --- :::success #### Abstracion ::: :::info #### Detail ::: :::warning #### Conclusion ::: [refer]() ---