# 深度學習:使用激勵函數的目的、如何選擇激勵函數 Deep Learning : the role of the activation function ###### tags:`學習紀錄` [toc] --- ## Before Meeting :::success ::: [refer](https://mropengate.blogspot.com/2017/02/deep-learning-role-of-activation.html) [refer]() [refer]() --- ## Recent Paper --- ### Deep Learning : the role of the activation function :::success #### Abstracion -  ::: :::info #### Detail - 一、使用激勵函數的目的 - 懶人包:激勵函數主要作用是引入非線性。 - 在類神經網路中如果不使用激勵函數,那麼在類神經網路中皆是以上層輸入的線性組合作為這一層的輸出(也就是矩陣相乘),輸出和輸入依然脫離不了線性關係,做深度類神經網路便失去意義。 - 二、激勵函數的選擇:為何 ReLU 勝出? - 懶人包:常見的激勵函數選擇有 sigmoid, tanh, Relu,實用上最常使用 ReLU ,一些變形如 Leaky ReLU, Maxout 也可以試試,tanh 和 sigmoid 盡量別用。 -  - 截至目前為止,在深度學習領域 Relu 激勵函數蔚為主流,主要考量的因素有以下幾點: - 1. 梯度消失問題 (vanishing gradient problem) -  - ReLU的分段線性性質能有效的克服梯度消失的問題。 - 對使用反向傳播訓練的類神經網絡來說,梯度的問題是最重要的,使用 sigmoid 和 tanh 函數容易發生梯度消失問題,是類神經網絡加深時主要的訓練障礙。 - 具體的原因是這兩者函數在接近飽和區 (如sigmoid函數在 [-4, +4] 之外),求導後趨近於0,也就是所謂梯度消失,造成更新的訊息無法藉由反向傳播傳遞。 -  - 2. 類神經網路的稀疏性(奧卡姆剃刀原則) -  - Relu會使部分神經元的輸出為0,可以讓神經網路變得稀疏,緩解過度擬合的問題。 - 但衍生出另一個問題是,如果把一個神經元停止後,就難以再次開啟(Dead ReLU Problem),因此又有 Leaky ReLU 類 (x<0時取一個微小值而非0), maxout (增加激勵函數專用隱藏層,有點暴力) 等方法,或使用 adagrad 等可以調節學習率的演算法。 -  - 3. 生物事實:全有全無律 (all or none law) -  - 在神經生理方面,當刺激未達一定的強度時,神經元不會興奮,因此不會產生神經衝動。如果超過某個強度,才會引起神經衝動。Relu比較好的捕捉了這個生物神經元的特徵。 - 4. 計算量節省 - Relu 計算量小,只需要判斷輸入是否大於0,不用指數運算。 ::: :::warning #### Conclusion ::: [refer]() --- :::success #### Abstracion ::: :::info #### Detail ::: :::warning #### Conclusion ::: [refer]() ---
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up