Weighted Sigmoid Gate Unit for an Activation Function of Deep Neural Network
===
<!-- .element: style="font-size:160%" -->
2018/10/03 Masayuki Tanaka (産業技術総合研究所)
https://arxiv.org/abs/1810.01829
(まとめ:[@antimon2](https://github.com/antimon2))
---
## どんなもの?
+ WiG(Weighted Sigmoid Gate unit)の提案
+ ReLUやSwishの一般化
+ Vectorに対する活性化関数
---
## 技術や手法の肝は? (1)

----
## 技術や手法の肝は? (2)
+ <code>f(x) = x ⊙ σ(W<sub>g</sub>x + b<sub>g</sub>)</code>
+ `x` は入力(N次元ベクトル)
+ <code>W<sub>g</sub></code>はN×N行列、<code>b<sub>g</sub></code>はN次元ベクトル(訓練パラメータ)
+ `σ` は sigmoid 関数、`⊙` は要素ごとの積
+ 重み付きの入力に対するバージョン、畳み込み層に適用するバージョン等あり
---
## 先行研究と比べて何がすごい? (1)
+ <code>b<sub>g</sub> = <b>0</b></code>、<code>W<sub>g</sub> = I</code>(単位行列)でSiL(Swish)と同じ
+ <code>W<sub>g</sub> = sI (s ≫ 1)</code> なら ReLU に近似
----
## 先行研究と比べて何がすごい? (2)
+ <code>W<sub>g</sub> = sI</code> <code>b<sub>g</sub> = <b>0</b></code> で初期化して訓練する
+ L1正則化
---
## どうやって有効だと検証した?
+ ReLU 初め他のいくつかの活性化関数と比較実験
+ CIFAR-10/100で
+ 訓練時のloss推移比較
+ 検証精度(正解率)比較
+ ノイズ除去タスクで精度(PSNR/SSIM)比較
---
## 議論はある?
+ 論文中には特にないが…
+ 学習時間・推論時間への影響は?
+ WiGを利用したネットワークの転移学習は?
---
## 次に読むべき論文は?
+ [Searching for activation functions](https://arxiv.org/abs/1710.05941)
+ Swish の紹介と、効果的な活性化関数を探す話
+ 以前読んだ→ https://github.com/mlnagoya/surveys/blob/master/20180412_reports/Swish_antimon2.md
{"metaMigratedAt":"2023-06-14T18:27:59.858Z","metaMigratedFrom":"YAML","title":"Weighted Sigmoid Gate Unit for an Activation Function of Deep Neural Network","breaks":true,"slideOptions":"{\"transition\":\"slide\",\"theme\":\"white\"}","contributors":"[{\"id\":\"80062a4b-8dad-49ac-95bf-848ce0686e9e\",\"add\":3225,\"del\":1742}]"}