Weighted Sigmoid Gate Unit for an Activation Function of Deep Neural Network

Weighted Sigmoid Gate Unit for an Activation Function of Deep Neural Network ===  2018/10/03 Masayuki Tanaka (産業技術総合研究所) https://arxiv.org/abs/1810.01829 （まとめ：[@antimon2](https://github.com/antimon2)） --- ## どんなもの？ + WiG（Weighted Sigmoid Gate unit）の提案 + ReLUやSwishの一般化 + Vectorに対する活性化関数 --- ## 技術や手法の肝は？ (1) ![WiGunit.jpg](https://i.imgur.com/cdYEo84.jpg) ---- ## 技術や手法の肝は？ (2) + <code>f(x) = x ⊙ σ(Wgx + bg)</code> + `x` は入力（N次元ベクトル） + <code>Wg</code>はN×N行列、<code>bg</code>はN次元ベクトル（訓練パラメータ） + `σ` は sigmoid 関数、`⊙` は要素ごとの積 + 重み付きの入力に対するバージョン、畳み込み層に適用するバージョン等あり --- ## 先行研究と比べて何がすごい？ (1) + <code>bg = 0</code>、<code>Wg = I</code>（単位行列）でSiL（Swish）と同じ + <code>Wg = sI (s ≫ 1)</code> なら ReLU に近似 ---- ## 先行研究と比べて何がすごい？ (2) + <code>Wg = sI</code> <code>bg = 0</code> で初期化して訓練する + L1正則化 --- ## どうやって有効だと検証した？ + ReLU 初め他のいくつかの活性化関数と比較実験 + CIFAR-10/100で + 訓練時のloss推移比較 + 検証精度（正解率）比較 + ノイズ除去タスクで精度（PSNR/SSIM）比較 --- ## 議論はある？ + 論文中には特にないが… + 学習時間・推論時間への影響は？ + WiGを利用したネットワークの転移学習は？ --- ## 次に読むべき論文は？ + [Searching for activation functions](https://arxiv.org/abs/1710.05941) + Swish の紹介と、効果的な活性化関数を探す話 + 以前読んだ→ https://github.com/mlnagoya/surveys/blob/master/20180412_reports/Swish_antimon2.md