Searching For Activation Functions
===
2017/10/27 Prajit Ramachandran, Barret Zoph, Quoc V. Le (Google Brain)
https://arxiv.org/abs/1710.05941
(まとめ:[@antimon2](https://github.com/antimon2))
---
## どんなもの?
+ ReLU に変わる新しいアクティベーション関数 **Swish** の紹介。
+ $f(x) = x \cdot {\rm sigmoid}(\beta x)$ というシンプルな式。
+ ImageNet で ReLU を Swish に置き換えたら、正解率が 0.9% 向上した。
+ Swish 用に最適化されたハイパーパラメータ設定により、さらなる効果が期待できる。
---
## どうやって有効だと検証した?
+ Swish と ReLU、そして他のいくつかの活性化関数を用いて、以下の各種ネットワーク・タスクで検証:
+ CIFAR: 3種類のモデル、Accuracy を比較
+ ImageNet: 3種類のモデル、Accuracy を比較
+ 機械翻訳: 4種類のデータセット、BLEU を比較
+ 全てで Swish が最高(または最高タイ)の値を出したことを確認
---
## 技術や手法の肝は?
+ 数式が単純($f(x) = x \cdot \sigma(\beta x)$)
+ $\beta = 0$ ⇒ $f(x) = \frac{x}{2}$
+ $\beta \rightarrow \infty$ ⇒ ReLU に漸近
+ $f^\prime(x) = \beta f(x) + \sigma(\beta x)(1 − \beta f(x))$
+ (ReLU と異なり)**非単調** で **滑らかな関数**
---
## 議論はある?
+ ReLU の勾配保存特性の重要性に関する仮説は不要と思われる
+ Swish の $x<0$ の時の『下に凸』な部分($f(x) < 0$ の部分)こそが重要という実験結果が出ている
---
## 先行研究と比べて何がすごい?
+ ほとんどの先行研究は、新しい活性化関数を提案することに焦点を当てているが、この研究では他の活性化関数との比較を系統的に行っている
+ この研究では Swish が deep model で一貫して ReLU より優れていることを示している
---
## 次に読むべき論文は?
+ [Learning transferable architectures for scalable image recognition.](https://arxiv.org/pdf/1707.07012.pdf)
+ 最適パラメータ(CNN)の検索技術
+ [Learning to reinforcement learn](https://arxiv.org/pdf/1611.05763.pdf)
+ 適応可能強化学習?
{"metaMigratedAt":"2023-06-14T16:02:30.239Z","metaMigratedFrom":"YAML","title":"Searching For Activation Functions","breaks":true,"slideOptions":"{\"transition\":\"slide\",\"theme\":\"white\"}","contributors":"[{\"id\":\"80062a4b-8dad-49ac-95bf-848ce0686e9e\",\"add\":14,\"del\":0}]"}