Week 3 Note-2 - HackMD

# Week 3 Note-2 ###### tags: `WIDM Study Group` ## ML 11: Why Deep? ### Deeper is Better？當網路層數越多，深度越深，則模型效果越好。但這個效果並不意外。那我們要如何證明DL模型層數越多，效果越好？ ![](https://i.imgur.com/ofAJPia.png) 為了比較Shallow與Deep的差異，我們要先以相同參數來比較。以相同neuron(參數)，但層數不同的網路比較，可發現高且瘦長的網路會有較高的效果。 ![](https://i.imgur.com/wVZDpxC.png) ![](https://i.imgur.com/r8rUgTu.png) ### Modularization 在解釋為什麼DL模型深度越深效果越好前，我們先解釋模組化。模組化在於將一個main function，拆成好幾個sub function(一個主程式由多個副程式組成) ![](https://i.imgur.com/4vlX3Oh.png) 在DL中也一樣，先定義一個簡單的模型(分辨性別、分辨長短髮)，再透過此模型來做更進階的分類。 ![](https://i.imgur.com/QeJtsxG.png) 若以layer表示，就是以前面的layer來定義後面的layer。 -->因為前一層已做了初步的分類，後幾層再做更進一步的分類。如此也能減少資料量。 ![](https://i.imgur.com/OWg71W7.png) 以聲音舉例，我們Learn一個DNN，輸入為acoustic feature，輸出為acoustic feature屬於哪一個state的機率。而實驗也可發現，DL模型也將語音分類工作分配給每一層處理。 ![](https://i.imgur.com/DvRYopl.png) ![](https://i.imgur.com/LNu9ka9.png) ### Universality Theorem 任何Continuous Function(連續函數)都可以用一層神經網路來完成，只要那一層神經網路夠寬，但是它並沒有告訴你使用一層隱藏層是比較沒有效率的。 ![](https://i.imgur.com/rWDG0RV.png) ### More Analogy 若今天資料為分散的，就難以以一條線去做簡單分類。而我們就可透過較深的網路去處理，利用隱藏層做feature transformation。 ![](https://i.imgur.com/ANNTBkC.png) 在影像分類我們也用Deep Network去依序將圖片分類，就能達到很好的效果。 ![](https://i.imgur.com/IX3bs1n.png) Deep Learning也可以解決複雜的問題，如不同類別卻相似之影像。 ![](https://i.imgur.com/2gmqqxK.png) ![](https://i.imgur.com/uNIy18T.png)