# Week 3 Note-2 ###### tags: `WIDM Study Group` ## ML 11: Why Deep? ### Deeper is Better? 當網路層數越多,深度越深,則模型效果越好。但這個效果並不意外。 那我們要如何證明DL模型層數越多,效果越好? ![](https://i.imgur.com/ofAJPia.png) 為了比較Shallow與Deep的差異,我們要先以相同參數來比較。 以相同neuron(參數),但層數不同的網路比較,可發現高且瘦長的網路會有較高的效果。 ![](https://i.imgur.com/wVZDpxC.png) ![](https://i.imgur.com/r8rUgTu.png) ### Modularization 在解釋為什麼DL模型深度越深效果越好前,我們先解釋模組化。 模組化在於將一個main function,拆成好幾個sub function(一個主程式由多個副程式組成) ![](https://i.imgur.com/4vlX3Oh.png) 在DL中也一樣,先定義一個簡單的模型(分辨性別、分辨長短髮),再透過此模型來做更進階的分類。 ![](https://i.imgur.com/QeJtsxG.png) 若以layer表示,就是以前面的layer來定義後面的layer。 -->因為前一層已做了初步的分類,後幾層再做更進一步的分類。如此也能減少資料量。 ![](https://i.imgur.com/OWg71W7.png) 以聲音舉例,我們Learn一個DNN,輸入為acoustic feature,輸出為acoustic feature屬於哪一個state的機率。而實驗也可發現,DL模型也將語音分類工作分配給每一層處理。 ![](https://i.imgur.com/DvRYopl.png) ![](https://i.imgur.com/LNu9ka9.png) ### Universality Theorem 任何Continuous Function(連續函數)都可以用一層神經網路來完成,只要那一層神經網路夠寬,但是它並沒有告訴你使用一層隱藏層是比較沒有效率的。 ![](https://i.imgur.com/rWDG0RV.png) ### More Analogy 若今天資料為分散的,就難以以一條線去做簡單分類。 而我們就可透過較深的網路去處理,利用隱藏層做feature transformation。 ![](https://i.imgur.com/ANNTBkC.png) 在影像分類我們也用Deep Network去依序將圖片分類,就能達到很好的效果。 ![](https://i.imgur.com/IX3bs1n.png) Deep Learning也可以解決複雜的問題,如不同類別卻相似之影像。 ![](https://i.imgur.com/2gmqqxK.png) ![](https://i.imgur.com/uNIy18T.png)