---
# System prepended metadata

title: Week 3 Note-2
tags: [WIDM Study Group]

---

# Week 3 Note-2

###### tags: `WIDM Study Group`

## ML 11: Why Deep?

### Deeper is Better？
當網路層數越多，深度越深，則模型效果越好。但這個效果並不意外。
那我們要如何證明DL模型層數越多，效果越好？
![](https://i.imgur.com/ofAJPia.png)

為了比較Shallow與Deep的差異，我們要先以相同參數來比較。
以相同neuron(參數)，但層數不同的網路比較，可發現高且瘦長的網路會有較高的效果。
![](https://i.imgur.com/wVZDpxC.png)
![](https://i.imgur.com/r8rUgTu.png)

### Modularization
在解釋為什麼DL模型深度越深效果越好前，我們先解釋模組化。
模組化在於將一個main function，拆成好幾個sub function(一個主程式由多個副程式組成)
![](https://i.imgur.com/4vlX3Oh.png)

在DL中也一樣，先定義一個簡單的模型(分辨性別、分辨長短髮)，再透過此模型來做更進階的分類。
![](https://i.imgur.com/QeJtsxG.png)

若以layer表示，就是以前面的layer來定義後面的layer。
-->因為前一層已做了初步的分類，後幾層再做更進一步的分類。如此也能減少資料量。
![](https://i.imgur.com/OWg71W7.png)

以聲音舉例，我們Learn一個DNN，輸入為acoustic feature，輸出為acoustic feature屬於哪一個state的機率。而實驗也可發現，DL模型也將語音分類工作分配給每一層處理。
![](https://i.imgur.com/DvRYopl.png)
![](https://i.imgur.com/LNu9ka9.png)

### Universality Theorem
任何Continuous Function(連續函數)都可以用一層神經網路來完成，只要那一層神經網路夠寬，但是它並沒有告訴你使用一層隱藏層是比較沒有效率的。
![](https://i.imgur.com/rWDG0RV.png)

### More Analogy
若今天資料為分散的，就難以以一條線去做簡單分類。
而我們就可透過較深的網路去處理，利用隱藏層做feature transformation。
![](https://i.imgur.com/ANNTBkC.png)

在影像分類我們也用Deep Network去依序將圖片分類，就能達到很好的效果。
![](https://i.imgur.com/IX3bs1n.png)

Deep Learning也可以解決複雜的問題，如不同類別卻相似之影像。
![](https://i.imgur.com/2gmqqxK.png)
![](https://i.imgur.com/uNIy18T.png)