林軒田機器學習基石筆記 - 第七講

tags: `林軒田` `Maching Learning` `機器學習基石`

本文為一系列課程之筆記，建議從" 機器學習基石筆記-1 "開始閱讀

本文討論內容請參考:
機器學習基石第七講 : The VC Dimension

本篇所有圖片部分由筆者製作，其它均為機器學習基石課程內容講義

我們先來看一下上一篇的結論 :
存在

B r e a k p o i n t

( 好的

H

) 且

N

夠大的情況下 ( 好的

D

)，即使

i n f i n i t e H

，演算法從

E_{i n}

很小的條件下挑出一個

g

( 好的

a l g o r i t h m

)，都一定會有一個有限上界可以確保

E_{i n}

跟

E_{o u t}

夠接近。

About
$H$

在我們往下討論這一講的內容前，我覺得我們必須花一點時間了解

H

。
在機器學習基石筆記-1的時候，我們曾經有說，在探討

H

時，我們會把重點放在

W

的討論上，但是我們會什麼要探討

H

呢?

H

對於我們的學習有什麼意義?

H

是一個 hypothesis set，但是這些假設都是怎麼來的呢?

從一個二元分類問題來看，我們曾經有說過，一個平面中，任何一條「直線」都是一個 hypothesis

h \in H

，所以

H

裡面就是裝著無限多條「直線」。因為我們預先假定了這個分類器是「直線」，所以

H

裡面不會有非線性的hypothesis在裡面。

所以，在我們進行 Machine Learning 時，我們會決定我們要用什麼樣子的分類器，而這也決定了我們的

H

長什麼樣子，當然，

W

也在這時候決定了。

A l g o r i t h m (m o d e l) ⟷ H ⟷ W

所以這就是為什麼往後的課程都會討論

H

，因為這樣的一個 hypothesis set 也足以代表了你的分類器。

OK，了解了

H

所代表的意義後，我們需要有一個衡量這個

H

的方法，於是有了以下 VC dimension 的定義 :

Vapnik-Chervonenkis Dimension
$d_{v c} (H) o r V C (H) :$

$T h e l a r g e s t v a l u e o f N s . t . m_{H} (N) = 2^{N}$

$d_{v c} (H) =$ 能被shatter的最大N值
$= b r e a k p o i n t k - 1$

根據這樣的定義我們可以知道以下幾個特性 :
*

$N \leq d_{v c} ⟹ F o r s o m e d e t a s e t D w i t h s i z e N c a n b e s h a t t e r b y H$
$N > d_{v c} ⟹ \forall d a t a s e t D w i t h s i z e N c a n^{'} t b e s h a t t e r b y H$

N \geq 2, d_{v c} \geq 2 ⟹ m_{H} (N) \leq 2^{d_{v c}}

資料空間 &分類型態	Break Point	$m_{H} (N)$	O(N)	$d_{v c}$
1-D Positive ray	2	N+1	$O (N)$	1
1-D Positive interval	3	$\frac{1}{2} N^{2} + \frac{1}{2} N + 1$	$O (N^{2})$	2
Convex Set	$\infty$	$2^{N}$	–	$\infty$
2-D Perceptron	4	$< 2^{N}$ (in some cases)	$O (N^{3})$	3

休息一下，
我們整理一下至今的幾個概念 :

m_{H} (N) =

N筆資料可以被切出幾個

d i c h o t o m i e s

B (N, K) =

N筆資料，且break point=K 的情況下，最大的

m_{H} (N)

d_{v c} (H) = h y p o t e s i s H

可以shatter的最大N值

前兩個概念，基本上是一個過渡概念，主要為了證明出 VC Bound ，真正的著眼點應該在

d_{v c} (H)

，因為它可以確實對

H

做出量化測量。
一個真正夠好的

h y p o t h e s i s H ⟹ d_{v c} (H) i s f i n i t e ⟹ K e x i s t s ⟹ V C B o u n d e x i s t s ⟹ E_{i n} \approx E_{o u t}

在這裡，VC Dimension與 Algorithm , Distribution 或是 target function都無關

不管是直觀^[1]或經由繁雜的證明^[2]，我們都不難確認

d_{v c} (H) = d + 1

(

d

為資料

X

的維度 )

總的來說，

h \in H, h (X) = S i g n (\sum_{i = 1}^{d} w_{i} x_{i} + w_{0})

$h$ 是由
$(w_{1}, w_{2}, w_{3}, . . ., w_{d})$ 所決定，我們可以將
$d_{v c} (H) = d + 1$ 視為自由度
$d_{v c} (H)$ 即為
$H$ 的能力指標
$∣ H ∣= M i s f i n i t e ⟹$ 可以利用
$M$ 來控制VC bound

$∣ H ∣= M i s i n f i n i t e ⟹$ 可以利用
$(2 N)^{d_{v c}}$ 取代
$M$ 來控制 VC bound

[ Remark ] 讓我們來重新審視一下 VC Bound

P_{D} [[∣ E_{i n} (g) - E_{o u t} (g) ∣> ϵ]] \leq 4 (2 N)^{d_{v c}} e^{- \frac{1}{8} ϵ^{2} N}

⟺ P_{D} [[∣ E_{i n} (g) - E_{o u t} (g) ∣\leq ϵ]] \geq 1 - δ

, where

δ = 4 (2 N)^{d_{v c}} e^{- \frac{1}{8} ϵ^{2} N}

有很高的機率 (

\geq 1 - δ

)，

E_{i n}

與

E_{o u t}

會很接近 (

∣ E_{i n} (g) - E_{o u t} (g) ∣\leq ϵ

)

∵ δ = 4 (2 N)^{d_{v c}} e^{- \frac{1}{8} ϵ^{2} N}

∴ ϵ = \sqrt{\frac{8}{N} \ln (\frac{4 (2 N)^{d_{v} c}}{δ})}

∴ ∣ E_{i n} (g) - E_{o u t} (g) ∣\leq ϵ = \sqrt{\frac{8}{N} \ln (\frac{4 (2 N)^{d_{v} c}}{δ})} \overset{d e f n}{=} Ω (N, H, δ) = p e n a l t y f o r m o d e l

⟹ \begin{matrix} \underset{⏟}{E_{i n} (g) - \sqrt{\frac{8}{N} \ln (\frac{4 (2 N)^{d_{v} c}}{δ})}} \\ W e d o n^{'} t c a r e t h i s p a r t \end{matrix} \leq E_{o u t} (g) \leq E_{i n} (g) + \sqrt{\frac{8}{N} \ln (\frac{4 (2 N)^{d_{v} c}}{δ})}

\overset{H i g h P r o b .}{⟹} E_{o u t} (g) \leq E_{i n} (g) + \sqrt{\frac{8}{N} \ln (\frac{4 (2 N)^{d_{v} c}}{δ})}

Image Not Showing Possible Reasons

The image file may be corrupted
The server hosting the image is unavailable
The image path is incorrect
The image format is not supported

Learn More →

從上面推導出的不等式，配合

E r r o r - d_{v c}

圖來看，我們會發現最好的解出現在中間。

從 Linear Algebra 的角度來看，我們可以如下定義出「dimension」:

$V i s a v e c t o r s p a c e, d i m (V) = t h e c a r d i n a l n u m b e r o f B$

$w h e r e B i s a b a s i s o f V i . e . V = s p a n (B) a n d B i s a l i n e a r i n d e p e n d e n t s e t .$
對比到我們的hypothesis set
$H$ ，之前我們才說過，
$H$ 可以唯一由
${w_{0}, w_{1}, . . ., w_{d}}$ 決定，且
$w_{i}$ 之間互相獨立，如若我們把 VC dimension 看成是
$H$ 這個空間的維度，那麼也可以把
${w_{0}, w_{1}, . . ., w_{d}}$ 看成是他的一組基底，那麼 VC dimension很明顯的就是
$d + 1$ 。
Image Not Showing Possible Reasons
- The image file may be corrupted
- The server hosting the image is unavailable
- The image path is incorrect
- The image format is not supported
Learn More →
其實意義上跟課程的這個圖是一樣的。 ↩︎
試證明
$V C d i m e n s i o n = d + 1$
<p.f>

$C l a i m : d_{v c} \geq d + 1$

$A s s u m e D = {X_{0}, X_{1}, . . ., X_{d}}$

$w h e r e X_{0} = (0, 0, . . ., 0)$

$X_{1} = (1, 0, . . ., 0)$

$⋮$

$X_{d} = (0, 0, . . ., 1)$

$\forall Y = (y_{0}, y_{1}, . . ., y_{d}) w h e r e y_{i} \in {+ 1, - 1}$

$\exists W = (y_{1} - y_{0}, y_{2} - y_{0}, . . ., y_{d} - y_{0})$
$s . t . h (X_{i}) = S i g n (W^{T} X_{i} + y_{0}) = S i g n (y_{i} - y_{0} + y_{0}) = y_{i}, \forall i = 0, 1, . . ., d$

$⟹$ 無論這個
$D$ 怎麼分類 ( 意即不管
$X_{i}$ 對應到怎樣的
$y_{i}$ )，我們都能找到一個
$h$

$⟹$
$D$ 可以被
$H$ shatter

$d_{v c} (H) \geq d + 1$

$C l a i m : d_{v c} \leq d + 1 ⟹ D w i t h s i z e - d + 2 c a n n o t b e s h a t t e r$

$S u p p o s e t o t h e c o n t r a r y t h a t$

$\exists D = {X_{0}, X_{1}, . . ., X_{d}, X_{d + 1}, X_{d + 2}} c a n b e s h a t t e r e d$

$∵ D \subseteq R^{d}$

$∴ X_{i} = \sum_{j \neq i} a_{j} X_{j}$

$⟹ W^{T} X_{i} = \sum_{j \neq i} a_{j} W^{T} X_{j}$

$∵ D c a n b e s h a t t e r e d$

$∴ \forall Y = {y_{1}, . . ., y_{d + 2}} \subseteq {+ 1, - 1}$ (不管
$X_{k}$ 怎麼被分類)

$\exists W s . t . y_{k} = S i g n (W^{T} X_{k})$ (我們都可以找到
$W$ 來滿足)

那我們指定一個特殊的分類 :

$X_{i} = y_{i} = - 1$ 且
$X_{j} = y_{j} = S i g n (a_{j}), \forall j \neq i$

$⟹ W^{T} X < 0 a n d (W^{T} X_{j}) \cdot (S i g n (a_{j})) > 0$ (兩者同號)

$⟹ W^{T} X = \sum_{j \neq i} a_{j} W^{T} X_{j} > 0$ (Contradiction!)

$∴ \forall D w i t h s i z e - d + 2 c a n n o t b e s h a t t e r e d$

$⟹ d_{v c} (H) \leq d + 1$ ↩︎

林軒田機器學習基石筆記 - 第七講

tags: 林軒田 Maching Learning 機器學習基石

About H

Read more

[論文] You Only Look Once : Unified, Real-Time Object Detection

[論文] Network In Network

林軒田機器學習基石筆記 - 第三講、第四講

Unsupervised Learning --- Word Embedding

tags: `林軒田` `Maching Learning` `機器學習基石`

About
$H$