林軒田
Maching Learning
機器學習基石
- 本文為一系列課程之筆記,建議從" 機器學習基石筆記-1 "開始閱讀
本文討論內容請參考:
機器學習基石第七講 : The VC Dimension本篇所有圖片部分由筆者製作,其它均為機器學習基石課程內容講義
我們先來看一下上一篇的結論 :
存在 ( 好的 ) 且 夠大的情況下 ( 好的 ),即使 ,演算法從很小的條件下挑出一個 ( 好的 ),都一定會有一個有限上界可以確保跟夠接近。
在我們往下討論這一講的內容前,我覺得我們必須花一點時間了解 。
在機器學習基石筆記-1的時候,我們曾經有說,在探討 時,我們會把重點放在 的討論上,但是我們會什麼要探討 呢? 對於我們的學習有什麼意義?
是一個 hypothesis set,但是這些假設都是怎麼來的呢?
從一個二元分類問題來看,我們曾經有說過,一個平面中,任何一條「直線」都是一個 hypothesis ,所以 裡面就是裝著無限多條「直線」。因為我們預先假定了這個分類器是「直線」,所以 裡面不會有非線性的hypothesis在裡面。
所以,在我們進行 Machine Learning 時,我們會決定我們要用什麼樣子的分類器,而這也決定了我們的 長什麼樣子,當然, 也在這時候決定了。
所以這就是為什麼往後的課程都會討論 , 因為這樣的一個 hypothesis set 也足以代表了你的分類器。
OK,了解了 所代表的意義後,我們需要有一個衡量這個 的方法,於是有了以下 VC dimension 的定義 :
根據這樣的定義我們可以知道以下幾個特性 :
*
資料空間 &分類型態 | Break Point | O(N) | ||
---|---|---|---|---|
1-D Positive ray | 2 | N+1 | 1 | |
1-D Positive interval | 3 | 2 | ||
Convex Set | – | |||
2-D Perceptron | 4 | (in some cases) | 3 |
休息一下,
我們整理一下至今的幾個概念 :
N筆資料可以被切出幾個
N筆資料,且break point=K 的情況下,最大的
可以shatter的最大N值
前兩個概念,基本上是一個過渡概念,主要為了證明出 VC Bound ,真正的著眼點應該在,因為它可以確實對 做出量化測量。
一個真正夠好的
在這裡,VC Dimension與 Algorithm , Distribution 或是 target function都無關
不管是直觀[1]或經由繁雜的證明[2],我們都不難確認 ( 為資料 的維度 )
總的來說,
[ Remark ] 讓我們來重新審視一下 VC Bound
, where
有很高的機率 ( ), 與 會很接近 ( )
從上面推導出的不等式,配合 圖來看,我們會發現最好的解出現在中間。
從 Linear Algebra 的角度來看,我們可以如下定義出「dimension」:
對比到我們的hypothesis set ,之前我們才說過, 可以唯一由 決定,且 之間互相獨立,如若我們把 VC dimension 看成是 這個空間的維度,那麼也可以把 看成是他的一組基底,那麼 VC dimension很明顯的就是 。
其實意義上跟課程的這個圖是一樣的。 ↩︎
試證明
<p.f>
無論這個 怎麼分類 ( 意即不管 對應到怎樣的 ),我們都能找到一個
可以被 shatter
(不管 怎麼被分類)
(我們都可以找到 來滿足)
那我們指定一個特殊的分類 :
且
(兩者同號)
(Contradiction!)
↩︎