Try   HackMD

林軒田機器學習基石筆記 - 第七講

tags: 林軒田 Maching Learning 機器學習基石

  • 本文討論內容請參考:
    機器學習基石第七講 : The VC Dimension

  • 本篇所有圖片部分由筆者製作,其它均為機器學習基石課程內容講義


我們先來看一下上一篇的結論 :
存在

Break point ( 好的
H
) 且
N
夠大的情況下 ( 好的
D
),即使
infinite H
,演算法從
Ein
很小的條件下挑出一個
g
( 好的
algorithm
),都一定會有一個有限上界可以確保
Ein
Eout
夠接近。

About
H

在我們往下討論這一講的內容前,我覺得我們必須花一點時間了解

H
機器學習基石筆記-1的時候,我們曾經有說,在探討
H
時,我們會把重點放在
W
的討論上,但是我們會什麼要探討
H
呢?
H
對於我們的學習有什麼意義?

H 是一個 hypothesis set,但是這些假設都是怎麼來的呢?

從一個二元分類問題來看,我們曾經有說過,一個平面中,任何一條「直線」都是一個 hypothesis

hH,所以
H
裡面就是裝著無限多條「直線」。因為我們預先假定了這個分類器是「直線」,所以
H
裡面不會有非線性的hypothesis在裡面。

所以,在我們進行 Machine Learning 時,我們會決定我們要用什麼樣子的分類器,而這也決定了我們的

H 長什麼樣子,當然,
W
也在這時候決定了。

Algorithm (model)HW

所以這就是為什麼往後的課程都會討論

H , 因為這樣的一個 hypothesis set 也足以代表了你的分類器。

OK,了解了

H 所代表的意義後,我們需要有一個衡量這個
H
的方法,於是有了以下 VC dimension 的定義 :

  • Vapnik-Chervonenkis Dimension
    dvc(H) or VC(H):

    The largest value of N s.t. mH(N)=2N

    dvc(H)=
    能被shatter的最大N值
    = breakpoint k1

根據這樣的定義我們可以知道以下幾個特性 :
*

  • Ndvc  For some detaset D with size N can be shatter by H

  • N>dvc  dataset D with size N cant be shatter by H

  • N2 ,dvc2 mH(N)2dvc

    資料空間 &分類型態 Break Point
    mH(N)
    O(N)
    dvc
    1-D Positive ray 2 N+1
    O(N)
    1
    1-D Positive interval 3
    12N2+12N+1
    O(N2)
    2
    Convex Set
    2N
    2-D Perceptron 4
    <2N
    (in some cases)
    O(N3)
    3

休息一下,
我們整理一下至今的幾個概念 :

mH(N)= N筆資料可以被切出幾個
dichotomies

B(N,K)=
N筆資料,且break point=K 的情況下,最大的
mH(N)

dvc(H)= hypotesis H
可以shatter的最大N值

前兩個概念,基本上是一個過渡概念,主要為了證明出 VC Bound ,真正的著眼點應該在

dvc(H),因為它可以確實對
H
做出量化測量。
一個真正夠好的
hypothesis Hdvc(H) is finiteK existsVC Bound existsEinEout

在這裡,VC Dimension與 Algorithm , Distribution 或是 target function都無關


不管是直觀[1]或經由繁雜的證明[2],我們都不難確認

dvc(H)=d+1 (
d
為資料
X
的維度 )

總的來說,

hH , h(X)=Sign(i=1dwixi+w0)

  • h
    是由
    (w1,w2,w3,...,wd)
    所決定,我們可以將
    dvc(H)=d+1
    視為自由度
  • dvc(H)
    即為
    H
    的能力指標
  • H∣=M is finite
    可以利用
    M
    來控制VC bound
    H∣=M is infinite
    可以利用
    (2N)dvc
    取代
    M
    來控制 VC bound

[ Remark ] 讓我們來重新審視一下 VC Bound

PD[[Ein(g)Eout(g)∣>ϵ]]4(2N)dvce18ϵ2N

PD[[Ein(g)Eout(g)∣≤ϵ]]1δ , where
δ=4(2N)dvce18ϵ2N

有很高的機率 (

1δ ),
Ein
Eout
會很接近 (
Ein(g)Eout(g)∣≤ϵ
)

δ=4(2N)dvce18ϵ2N
ϵ=8Nln(4(2N)dvcδ)

 Ein(g)Eout(g)∣≤ϵ=8Nln(4(2N)dvcδ)=defnΩ(N,H,δ)=penalty for model

Ein(g)8Nln(4(2N)dvcδ)We dont care this partEout(g)Ein(g)+8Nln(4(2N)dvcδ)

High Prob.Eout(g)Ein(g)+8Nln(4(2N)dvcδ)

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

從上面推導出的不等式,配合

Errordvc 圖來看,我們會發現最好的解出現在中間。


  1. 從 Linear Algebra 的角度來看,我們可以如下定義出「dimension」:

    V is a vector space ,dim(V)=the cardinal number of B
    where B is a basis of V i.e. V=span(B) and B is a linear independent set.

    對比到我們的hypothesis set
    H
    ,之前我們才說過,
    H
    可以唯一由
    {w0,w1,...,wd}
    決定,且
    wi
    之間互相獨立,如若我們把 VC dimension 看成是
    H
    這個空間的維度,那麼也可以把
    {w0,w1,...,wd}
    看成是他的一組基底,那麼 VC dimension很明顯的就是
    d+1

    Image Not Showing Possible Reasons
    • The image file may be corrupted
    • The server hosting the image is unavailable
    • The image path is incorrect
    • The image format is not supported
    Learn More →

    其實意義上跟課程的這個圖是一樣的。 ↩︎

  2. 試證明

    VC dimension=d+1
    <p.f>
    Claim:dvcd+1

    Assume D={X0,X1,...,Xd}

    where X0=(0,0,...,0)

    X1=(1,0,...,0)


    Xd=(0,0,...,1)



     Y=(y0,y1,...,yd) where yi{+1,1}

     W=(y1y0,y2y0,...,ydy0)
    s.t. h(Xi)=Sign(WTXi+y0)=Sign(yiy0+y0)=yi , i=0,1,...,d

    無論這個
    D
    怎麼分類 ( 意即不管
    Xi
    對應到怎樣的
    yi
    ),我們都能找到一個
    h

    D
    可以被
    H
    shatter
    dvc(H)d+1



    Claim:dvcd+1D with sized+2 cannot be shatter

    Suppose to the contrary that

    D={X0,X1,...,Xd,Xd+1,Xd+2} can be shattered



    DRd

    Xi=jiajXj

    WTXi=jiajWTXj



    D can be shattered

     Y={y1,...,yd+2}{+1,1}
    (不管
    Xk
    怎麼被分類)
     W s.t. yk=Sign(WTXk)
    (我們都可以找到
    W
    來滿足)


    那我們指定一個特殊的分類 :
    Xi=yi=1
    Xj=yj=Sign(aj) , ji

    WTX<0 and (WTXj)(Sign(aj))>0
    (兩者同號)
    WTX=jiajWTXj>0
    (Contradiction!)


    D with sized+2 cannot be shattered

    dvc(H)d+1
    ↩︎