Organization contact [ierosodin(ierosodin@gmail.com)]
machine learning
學習筆記
我們再次提到 frequentist 與 bayesian,已經知道, frequentist 只看過去的數據,來決定一切,因此一個機率很低的事件,可能因為過去沒有發生過,而被認為是不可能發生。但就 bayesian 而言,又可能因為一個太差的 prior,導致結果離現實差距太大。
回想前面的 naive baye's classifier,我們只考慮了離散的情況,這樣同樣會有沒發生過而被認為不可能發生的問題,解決的一種方法,即為給予一個 distribution 的 prior,這樣機率就不只是離散的了。
然而當有了 distribution 後,我們必須計算 distribution 上每個
在介紹 conjugate 前,必須先認識 gamma function,定義:
性質:
這裡要介紹的 conjugate 方法為 beta distribution,定義:
我們現在假設 prior 為一個 beta distribution,因此其分佈為:
其中,
而 likelihood 則是要用來更新 prior 的 data 分佈,為一個 binomial distribution:
其中,N 為試驗的次數,m 為成功的次數。
由 bayes therem 我們可以得出 posterior:
又由
由結果我們可以發現,當有新的一筆資料要來更新 prior 時,我們只需要知道成功及失敗的次數,即可利用 beta distribution 來得到我們的 posterior。
從這裡我們又可以來探討 frequentist 與 bayesian 的差異,可以發現,成功與失敗分別為 (1,1) 與 (100,100) 時,對於 frequentist 來說,這個硬幣的機率都是 0.5,但是對於 bayesian 來說,當資料量越大,則對於分佈的信心就越高(可以想成高斯分佈的 variance 就越小)
beta distribution 的極值?
為 multinomial 對應 binomial 的 beta distribution,其中 multinomial:
則 dirichlet distribution 為: