---
disqus: ierosodin
---
# Probability
> Organization contact [name= [ierosodin](ierosodin@gmail.com)]
###### tags: `machine learning` `學習筆記`
==[Back to Catalog](https://hackmd.io/@ierosodin/Machine_Learning)==
## 名詞解釋
1. trail 試驗
* toss two coins
2. outcome 結果
* HH, HH, TT, HT, ...
3. sample space 樣本空間(宇集)
* {HH, HT, TH, TT}
4. random variable 隨機變數
* 是一種 mapping function
* HH -> 0
* HT -> 1
* TH -> 1
* TT -> 2
5. event 事件
* 符合 sample space 的子集合
* give a condition, a set of outcomes
6. 機率
* 由於我們不能掌控一切,無法知道一件事情是否一定會發生或出現,才需要利用機率。
* ${P(outcome\ =\ HT)\ =\ P(HT)\ =\ P(X=1)}$
* how to get ${P(X\ =\ 1)}$? infinite times of trials
7. mean
* 即為平均值,若用在 random variable,稱為期望值:
* ${E(X)\ =\ \sum_{i=1}^n P(X_i)\ *\ X_i}$
8. variance
* 標準差,為變異數 (${\sigma}$) 的平方,定義:
* ${\begin{split}
\sigma^2\ &=\ \frac{1}{n}\sum_i(x_i-E(x))^2\ \\
&=\ \frac{1}{n}\sum(x^2-2x\mu+\mu^2) \\
&=\ \frac{1}{n}\sum x^2\ -\ \frac{2}{n}\sum x\mu\ +\ \frac{1}{n}\sum \mu^2 \\
&=\ E(x^2)\ -\ 2\mu\frac{\sum x}{n}\ +\ \frac{1}{n}\mu^2n \\
&=\ E(x^2)\ -\ 2\mu^2\ +\ \mu^2 \\
&=\ E(x^2)\ -\ E^2(x)
\end{split}}$
9. covariance
* 用來描述兩筆資料間的關係性,若為正,則為正相關,若為負,則為負相關,若為 0,則表示兩筆資料無關,定義:
* ${cov(x,y)\ =\ E(x-E(x))\ *\ E(y-E(y))}$
10. 其他
* ${E(x)}$ 可以用來描述資料的 location
* ${E((x-\mu)^2)}$ 則可以用來表示兩筆資料的距離 (distance) 或是散佈情形 (dispersion)
* ${E((x-\mu)^3)}$ 則影響了資料的偏斜程度
## pmf, pdf, cdf
pmf (probability mess function)是用來描述每種 random variable 輸出值的機率 (discrete space),若是在 continuous space,稱為 pdf (probability density function)。
而 cdf 則是 pmf 或 pdf 的累加,cumulative density function。
## Conditional probability
表示在事件 B 發生的條件下,事件 A 發生的機率:
${P(A|B) = \frac{P(A,B)}{P(B)}}$
### 三門問題
在三個門後,有兩個是一頭羊,另一道門則是一台汽車,在選擇一道門後,主持人會開啟一道是羊的門,此時是否要換門,可以提高猜中是汽車的門?
利用條件機率,如果選擇換,則抽中汽車的機率為:
${P(汽車)\ =\ P(羊)\ *\ P(換成車|羊)\ = \ \frac{2}{3}\ *\ 1\ =\ \frac{2}{3}}$
如果選擇不換,則抽中的機率為:
其實可以這樣思考:今天問題是換跟不換誰抽中汽車的機率高?如果不換,則很理所當然的,抽中汽車的機率即為 ${\frac{1}{3}}$,而換與不換是互斥且包含了宇集的所有可能(因為主持人開啟一道門後,剩下兩道門,換與不換一定有一個會抽中汽車),因此選擇換抽中汽車的機率為 ${1\ -\ \frac{1}{3}\ =\ \frac{2}{3}}$
可以思考四道門一台車的問題,結論是:不斷的選擇換,可以得到最高的機率抽中汽車,因為在公佈一道門後,sample space縮小了,所以選擇換以後,抽中汽車的機率變高了。
## Joint probability
與條件機率不同,joint probability 為在宇集下,發生事件 A 且發生事件 B 的機率為:${P(A,B|U)}$
# Baye's theorem
${P(A|B)\ =\ P(B|A)\frac{P(A)}{P(B)}}$
其中,
$P(A)$:事前機率 (prior probability)
$P(A|B)$:事後機率 (posteriorior probability) -> ==我們所關心的==
$P(B|A)$ : 可能性函數 (likelihood function)
$P(B)$ : 全機率 (total probability or marginal probability)
概念:希望透過已知的事前機率 $P(B|A)$透過貝氏定理得到事後機率 $P(A|B)$
## Likelihood
${L(observed\ event|\theta)\ =\ P(\theta|observed\ event)}$
> likelihood 不是機率
## MLE
即找出 ${\theta=p}$ 使得 likelihood 的值最大
## Difference between bayesian and frequentist
frequentist 相信透過觀察所得到的結論,並認為這是不變的真理。所以假設今天擲硬幣的到 HH,則透過 likelihood 可以知道,在硬幣的 random variable = 1 的情況下,likelihood 是最大的 (MLE),因此我們就會認為這個硬幣不可能擲出反面。
然而對於 bayesian,我們會透過先前的 knowledge,再加上新來的資料 (likelihood) 來對 knowledge 做更新 (posterior),因此對於硬幣的問題,我們一開始可能認為硬幣是公平 ${(\theta\ =\ 0.5)}$ 的機率會是最高的,然而隨著不斷丟到正面,我們的 knowledge 也會不斷更新,可以透過以下的迭代觀察的 knowledge 的改變:
[prior]
${
P(\theta=0)\ =\ 0.05 \\
P(\theta=0.3)\ =\ 0.1 \\
P(\theta=0.5)\ =\ 0.7 \\
P(\theta=0.7)\ =\ 0.1 \\
P(\theta=1)\ =\ 0.05
}$
第一次擲出正面,
[likelihood]
${
P(H|\theta=0)\ =\ 0 \\
P(H|\theta=0.3)\ =\ 0.3 \\
P(H|\theta=0.5)\ =\ 0.5 \\
P(H|\theta=0.7)\ =\ 0.7 \\
P(H|\theta=1)\ =\ 1
}$
由於大家的 marginal probability 都一樣,直接做 normalization,可以得到:
[posterior]
${
P(\theta=0|H)\ =\ 0 \\
P(\theta=0.3|H)\ =\ 0.06 \\
P(\theta=0.5|H)\ =\ 0.7 \\
P(\theta=0.7|H)\ =\ 0.14 \\
P(\theta=1)|H\ =\ 0.1
}$
在經過十次都擲出正面後:
[posterior]
${
P(\theta=0|H)\ =\ 0 \\
P(\theta=0.3|H)\ =\ 1.88*10^{-7} \\
P(\theta=0.5|H)\ =\ 6.04*10^{-4} \\
P(\theta=0.7|H)\ =\ 4.89*10^{-3} \\
P(\theta=1)|H\ =\ 1.77*10*{-1}
}$
有別於 frequentist,bayesian 不會因為不斷擲出正面,就否定擲出反面的可能性,但隨著次數越來越多,就會慢慢貼近 frequentist ,這也可以說明,如果經過無限次都擲出正面,那這個硬幣只能擲出正面就成了事實。
# Naive baye's classifier
這裡舉一個天氣與打網球的例子,來模擬要如何用 Bayes 進行事件的預測。

上表為過去天氣的情況與打網球與否的紀錄,這也就是我們 Bayes 中要用來作為 lokelihood 的 data,因此我們可以得到:
${P(O=\{s,o,r\},T=\{h,c\},H=\{h,n\},W=\{w,s\})|play=\{yes,no\})}$
而我們也有過去打網球的機率,即為我們的 prior:
${P(play=\{yes,no\})}$
因此藉由這些資料,我們就可以預測當今天天氣是 ${O=x,T=y,H=z,W=w}$ 的情況下,會去打網球的機率。
這裡由於資料量的不足,我們必須假設所有的天氣都是 i.i.d (independent and identically distributed),因此:
${\begin{split}
P(x,y,z,w|A)\ &=\ P(x,y,z|w,A)\ *\ P(w|A) \\
&=\ P(x,y|z,w,A)\ *\ P(z|w,A)\ *\ P(w|A) \\
&=\ P(x|y,z,w,A)\ *\ P(y|z,w,A)\ *\ P(z|w,A)\ *\ P(w|A) \\
\end{split}}$
又,
${\begin{split}
P(z,w|A)\ &=\ P(z|A)\ *\ P(w|A)\ (i.i.d) \\
&\Rightarrow\ \frac{P(z,w,A)}{P(A)}\ =\ \frac{P(z,A)}{P(A)}\ *\ \frac{P(w,A)}{P(A)} \\
&\Rightarrow\ \frac{P(z,w,A)}{P(w,A)}\ =\ \frac{P(z,A)}{P(A)} \\
&\Rightarrow\ P(z|w,A)\ =\ P(z|A)
\end{split}}$
同理,
${P(y|z,w,A)\ =\ P(y|A)}$
${P(x|y,z,w,A)\ =\ P(x|A)}$
所以,
${P(x,y,z,w|A)\ =\ P(x|A)\ *\ P(y|A)\ *\ P(z|A)\ *\ P(w,|A)}$
藉由 i.i.d ,likelihood probability 就變成
${\ \ \ \ P(O=\{s,o,r\}|play=\{yes,no\}) \\
*\ P(T=\{h,c\}|play=\{yes,no\}) \\
*\ P(H=\{h,n\}|play=\{yes,no\}) \\
*\ P(W=\{w,s\})|play=\{yes,no\})}$
例如我們想知道 ${P(play=yes|O=s,T=c,H=h,W=s)}$,藉由計算
${\begin{split}
&\frac{P(play=yes|O=s,T=c,H=h,W=s)}{P(play=no|O=s,T=c,H=h,W=s)}\ =\ \frac{125}{486} \\
&\Rightarrow\ P(play=yes|O=s,T=c,H=h,W=s)\ =\ 20\%
\end{split}}$
> 如果不用 i.i.d,會因為資料太少,而得到更差的結果 (0%),雖然假設各種天氣參數是 i.i.d 有點牽強,但是結果還蠻合理的