Probability - HackMD

--- disqus: ierosodin --- # Probability > Organization contact [name= [ierosodin](ierosodin@gmail.com)] ###### tags: `machine learning` `學習筆記` ==[Back to Catalog](https://hackmd.io/@ierosodin/Machine_Learning)== ## 名詞解釋 1. trail 試驗 * toss two coins 2. outcome 結果 * HH, HH, TT, HT, ... 3. sample space 樣本空間（宇集） * {HH, HT, TH, TT} 4. random variable 隨機變數 * 是一種 mapping function * HH -> 0 * HT -> 1 * TH -> 1 * TT -> 2 5. event 事件 * 符合 sample space 的子集合 * give a condition, a set of outcomes 6. 機率 * 由於我們不能掌控一切，無法知道一件事情是否一定會發生或出現，才需要利用機率。 * ${P(outcome\ =\ HT)\ =\ P(HT)\ =\ P(X=1)}$ * how to get ${P(X\ =\ 1)}$? infinite times of trials 7. mean * 即為平均值，若用在 random variable，稱為期望值： * ${E(X)\ =\ \sum_{i=1}^n P(X_i)\ *\ X_i}$ 8. variance * 標準差，為變異數 (${\sigma}$) 的平方，定義： * ${\begin{split} \sigma^2\ &=\ \frac{1}{n}\sum_i(x_i-E(x))^2\ \\ &=\ \frac{1}{n}\sum(x^2-2x\mu+\mu^2) \\ &=\ \frac{1}{n}\sum x^2\ -\ \frac{2}{n}\sum x\mu\ +\ \frac{1}{n}\sum \mu^2 \\ &=\ E(x^2)\ -\ 2\mu\frac{\sum x}{n}\ +\ \frac{1}{n}\mu^2n \\ &=\ E(x^2)\ -\ 2\mu^2\ +\ \mu^2 \\ &=\ E(x^2)\ -\ E^2(x) \end{split}}$ 9. covariance * 用來描述兩筆資料間的關係性，若為正，則為正相關，若為負，則為負相關，若為 0，則表示兩筆資料無關，定義： * ${cov(x,y)\ =\ E(x-E(x))\ *\ E(y-E(y))}$ 10. 其他 * ${E(x)}$ 可以用來描述資料的 location * ${E((x-\mu)^2)}$ 則可以用來表示兩筆資料的距離 (distance) 或是散佈情形 (dispersion) * ${E((x-\mu)^3)}$ 則影響了資料的偏斜程度 ## pmf, pdf, cdf pmf (probability mess function)是用來描述每種 random variable 輸出值的機率 (discrete space)，若是在 continuous space，稱為 pdf (probability density function)。而 cdf 則是 pmf 或 pdf 的累加，cumulative density function。 ## Conditional probability 表示在事件 B 發生的條件下，事件 A 發生的機率： ${P(A|B) = \frac{P(A,B)}{P(B)}}$ ### 三門問題在三個門後，有兩個是一頭羊，另一道門則是一台汽車，在選擇一道門後，主持人會開啟一道是羊的門，此時是否要換門，可以提高猜中是汽車的門？利用條件機率，如果選擇換，則抽中汽車的機率為： ${P(汽車)\ =\ P(羊)\ *\ P(換成車|羊)\ = \ \frac{2}{3}\ *\ 1\ =\ \frac{2}{3}}$ 如果選擇不換，則抽中的機率為：其實可以這樣思考：今天問題是換跟不換誰抽中汽車的機率高？如果不換，則很理所當然的，抽中汽車的機率即為 ${\frac{1}{3}}$，而換與不換是互斥且包含了宇集的所有可能（因為主持人開啟一道門後，剩下兩道門，換與不換一定有一個會抽中汽車），因此選擇換抽中汽車的機率為 ${1\ -\ \frac{1}{3}\ =\ \frac{2}{3}}$ 可以思考四道門一台車的問題，結論是：不斷的選擇換，可以得到最高的機率抽中汽車，因為在公佈一道門後，sample space縮小了，所以選擇換以後，抽中汽車的機率變高了。 ## Joint probability 與條件機率不同，joint probability 為在宇集下，發生事件 A 且發生事件 B 的機率為：${P(A,B|U)}$ # Baye's theorem ${P(A|B)\ =\ P(B|A)\frac{P(A)}{P(B)}}$ 其中， $P(A)$:事前機率 (prior probability) $P(A|B)$:事後機率 (posteriorior probability) -> ==我們所關心的== $P(B|A)$ : 可能性函數 (likelihood function) $P(B)$ : 全機率 (total probability or marginal probability) 概念:希望透過已知的事前機率 $P(B|A)$透過貝氏定理得到事後機率 $P(A|B)$ ## Likelihood ${L(observed\ event|\theta)\ =\ P(\theta|observed\ event)}$ > likelihood 不是機率 ## MLE 即找出 ${\theta=p}$ 使得 likelihood 的值最大 ## Difference between bayesian and frequentist frequentist 相信透過觀察所得到的結論，並認為這是不變的真理。所以假設今天擲硬幣的到 HH，則透過 likelihood 可以知道，在硬幣的 random variable = 1 的情況下，likelihood 是最大的 (MLE)，因此我們就會認為這個硬幣不可能擲出反面。然而對於 bayesian，我們會透過先前的 knowledge，再加上新來的資料 (likelihood) 來對 knowledge 做更新 (posterior)，因此對於硬幣的問題，我們一開始可能認為硬幣是公平 ${(\theta\ =\ 0.5)}$ 的機率會是最高的，然而隨著不斷丟到正面，我們的 knowledge 也會不斷更新，可以透過以下的迭代觀察的 knowledge 的改變： [prior] ${ P(\theta=0)\ =\ 0.05 \\ P(\theta=0.3)\ =\ 0.1 \\ P(\theta=0.5)\ =\ 0.7 \\ P(\theta=0.7)\ =\ 0.1 \\ P(\theta=1)\ =\ 0.05 }$ 第一次擲出正面， [likelihood] ${ P(H|\theta=0)\ =\ 0 \\ P(H|\theta=0.3)\ =\ 0.3 \\ P(H|\theta=0.5)\ =\ 0.5 \\ P(H|\theta=0.7)\ =\ 0.7 \\ P(H|\theta=1)\ =\ 1 }$ 由於大家的 marginal probability 都一樣，直接做 normalization，可以得到： [posterior] ${ P(\theta=0|H)\ =\ 0 \\ P(\theta=0.3|H)\ =\ 0.06 \\ P(\theta=0.5|H)\ =\ 0.7 \\ P(\theta=0.7|H)\ =\ 0.14 \\ P(\theta=1)|H\ =\ 0.1 }$ 在經過十次都擲出正面後： [posterior] ${ P(\theta=0|H)\ =\ 0 \\ P(\theta=0.3|H)\ =\ 1.88*10^{-7} \\ P(\theta=0.5|H)\ =\ 6.04*10^{-4} \\ P(\theta=0.7|H)\ =\ 4.89*10^{-3} \\ P(\theta=1)|H\ =\ 1.77*10*{-1} }$ 有別於 frequentist，bayesian 不會因為不斷擲出正面，就否定擲出反面的可能性，但隨著次數越來越多，就會慢慢貼近 frequentist ，這也可以說明，如果經過無限次都擲出正面，那這個硬幣只能擲出正面就成了事實。 # Naive baye's classifier 這裡舉一個天氣與打網球的例子，來模擬要如何用 Bayes 進行事件的預測。 ![](https://i.imgur.com/7Zc81HK.png) 上表為過去天氣的情況與打網球與否的紀錄，這也就是我們 Bayes 中要用來作為 lokelihood 的 data，因此我們可以得到： ${P(O=\{s,o,r\},T=\{h,c\},H=\{h,n\},W=\{w,s\})|play=\{yes,no\})}$ 而我們也有過去打網球的機率，即為我們的 prior： ${P(play=\{yes,no\})}$ 因此藉由這些資料，我們就可以預測當今天天氣是 ${O=x,T=y,H=z,W=w}$ 的情況下，會去打網球的機率。這裡由於資料量的不足，我們必須假設所有的天氣都是 i.i.d (independent and identically distributed)，因此： ${\begin{split} P(x,y,z,w|A)\ &=\ P(x,y,z|w,A)\ *\ P(w|A) \\ &=\ P(x,y|z,w,A)\ *\ P(z|w,A)\ *\ P(w|A) \\ &=\ P(x|y,z,w,A)\ *\ P(y|z,w,A)\ *\ P(z|w,A)\ *\ P(w|A) \\ \end{split}}$ 又， ${\begin{split} P(z,w|A)\ &=\ P(z|A)\ *\ P(w|A)\ (i.i.d) \\ &\Rightarrow\ \frac{P(z,w,A)}{P(A)}\ =\ \frac{P(z,A)}{P(A)}\ *\ \frac{P(w,A)}{P(A)} \\ &\Rightarrow\ \frac{P(z,w,A)}{P(w,A)}\ =\ \frac{P(z,A)}{P(A)} \\ &\Rightarrow\ P(z|w,A)\ =\ P(z|A) \end{split}}$ 同理， ${P(y|z,w,A)\ =\ P(y|A)}$ ${P(x|y,z,w,A)\ =\ P(x|A)}$ 所以， ${P(x,y,z,w|A)\ =\ P(x|A)\ *\ P(y|A)\ *\ P(z|A)\ *\ P(w,|A)}$ 藉由 i.i.d ，likelihood probability 就變成 ${\ \ \ \ P(O=\{s,o,r\}|play=\{yes,no\}) \\ *\ P(T=\{h,c\}|play=\{yes,no\}) \\ *\ P(H=\{h,n\}|play=\{yes,no\}) \\ *\ P(W=\{w,s\})|play=\{yes,no\})}$ 例如我們想知道 ${P(play=yes|O=s,T=c,H=h,W=s)}$，藉由計算 ${\begin{split} &\frac{P(play=yes|O=s,T=c,H=h,W=s)}{P(play=no|O=s,T=c,H=h,W=s)}\ =\ \frac{125}{486} \\ &\Rightarrow\ P(play=yes|O=s,T=c,H=h,W=s)\ =\ 20\% \end{split}}$ > 如果不用 i.i.d，會因為資料太少，而得到更差的結果 (0%)，雖然假設各種天氣參數是 i.i.d 有點牽強，但是結果還蠻合理的