Probability & Statistics for Machine Learning & Data Science(Week 1 - Introduction to Probability)

# Probability & Statistics for Machine Learning & Data Science(Week 1 - Probaility Distributions) ###### tags: `coursera` `Linear Algebra` `math` [Week1 - Lession2 - Probaility Distributions](https://www.coursera.org/learn/machine-learning-probability-and-statistics/home/week/1) ## Random Variables [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/5W2lz/random-variables) ### From Events to Random Variables ![image](https://hackmd.io/_uploads/r1nlwmSIp.png) 如果我們丟一個硬幣，那我們就會有50%的機率是正面，有50%的機率是反面。換個方式來思考，假設有個$X$，它記錄著丟到正面的次數，丟到正面就記$X=1$，如果丟到反面，那$X=0$，機率當然是各半，但是由不得$X$選擇，因此$X$稱為random variable(隨機變數)。這在機率與統計上是很重要的一個概念。大概你可以想成$X$並沒有一個固定的數值，丟到正面它就是1，丟到反面它就是0。 ### From Events to Random Variables ![image](https://hackmd.io/_uploads/H1W_uQBL6.png) $X$現在代表的是丟10次的硬幣，那它可以有很多可能，$X=10、X=9...$，如果說丟到正面的機率，也就是$P(H)=0.5$，那上面圖中的事件發生的機率是多少？因為每個事件都是獨立的，而且正反面就是各半的機率，所以基本都是$0.5^{10}$，不過如果硬幣的正反機率不是各半的話，就不是這樣了。以$X=9$為例，正面有9次，反面有1次，那就是$0.5^{9}0.5^1$。不過真正難的問題是，出現$P(X=0), P(X=1)...P(X=10)$的機率各是多少。 ### From Events to Random Variables ![image](https://hackmd.io/_uploads/S1g197SUp.png) 計算出現$P(X=0), P(X=1)...P(X=10)$的機率就需要靠實驗，當然我們丟10次的硬幣之後的結果就會有$X=0\sim10$的可能。假設這個硬幣是公平硬幣，所以出現正面的機率是50%，並且我們重覆這個實驗500次。 ### From Events to Random Variables ![image](https://hackmd.io/_uploads/Sy5TqmSI6.png) 500次的實驗讓我們得到上面的直方圖，當然這並不是一個實際的機率，只是一個直方圖的結果呈現。可以發現到，$P(X=0)$與$P(X=10)$的機率是最小的，而$P(X=5)$的機率是最高的。 ### Why Random Variables? ![image](https://hackmd.io/_uploads/By6sjmrIa.png) 為什麼我們需要瞭解隨機變數？因為隨機變數讓我們可以對整個實驗建模，多數的機率問題都可以用隨機變數來表示： * $X$可以表示丟到硬幣正面的次數 * $X$可以表示丟到骰子數目為1的次數 * $X$可以表示一群病人中的病人數量 * $X$可以隨你爽隨便定義 ### Other Random Variables ![image](https://hackmd.io/_uploads/SJCf3QrI6.png) 還有很多事情可以用隨機變數來表示，像是下一班公車來的時間、跳高選手預期跳多高、貨船上的貨品預期多少會損壞、預期12月下雨的雨量之類的。 ### Discrete and Continuous Random Variables ![image](https://hackmd.io/_uploads/r1_bAQBIT.png) 隨機變數有兩種，一種是離散型的，一種是連續型的。目前為止我們看到的都是屬於離散型的，丟到正面的次數，骰子得到1的次數，特定群體中特定身高或是年齡的小孩的數量。那連續型的像是下一輛公車到站的時間、跳高選手跳出起來的高度、特定月份下雨的雨量。兩者之間的差異在於： * 離散型的是一種有限數值，丟10次的硬幣，特定群體的特定身體可能指的就是一個區間 * 連續型的是一種無限數值，下班公車可能1分鐘、1.01分鐘，也可能120分鐘或者更久更久不過事實上離散型的數值也可以是無限數值。舉例來說，我們丟硬幣丟到正面才停，好運一點丟1次就正面，倒楣一點你可能他媽的丟了無限次都還沒有中。所以更精確的定義應該是： * 離散型的就會取可計算的數值 * 連續型的就會取一個區間值 ### Random Variable Vs. Deterministic Variable ![image](https://hackmd.io/_uploads/rJeFAmB8a.png) 那隨機變數跟我們在代數、微積分中看到的變數有什麼不一樣？最大的差異在於，代數與微積分中看到的變數是確定性的，而這邊的隨變數是隨機，也就是不確定的。意思就是，代數與微積分中說1是1，而隨機變數說1下次可能是2。 ## Probability Distributions (Discrete) [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/ioCkW/probability-distributions-discrete) ### Filp Three Coins ![image](https://hackmd.io/_uploads/HJul_dIUp.png) 假設，我們丟三次硬幣，隨機變數$X$代表著出現正面的次數，那$X$會有4種可能，分別為0、1、2、3。 ### Filp Three Coins ![image](https://hackmd.io/_uploads/SkAc__LUT.png) 把排列組合調整一下方向，不難發現到，三次的硬幣會有8個所有可能，全正面與全反面的組合就1個，1次正面與2次正面會有3個。如果把排列組合當做是整個樣本空間的話，那各種組合出現的機率就會是1/8、3/8、3/8、1/8。 ### Filp Three Coins ![image](https://hackmd.io/_uploads/Skj0ud8Ia.png) 如果我們把它就當做一個普通直方圖來看，就會是像上圖這樣。 ### Filp Four Coins ![image](https://hackmd.io/_uploads/SyhPtdIU6.png) 把問題複雜一點，變成丟4個硬幣。那整體可能的組合就變成上圖這樣，整個樣本空間搭配各種可能出現的次數，這就是每個可能出現的機率。 ### Filp Five Coins ![image](https://hackmd.io/_uploads/H1OW9uLUT.png) 把問題再放大，變成丟5次，上圖就是丟5次硬幣的結果直方圖。其實，看到現在也不難發現，頭尾的出現機率都是非常小的，不是全正面就是全反面。 ### Filp Five Coins ![image](https://hackmd.io/_uploads/B1hr6uI8a.png) 每個bar都代表著隨機變數$X_3$為0~5的機率，我們可以用$P(X_3=x), x=0,1,2,3,4,5$來表示，這即稱為$X_3$的機率質量函數(probability mass function)，以小寫$p$來表示，即寫為$p_X(x)=P(X_3=x)$。所有離散的隨機變數(PMF)都可以用它們的機率質量函數來建模。因為它包含了解機率是如何的在變數的所有可能值之間分佈的所有必要資訊。 PMF必需滿足： 1. $p_X(x)\geq 0$，因為PMF定義為隨機變數在取得某一個特定值的機率，所以它始終為正數 2. $\sum_xp_X(x)=1$，當我們把PMF所有可能值相加的時候，它的總和會是1，因為這就是所有可能的機率，所以總和為1是正常 ### Can You See a Pattern? ![image](https://hackmd.io/_uploads/H1kyeK8UT.png) 基本上我們也發現到，$X_1,X_2,X_3$是非常類似的。它們計算的都是在丟固定次數的硬幣中是正面的次數，像$X_3$是正面的次數就會是0~5。我們也可以發現它們的機率分佈也是類似，這樣是否可以有一個模型來表示這些隨機變數？當然有，那就是binomial distribution，也就是二項分佈。 ## Binomial Distribution [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/u7wqV/binomial-distribution) ### An Example ![image](https://hackmd.io/_uploads/BJcqDawLa.png) 用丟硬幣來認識binomial distribution。假設丟五次，這五次中出現兩次正面的機率有多少？得到兩次正面的排列組合有很多，正、反面的機率都是各半，所以就很單純的0.5^5^。 ### An Example ![image](https://hackmd.io/_uploads/HyjpKTvLp.png) 那可以出現兩次正面的排列組合有多少，答案是10，但怎麼算？我也實在是看不出來，這印象中好像是我國高中學過的排列組合。不過計算式來看是可以寫成$10=\dfrac{5!}{2!(5-1)!}=\left(\begin{align}5\\2\end{align}\right)$，其中$\left(\begin{align}5\\2\end{align}\right)$又稱為Binomial coefficient。這可以讓我們計算出丟五次硬幣的情況下，出現兩個正面與三個反面的次數。 ### Binomial Coefficient ![image](https://hackmd.io/_uploads/HJ3Xi6wL6.png) $\left(\begin{align}n\\k\end{align}\right)$代表著，在$n$次丟硬幣的情況下出現$k$次正面的次數。這有個特性，就是$(n-k)$也是一樣的，這也就是為什麼它們的PMF總是對稱分佈呈現。 ### Binomial Distribution ![image](https://hackmd.io/_uploads/SkZnT6wUa.png) 現在我們能不能找出一個通用的方法來寫出丟五次硬幣且出現正面的PMF？假設： 1. 丟硬幣出現正面的機率為$p$，也就是$\mathbf{P}(H)=p$ 2. Event：$X=x$，其中$x$表示5次丟硬幣出現正面的次數(5次的話即為0~5) 出現$x$的機率為$p^x$，這是一個特定順序的機率，這是正面的機率，那反面的機率就是$(1-p)^{5-x}$，然後我們考慮的是所有正面次數的可能，所以整個式子結合起來就是： $$ \left(\begin{align}5\\x\end{align}\right)p^x(1-p)^{5-x} $$ ### Binomial Distribution ![image](https://hackmd.io/_uploads/rk3VyAvIa.png) 因為丟5次，正面的次數是0~5，所以要再加入一段： $$ \left(\begin{align}5\\x\end{align}\right)p^x(1-p)^{5-x}, x=0,1,2,3,4,5 $$ 然後這是$x$的PMF，並且$X$是依著binomial distribution： $$ p_X(x)=\left(\begin{align}5\\x\end{align}\right)p^x(1-p)^{5-x}, x=0,1,2,3,4,5 $$ $X$是依循著binomial distribution，所以寫為$X\sim Binomial(5p)$，其中$5$表示丟5次硬幣，$p$的話則為$\mathbf{P}(H)$，也就是丟出正面的機率。符號$\sim$則表示$X$是依循著右邊表示的分佈，在這邊指的就是Binomial Distribution。 ### Binomial Distribution ![image](https://hackmd.io/_uploads/BJP-iGt8T.png) 現在我們知道，丟五次，$n=5$，丟出正反面的機率各半，$p=0.5$，那我們的PMF就可以寫成： $$ p_X(x)=\mathbf{P}(X=x)=\left(\begin{align}5\\k\end{align}\right)0.5^k(0.5)^{5-k} $$ 因為$p=0.5$，因此這個分佈圖就是一個對稱。 ### Binomial Distribution ![image](https://hackmd.io/_uploads/r1sfjfFIp.png) 如果$p=0.3$的話，那分佈的部份就不再是對稱。那也因為$p=0.3$意謂著出現正面的次數減少了，因此$x=0, 1, 2$的機率就高了些。 ### Binomial Distribution ![image](https://hackmd.io/_uploads/BJQZAfKIp.png) 稍早的範例說的是丟五次的範例，不過理論上即使你丟了$n$次所得到的模型也應該是一樣的，我們只需要單純的調整一下參數： $$ p_X(x)=\left(\begin{align}n\\x\end{align}\right)p^x(1-p)^{n-x}, x=0,1,2,3,4,5,...,n $$ 這也稱之為binomial of $n$ and $p$，其中$n$、$p$就是這個二項式分佈的參數。 ### Dice Is a Biased Coin! ![image](https://hackmd.io/_uploads/Hymn0zK8p.png) 現在有個問題，那就是丟五次骰子，得到三個1的機率有多少？基本上我們可以把這個骰子想像成是一個有偏差的硬幣，所以得到正面(1)的機率就是1/6，得到反面(2,3,4,5,6)的機率就是5/6。 ### Dice Is a Biased Coin! ![image](https://hackmd.io/_uploads/BJ3yJmFLT.png) 那這個機率分佈就會像上面這樣，一樣的我們可以把參數帶入PMF，其中$n=5, p=0.16666$。 ### Throw 10 Dice and Record Ones ![image](https://hackmd.io/_uploads/Hk3D1QFIa.png) 就算丟10次骰子也是一樣的道理，參數帶入PMF模型，$n=10,p=0.16666$，我們就可以得到其得到1的機率分佈。 ## (Optional) Binomial Coefficient [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/MhPEM/optional-binomial-coefficient) ### Binomial Coefficient ![image](https://hackmd.io/_uploads/H1AcgDRL6.png) 如果要從$n$個選項中選擇$k$個的時候，有另一種比較通用的方式。一開始我們會先從$n$個選擇中選擇一個，接下來就是從剩餘的$n-1$中再選一個，然後是從$n-2$中選擇。依此類推之後我們知道，如果是第$k$個的話，就是從$n-(k-1)$選擇一個。這種無序集合的話總共總共會有$n\cdot(n-1)\cdot(n-2)\cdots(n-(k-1))$種可能。當然，些排列組合都存在著重覆性，那有多少組合是重覆的？ ### Binomial Coefficient ![image](https://hackmd.io/_uploads/BkhN-DR8T.png) 所有的排列組合基本上都是以階來計算，舉例來說，如果是4個數字的排列組合，那所有的可能就是$4\cdot 3 \cdot 2 \cdot 1=4!$，如果是5個數字的話就是$5!$，所以所有的排列組合就是$k$階。 ### Binomial Coefficient ![image](https://hackmd.io/_uploads/HylqSZ-vp.png) 我們從$n$個選項中取$k$個的所有可能排列組合是$n\cdot(n-1)\cdot(n-2)\cdots(n-(k-1))$，這裡面存在著重覆的排列組合，除上$k$階就可以排除掉，整理一下就可以得到$\dfrac{n!}{(n-k)!k!}=\left(\begin{align}n\\k\end{align}\right)$。 :::warning 除$k$階主要是重覆性的排序要扣除，舉例來說，HT~1~T~2~T~3~T~4~，看起來好像不一樣，但拿掉編號之後它們是一樣的，不管是HT~2~T~1~T~3~T~4~，還是HT~3~T~4~T~2~T~1~。那這4個T的排列組合有幾種？4!種，所以我們必需要除掉這些重覆的排列組合。 ::: ### Binomial Distribution: Fair Coins ![image](https://hackmd.io/_uploads/HJK4IWWvT.png) 回頭看我們的丟硬幣範例： * 丟5次得到0個正面，$\left(\begin{align}5\\0\end{align}\right)=\dfrac{5!}{0!5!}=1$，注意，$0!=1$ 當然，這個範例是建構在是公平硬幣的情況下，也就是正、反面各半的機率。 ### Baised Coins ![image](https://hackmd.io/_uploads/rybCIb-w6.png) 如果這個硬幣本身存在偏差，正面只有30%，反面有70%的話，那就不一樣。上圖看的出來，全正面的機率是0.00243，兩正一反的機率高多了，是0.01323。 ### Baised Coins ![image](https://hackmd.io/_uploads/By2dPWZPa.png) 總的來說，針對這個有偏的硬幣，得到正面的機率就是$0.3^k\cdot 0.7^{n-k}$，其中$n$是丟幾次，這邊是5次，$k$是得到正面幾次。 ### Binomial Distribution ![image](https://hackmd.io/_uploads/rkraDWZDa.png) 現在你可以拿剛剛的公式來繪製出這個Binomial Distribution了。 ## Bernoulli Distribution [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/Hm9IN/bernoulli-distribution) ### Bernoulli Distribution ![image](https://hackmd.io/_uploads/HyOkCkFDp.png) 現在已經知道我們用$X$來表示一個目標事件的次數，舉例來說： 1. 丟硬幣丟到正面的次數 2. 丟骰子丟到1的次數 3. 判斷一個人有沒有生病那對於目標事件我們也可以以Success、Failure來定義。這些都是屬於Bernoulli Distribution的範例，這是一個很重要的觀念，其中一個參數$p$，也就是Success的機率。 ## Probability Distributions (Continuous) [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/RBJcm/probability-distributions-continuous) ### Discrete to Continuous ![image](https://hackmd.io/_uploads/rJQlkeYwa.png) 離散型的分佈有個特性，那就是我們總是可以列出一個清單把所有可能列出來，但連續型的無法。像公車下一班什麼時候來？也許1分鐘，也許1分鐘1秒，也許1分鐘2秒，這是無法全部列出的。換句話說，如果事件是一個清單，那就是離散分佈，事件如果是一個間隔，那就會是連續分佈。上圖為例，這是一個電話等待時間的記錄。也許1分鐘，也許2分鐘，或者是3分鐘，但實際上也許要1.01分鐘或是2.43分鐘。所以這是有無限多種可能的，也因此上面的柱狀圖會有很多很多很多的bar，可能現在看最少是1分鐘，下一秒就出現一個50秒的記錄。我們知道所有的機率總合會是1，也就是每一個事件的bar的高度加起來會是1，但是隨著每一個新的事件的出現，這些bar會愈來愈小愈來愈小愈來愈小，然後一直到變成0。當然這最主要的是分佈的本質上的差異。這是離散型分佈的表述，並不適用於連續型。有個有趣的問題可以思考，那就是一通電話你剛好等1分鐘的機率有多少？答案是0，因為有太多可能了，只要你打過客服電話你就知道，你永遠不知道什麼時候電話會被接起來。 ### Discrete to Continuous ![image](https://hackmd.io/_uploads/By9PpV9wa.png) 所以我們要換個方式來描述這種連續型分佈的問題，不以固定時間來思考，而是從windows(窗口)出發。假設我們考慮的是，這個電話你等待的時間是0~1分鐘的機率有多少，1~2分鐘的機率有多少，然後也許假設時間不會超過5分鐘。這種情況下我們就可以得到一個離散的機率分佈，一樣的，機率總和，也就是那些藍色的棒棒加總就會是1。 ### Discrete to Continuous ![image](https://hackmd.io/_uploads/H1LwCV9vp.png) 隨著需求，我們可以把間隔的部份不斷的調整，也許是30秒一個區間，或者是再細一點，15秒一個區間，再細再細再細再細下去，就可以得到一個非常smooth的連續分佈。這是一堆非常非常瘦的細線分佈所形成的連續分佈所形成的曲線，現在就可以知道，離散分佈是藍色棒棒加總為1，而連線分佈則是曲線下面積等於1。 ## Probability Density Function [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/194VO/probability-density-function) ### Probability Density Functions ![image](https://hackmd.io/_uploads/HJYxbHqwa.png) 在離散分佈的時候我們可以說，丟個十次硬幣出現三次正面的機率有多少，這是固定的。但是連續分佈的時候不能這樣看，像剛剛的範例，電話要等多久，我們就要以區間來看它，等0~1分鐘的機率有多少，blabla之類的，這些機率被以一種稱為機率密度函數的編碼。上面案例說明，假設每一個時間區間都是相等的機率，很明顯的，落在任一區間的機率都是20%，也就是它所代表的面積就是1/5。 ### Probability Density Functions ![image](https://hackmd.io/_uploads/H1QRbrcPa.png) 再切細一點，每30秒一個區間，那落在任一區間的機率就都會是10%，也就是它所代表的線下面積就是1/10。我們也會發現到，這些藍棒棒的高度完全都沒有變化，但是寬度少了一半，機率也跟著少了一半(0.2->0.1)。 ### Discrete to Continuous ![image](https://hackmd.io/_uploads/B1zKMrcvT.png) 回到稍早的call center案例，案例中的區間機率並非相等，從面積來看，比較高的機率是落在1~2與2~3的這個區間，較少機會是落在4~5。 ### Discrete to Continuous ![image](https://hackmd.io/_uploads/BJe-3WgfYa.png) 像剛剛一樣把這個區間切切切切切切切切到很細，這種情況下，我們就可以說通話時間為2~3分鐘的機率就是區間面積的總和。 ### Discrete to Continuous ![image](https://hackmd.io/_uploads/ryczfeGYp.png) 繼續下去，我們就可以得到一個很smooth的分佈，那通話時間1~2分鐘就會是上圖那個陰影區面積。 ### Question ![image](https://hackmd.io/_uploads/SyUpGgfKT.png) 如果這時候的問題是，通話時間剛好是兩分鐘的機率是多少，上圖來看，很明顯的這是一個線條，而不是一個區域面積，所以它的機率就會是0。這意謂著我們在考慮機率的時候都只能考慮在某一個時間窗格的情況，而非某一個特定時間。 ### Discrete to Continuous ![image](https://hackmd.io/_uploads/r1ZdmlfF6.png) 上圖說明著，我們把一個時間區段從很粗很粗的情況下一直切切切切切切切切到區段愈來愈小，小到變成是0的變化。這也說明著為什麼在某一個特定時間的機率會是0的原因，也是我們為什麼必需要討論時間窗格，而不是某一個特定時間點的高度的原因。 ### PDF: Formal Definition ![image](https://hackmd.io/_uploads/HkXKIezFT.png) PDF，機率密度函數，通常以小寫$f$來表示，這等同於離散分佈中的小寫$p$。機率密度函數是一個為連續變數(continuous variables)所定義的函數。它所表述的是在每個點周圍累積機率的速率。計算機率的方式就是計算a、b兩點之間的PDF曲線下面積。什麼情況下可以把一個函數視為機率密度函數？ 1. 它必需要能以實線(real line)來定義所有的數值，這也意謂著會有很多的值為0(舉例來說，0之前或是截止點之後)，不過對於所有數值來說它可能會是正數 2. 所有的值不是0就是正數，這很合理，因為機率沒有負的(筆記註：也許除了nc的遊戲？) 3. 曲線下面積為1，因為機率總和為1 ### Discrete and Continuous Random Variables ![image](https://hackmd.io/_uploads/B1tUwlztp.png) 離散變數是有限的，是可數的，但連續變數則是可以在一個區間內取任意數值。這種先天上的差異造成它們兩個計算機率方式的不同。離散變數可以用機率質量函數(probability mass function)，連續函數則是可以用機率密度函數(PDF)來計算機率。 ## Cumulative Distribution Function [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/qOMil/cumulative-distribution-function) ### Cumulative Distribution ![image](https://hackmd.io/_uploads/ryLaYgfKT.png) 這是另一種稱為累積機率的概念。累積機率所說明的是，在某一個參考點之前發生的機率有多少。一樣是以電話中心來做為說明，並且以分鐘為單位來切割時間區間。跟連續函數不同的地方在於，所計算的並不是每一個區間有多少的機率，在是在某一個區間的機率累積是多少。上圖為例，0~1的機率是相同的，但1~2的部份則是0~1、1~2的加總累積，以此類推至4~5的時候，整個機率就會是1。這個高度的變化所呈現的就是離散分佈的累積機率。這個累積機率的圖表有兩個特性： 1. 從0開始 2. 最終為1 ### CDFs ![image](https://hackmd.io/_uploads/rkkBseGYp.png) CDF：Cumulative distribution function 從連續函數到累積機率函數也是一樣，只需要將機率不斷累加上去即可完成CDF曲線。與離散分佈的不同在於，我們累加的是機率密度函數下的面積。不變的是，這個CDF曲線一樣是從0開始，結束為1。假設，上圖黑色區域的面積為0.5，那這也意謂著對應的CDF曲線高度也會是0.5，相同的信息，只是不同的表述方式。機率密度函數必需要計算曲線下面積，但是CDF曲線只需要看高度就知道目前的狀況。 ### Cumulative Distribution Function: Formal Definition ![image](https://hackmd.io/_uploads/r1rj3gfta.png) CDF所提到的信息是隨機變數累積到某個值的機率有多少，也就是變機變數小於等於某個值的機率，我們可以寫成$\text{CDF}(x)=\mathbf{P}(X\leq x)$，函數通成寫為大寫$F$(小寫$f$是機率密度函數，不要寫錯)。 CDF幾個特性： 1. 介於0~1之間 2. 起始為0 3. 結束為1 4. 永遠不會降低，因為是累加 ### PDF and CDF Summary ![image](https://hackmd.io/_uploads/rJJx6xztp.png) 上圖給出PDF與CDF的總結．就看看吧。 ## Uniform Distribution [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/WhtTZ/uniform-distribution) ### Uniform Distribution: Motivation ![image](https://hackmd.io/_uploads/Hkw4BSQKa.png) 以電話中心為例，假設上圖左記錄著每次打電話去客服所等待的時間分佈圖，如果等待超過15分鐘系統就會自動斷線。這個分佈圖轉成直方圖之後就像上圖右那般。 ### Uniform Distribution: Motivation ![image](https://hackmd.io/_uploads/Bk-XLrQFa.png) 假設$\text{T}$代表的是等待的時間，單位為分鐘。基本上0~15分鐘出現的頻率都會大致相同，而這也意味著PDF函數在0~15這區間的輸出都會是一個常數。常數怎麼計算？PDF函數的特性是曲線下面積總和為1，所以$15 \times h=1 \to h=1/15=0.06$，即直方圖上的那條水平線。 ### Uniform Distribution: Model ![image](https://hackmd.io/_uploads/H1zzuHmK6.png) 通常來說，如果連續隨機變數在區間中的發生頻率相同，那我們就可以將之建構為uniform distribution，它會有兩個參數： * $a$：區間起始點 * $b$：區間結束點因為有區間，所以區間外的機率就會是0。 ### Uniform Distribution: PDF ![image](https://hackmd.io/_uploads/H1XLOBmtT.png) 很明顯的，當間隔縮短的時候，每一種可能出現的頻率就會增加，也就會長高高。 ### Uniform Distribution: CDF ![image](https://hackmd.io/_uploads/H1q6OSmta.png) ![image](https://hackmd.io/_uploads/Hk9zFBmtT.png) 因為是均勻分佈，所以它的CDF曲線的斜率就會是1。小於邊界$a$的就會是0，大於邊界$b$的因為已經來到最高點，所以始終為1。 ## Normal Distribution [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/uzsLA/normal-distribution) ### Binomial Distribution With Very Larty $n$ ![image](https://hackmd.io/_uploads/r1i2YBmta.png) 用丟硬幣為例，先前的課程已經知道二項式分佈，不是正面就是反面，然後丟兩次，我們知道它的機率質量函數是長上面那樣的。 ### Binomial Distribution With Very Larty $n$ ![image](https://hackmd.io/_uploads/BJ6u9BmF6.png) 如果我們把丟的次數擴大到$n=100$，那就會得到一個鐘形曲線，這個鐘形曲線就是我們所熟知的正態分佈，或者高斯分佈。這意謂著，當$n$很大的時候，二項式分佈可以很好的用高斯分佈來做為近似。 :::info 高斯分佈，以Carl Friedrich Gauss命名 ::: ### Bell Shaped Data ![image](https://hackmd.io/_uploads/rk3YnSQYa.png) 現在來動作拆解，假設上面鐘形分佈是我們的目標，有一個函數$e^{-\dfrac{x^2}{2}}$看起來不錯，很適合它。 ### Bell Shaped Data ![image](https://hackmd.io/_uploads/H1gYpSQKa.png) ![image](https://hackmd.io/_uploads/S1rYaHmKT.png) 不過現在這吊鐘燒函數似乎有點偏(均值為0)，假設目標分佈的均值為2，即$\mu=2$。現在要讓吊鐘燒往右2個單位，那就要調整一下吊鐘燒函數： * $e^{-\dfrac{1}{2}(x-2)^2}$ ### Bell Shaped Data ![image](https://hackmd.io/_uploads/HJQLCHmtp.png) ![image](https://hackmd.io/_uploads/Syu8CB7tT.png) 再來就是吊鐘燒看起來太瘦了，藍色區域看起來胖胖的，要讓它胖胖的作法就是調整標準差，假設吊鐘燒的標準差$\sigma=1$、藍色區域為3： * $e^{-\dfrac{1}{2}(\dfrac{x-2}{3})^2}$ ### Bell Shaped Data ![image](https://hackmd.io/_uploads/BJLMy8mKa.png) ![image](https://hackmd.io/_uploads/Hk6GkLXK6.png) 看起來有87分像了，剩下高度，吊鐘燒太高了，具體來說這意謂著曲線下面積(area)的不同，假設吊鐘燒的區線下面積為$3\sqrt{2\pi}$，藍色區域為1： * $\dfrac{1}{3\sqrt{2\pi}}e^{-\dfrac{1}{2}(\dfrac{x-2}{3})^2}$ 這就是高斯分佈的公式。 ### Normal Distribution ![image](https://hackmd.io/_uploads/B1iAyL7Fp.png) 這裡面幾個參數： 1. 均值，$\mu$，中心點 2. 標準差，$\sigma$，胖胖瘦瘦高斯分佈的公式就是： * $\dfrac{1}{\sigma\sqrt{2\pi}}e^{-\dfrac{1}{2}(\dfrac{x-\mu}{\sigma})^2}$ ### Normal Distribution ![image](https://hackmd.io/_uploads/Sk9pgUmta.png) 正態分佈是一種對稱分佈，區間內都是實數，機率密度函數始終為正。上圖中特別框起來的部份為縮放常數，前面的說明中我們知道它是可以調整高低的。 ### Normal Distribution - Notation ![image](https://hackmd.io/_uploads/BknSD54Ka.png) 如果我們有一個帶有這種機率密度函數，$\dfrac{1}{\sigma\sqrt{2\pi}}e^{-\dfrac{1}{2}(\dfrac{x-\mu}{\sigma})^2}$，的隨機變數$X$，那就可以將之寫為$X \sim \mathcal{N}(\mu, \sigma^2)$，這說明著$X$是以$\mathcal{N}(\mu, \sigma^2)$的形式分佈，其中： 1. $\mathcal{N}$代表normal， 2. $\mu$為均值，或者說是中心點 3. $\sigma$為標準差，$\sigma^2$為variance(方差)，基本所帶的信息是一致的 ### Standard Normal Distribution ![image](https://hackmd.io/_uploads/Hyiuw5NtT.png) 上面給出標準常態分佈的公式以及分佈圖示。 ### Standardization ![image](https://hackmd.io/_uploads/SJ_n_9VKT.png) 只需要一點簡單的操作就可以將Normal Distribution像神奇寶貝一樣進化成Standard Normal Distribution。假設，現在有一個分佈的均值為2，標準差為2.5，那只需要將資料減均值除標準差就可以標準化： * $Z=\dfrac{X-\mu}{\sigma}$ 想像一下兩個不同的資料集怎麼比較？這時候是可以利用標準化來讓兩個資料在同一空間，那就可以做有效的比較。 ### What Does the CDF Look Like? ![image](https://hackmd.io/_uploads/SJo-t9EFa.png) 常態分佈的CDF曲線大概就是這樣的趨勢。 ### Normal Distribution: Applications ![image](https://hackmd.io/_uploads/H11OFq4KT.png) 其實這世界上很多東西都是以常態分佈在呈現，像上面寫的都只是冰山一角。 ## (Optional) Chi-Squared Distribution [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/5Cxbq/optional-chi-squared-distribution) ### A Communication Problem ![image](https://hackmd.io/_uploads/Skdg5cNt6.png) 假設有一個通訊收發的問題，發送端送出一個10010，因為大氣中的一些客觀因素而充滿噪點，接收端接收到的可能就是10010 + $Z$，其中$Z$為噪點，並且有著隨機性。 ### Chi-Square Distribution ![image](https://hackmd.io/_uploads/S1Pd39EK6.png) 通訊中有一個常見的假設，那就是噪點Z是正態分佈，且均值為0。而且有一項衡量的標準，那就是noise power，以噪點的平方建構模型，這很重要，因為這個噪點的方差或是[波散](https://terms.naer.edu.tw/detail/f6fd778288073a7c33d222a25cec4d84/)是有相關性的，並且定義要正確解釋接收到的信號有多麼的困難。問題來了，$W$怎麼算？ ### Chi-Square Distribution ![image](https://hackmd.io/_uploads/SJ4IC5VYp.png) 首先，我們假設$Z$是均值為0，標準差為1的正態分佈，而且剛剛也提到$W=Z^2$，因此$Z$會是$W$正負開根號之間的值，這也代表著它就是高斯分佈PDF曲線下的區間面積。舉例來說，$W\leq 0.48$，那就是標準差$\pm0.48$的曲線下面積，依此類推就可以得到$W$的CDF。比較小的$w$得到的面積值會比較大，這是正態分佈的特性，因為多數是集中在中心，也就是均值為0的地方。這就是一個具有自由度(degree of freedom)的卡方分佈(Chi-Square Distribution)。 ### Chi-Square Distribution ![image](https://hackmd.io/_uploads/ByNpCqVF6.png) 有CDF就可以利用對CDF求導得到PDF，所以就可以畫出$W$的PDF，上圖右即為$W$的PDF。一開始因為比較抖，所以得到的斜率較大，接下來就會慢慢的收斂。 ### Chi-Square Distribution ![image](https://hackmd.io/_uploads/B18j1jVFT.png) 兩次傳輸的累積功率的計算方式，就是把兩個噪點分佈$Z$加起來，一樣的，這兩個$Z$都是正態分佈，我們說這就稱為Chi-Square with 2df，具2個自由度的卡方分佈，依此類推，可以有$k$個都沒有問題。上圖右只是其中一個$k$值的分佈，不同的$k$值就會有不同的分佈樣貌。 ## Sampling From a Distribution [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/b7Gtn/sampling-from-a-distribution) ### Sampling From a Distribution ![image](https://hackmd.io/_uploads/BySnYkLFa.png) 手上的資料不夠，那就利用現有的資料來建構一個分佈，再從這個分佈中採樣。假設我們手上有一個離散分佈如下： * 綠色：0.3 * 藍色：0.5 * 橘色：0.2 將分佈放躺就可以有一個總和為1的柱狀圖。我們想要利用這個資料來建構一個分佈，再從中採樣，只需三個步驟： 1. 生成一個0~1之間的隨機數值 2. 看這個生成的數值是屬於那個區間 3. 根據區間給定所屬的顏色(0\~0.3：綠；0.3\~0.8：藍；0.8\~1：橘) ### Sampling From a Distribution ![image](https://hackmd.io/_uploads/BydQqkUKT.png) 將放躺的柱狀圖站起來，然後移開，就可以得到它的CDF曲線。採樣之後你就可以根據所在區間(y軸)對應的類別(x軸)來確定採樣到的是什麼顏色的資料。 ### Sampling From a Distribution ![image](https://hackmd.io/_uploads/B10kjJLFT.png) 同樣的觀念也可以直接套在連續分佈上，從上圖左的常態分佈可能很難知道採樣到的是屬於那一個類別，但是將之轉為CDF曲線之後，就可以根據採樣到的數值來看對應到的類別。