Probability & Statistics for Machine Learning & Data Science(Week 4 - Lesson1- Probability & Statistics for Machine Lear

# Probability & Statistics for Machine Learning & Data Science(Week4 - Lesson 1 Confidence Intervals) ###### tags: `coursera` `Linear Algebra` `math` [Week4 - Lesson 1 Confidence Intervals](https://www.coursera.org/learn/machine-learning-probability-and-statistics/home/week/4) ## Z Distribution [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/V5FiL/z-distribution) ### Confidence Interval - Intuition ![image](https://hackmd.io/_uploads/r1PHmErap.png) 我們之前談的估計都是一個平均值然後就可能是這樣，但是到底估的好不好也不知道，這時候需要的就是置信度區間(confidence interval)。我們希望得到的不僅僅是均值$\bar{x}$，而是一個上下限區間。 ### Confidence Interval - Intuition ![image](https://hackmd.io/_uploads/S10iOFIp6.png) 假設，現在在做的是一個樣本大小為1的採樣，然後以這個樣本的均值做為總體均值的估測值。根據中央極限定理，這個採樣就會形成一個高斯分佈，中心處就是樣本均值，然後標準差為$\sigma$。不過，如果我們想定義一些標記，像是上限和下限，讓來自採樣分布的樣本均值中有一定百分比的樣本落在該範圍內，又該如何處理？首先我們要定義一個$\alpha$，這代表著[顯著水準](https://terms.naer.edu.tw/detail/3133e8242b200e997d79e2105219eb72/)(significance level)，關於$\alpha$後續會有說明，不過現在要知道的就是，我們就是要用$1-\alpha$就會得到一個[信心水準](https://terms.naer.edu.tw/detail/ddfc27a8e72d86b59d0fced25a1c27dc/)(confidence level)，這基本就說明了樣本均值落在這個上下限區間內的頻率。常見的$\alpha$為0.05，也就是5%，這也意謂著我們的信心水準就是1-0.05=0.95，也就是說，從樣本分佈中採樣的樣本均值會有95%是落在這個區間的。另一方面，剩下的5%就是區間外的，左右各分一半，所以各有2.5%的機率存在。值得注意的是，上下限距離實際均值會是一個標準差的值，這後續會有說明。不過我們根據我們所選擇的信心水準所定義的這些標準差區間，本質上就是一個誤差範圍。通過將誤差範圍加到來自樣本分佈中的任意的樣本均值，我們就可以得到信賴區間。這就是對於信賴區間的一個簡要說明，雖然我覺得一點也不簡單需要時間消化就是。 ### Confidence Interval - Intuition ![image](https://hackmd.io/_uploads/S15tKF86T.png) 每次採樣一個樣本，$n=1$，並且$\alpha=0.05$，代表信賴區間為$0.95$。上圖右則是說明著，我們從樣本分佈中採樣，根據信賴區間判斷是否包含在總體均值中，很明顯的，樣本1、3是不包含的，而樣本2是包含的。 ### Confidence Interval - Intuition ![image](https://hackmd.io/_uploads/BkwU9tUpT.png) 現在，我們採樣100次，然後有包含的就畫綠線，不包含的就畫紅線，得到上面的分佈圖。這時候我們會發現到，在95%置信水準的條件下，信賴區間生成器會包含總體均值，而另外的5%則是不會。 ### Confidence Interval - Intuition ![image](https://hackmd.io/_uploads/rkawJqLa6.png) 當我們的樣本大小為1的時候，我們得到樣本的樣本分佈。這意謂著，它以總體均值，$\mu$，與標準差依循著高斯分佈。這是因為根據中央極限定理(CLT)，只要你的實驗重覆夠多次，那樣本均值的總體均值也會依循著這個分佈，即$\mu_{\bar{x}}=\mu$。而樣本均值的總體標準差就會是就會是總體標準差除採樣大小的平方根，也就是$\sigma_{\bar{x}}=\dfrac{\sigma}{\sqrt{n}}$，在這個範例中$n=1$，所以樣本標準差就會是總體標準差。 ### Confidence Interval - Intuition ![image](https://hackmd.io/_uploads/r1aVl9L6a.png) 如果$n=2$，那樣本均值根據中央極限定理仍然是總體均值，但是標準差的部份就會變成是$\dfrac{\sigma}{\sqrt{2}}$，它仍然是一個高斯分佈，只是標準差的部份變小了，所以分佈的部份就會有一點點的變高變瘦。很明顯的，採樣大小影響著標準差，也就是影響著信賴區間。 ### Confidence Interval - Intuition ![image](https://hackmd.io/_uploads/HJnx-9UaT.png) ![image](https://hackmd.io/_uploads/BkzS-cLap.png) 左右兩邊比較明顯有差異，這主要是因為用了$n$個樣本來解釋變異性所造成的差異。$n$愈大，分佈愈集中，那信賴區間與誤差範圍也都會縮小。所以看$n=10$的分佈，變的又瘦又高，分佈都集中了，這95%的信賴區間都擠在更小的區間裡面。 ### Confidence Interval - Intuition ![image](https://hackmd.io/_uploads/BJqM458p6.png) 為了涵蓋95%的信賴區間，隨著$n$的增加我們就需要一個更多的區間，上圖比較在置信水準95%的情況下，$n=2$與$n=10$的差異。 $n=2$的的信賴區間明顯比$n=10$還要大，但是不管如何兩邊還是有95%的機率可以包含到總體均值，只是，就是這個but，我們可以看的出來，$n$愈大的情況下，樣本均值會更加地接近總體均值。不論樣本大小為何，樣本大小都會給我們一個信賴區間，樣本愈大，信賴區間愈小，但同時樣本均值也會更加地接近總體均值，並且這區間仍然會有95%的機率包含總體均值。 ### Effect of the Confidence Level ![image](https://hackmd.io/_uploads/SJCLocIap.png) 樣本大小的影響我們知道了，現在來看信賴區間的影響。上圖給出樣本數為1的情況下，不同的信賴區間的情況。上圖右在置個區間只有70%的情況下卻實變小了。 ### Effect of the Confidence Level ![image](https://hackmd.io/_uploads/rkT-35UTT.png) 現在一樣的來採樣，上圖給出採樣的結果。在信賴區間縮小的情況下，採樣的資訊會包含總體均值的機會也會變小。 ## Margin of Error [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/FMtQ2/margin-of-error) ### Margin of Error - Introduction ![image](https://hackmd.io/_uploads/S1u7vAPaT.png) 上圖是先前的案例，也就是樣本大小為1的抽樣分佈的信賴區間。現在我們可以根據給定的樣本均值建構出信賴區間。我們必需要計算誤差範例(margin of error)以及區間的寬度(width of the intervals)來得到上下限，這必需要從樣本均值中做點加減。 ### Margin of Error ![image](https://hackmd.io/_uploads/SkLJt0vpp.png) 信賴區間的概念跟採樣密切相關，我們從一個特定大小的樣本中採多個樣本，以得到樣本均值的樣本分佈。對於比較大的樣本，其樣本分佈會傾向於$\bar{x}$所形成的正態分佈。如果我們要標準化這個分佈，常做的就是讓它均值為0，標準差為1，寫入$\bar{X}\sim\mathcal{N}(0,1)$。 ### Margin of Error ![image](https://hackmd.io/_uploads/Hy6qFADT6.png) 標準化之後，會有68%的總體是落入一個標準差的範圍內，然後95%的總體是兩個標準差，這邊我們把這些值，也就是$\mu-2\sigma, \mu-\sigma, \mu+\sigma,\mu+2\sigma$稱為$z$ value。 ### Margin of Error ![image](https://hackmd.io/_uploads/Sy90pCD6a.png) 我們就看兩個標準差的95%這一部份，這邊的實際值會是1.96。我們知道，中間的部份會是$1-\alpha$的信賴水準，旁邊的曲線角落則各別為$\alpha/2$。我們把$z_{\alpha/2}$稱之為臨界值(critical value)，所以，對於95%的信賴水準情況下，其臨界值，也就是$z_{\alpha/2}=1.96$，這是誤差範圍計算的第一個部份，取得限定來定義有多少的樣本會落入分佈的某個百分比。接下來就是要縮放分布來考慮原始分佈中變異性。這就需要原始分佈的標準差才有辦法做到。這個我會，前面的課程就說過了，樣本標準差就是總體標準差除於樣本大小開根號，也就是$\sigma_\bar{X}=\dfrac{\sigma}{\sqrt{n}}$。將樣本標準差乘上臨界值就可以得到誤差範圍。這個分佈的中心就是抽樣分佈的總體均值，長的就是上面那個樣子。 ## Calculation Steps [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/l8FA2/calculation-steps) ### Confidence Interval - Calculation Steps ![image](https://hackmd.io/_uploads/H1H9qao6p.png) 下面給出計算信賴區間的步驟： 1. 計算樣本均值 2. 計算期望的信賴水準，也就是$(1-\alpha)$ 3. 計算臨界值(critical value)，也就是$z_{\alpha/2}$ 4. 計算standard error，也就是$\dfrac{\sigma}{\sqrt{n}}$ 5. 計算誤差範圍，將critical value乘上standard error 6. 將誤差範圍跟樣本均值相加減得到信賴水準 ### Confidence Interval - Calculation Steps 有些假設是可以幫我們取得這個信賴區間的： 1. 假設樣本是隨機取得的 2. 樣本大小大於30，或者總體分佈是近似正態 ## Confidence Interval - Example [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/rvxYp/confidence-interval-example) ### Confidence Interval - Example ![image](https://hackmd.io/_uploads/S1vl1Ropp.png) 回到神秘島上的身高範例，假設島上有6000人，我們希望可以計算這個島上人們的平均身高。因為我們無法完整的取得6000人的身高，所以就隨機採樣，取得49個人的身高資料，假設，平均身高為$\bar{x}=170cm$，總體標準差$\sigma=25cm$。我們要用這個範例來找出這神秘島上平均身高的95%的信賴區間。95%的信賴區間，其臨界值為$z_{\alpha/2}=1.96$。 ### Confidence Interval - Example ![image](https://hackmd.io/_uploads/r1U-kAoTp.png) ~~1. 計算樣本均值~~ ~~2. 計算期望的信賴水準，也就是$(1-\alpha)$~~ ~~3. 計算臨界值(critical value)，也就是$z_{\alpha/2}$~~ ~~4. 計算standard error，也就是$\dfrac{\sigma}{\sqrt{n}}$~~ 5. 計算誤差範圍，將critical value乘上standard error 6. 將誤差範圍跟樣本均值相加減得到信賴水準上面我把課程提過的步驟帶過來，比較直觀。現在要計算的是誤差範圍(margin of error)，根據公式就是臨界值乘上標準誤差，也就是$z_{\alpha/2}\cdot\dfrac{\sigma}{\sqrt{n}}=1.96\cdot \dfrac{25}{\sqrt{49}}=7$，也就是說，平均身高$170\pm 7$。 ### Confidence Interval - Example ![image](https://hackmd.io/_uploads/B1QFy0spa.png) 現在，最後我們得到，這個信賴區間就是163cm~177cm。我們有95%的把握，神秘島上的6000人的平均身高是落於這個區間的。 ## Calculating Sample Size [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/GsU8N/calculating-sample-size) ### Calculating Sample Size ![image](https://hackmd.io/_uploads/rkWv-Roaa.png) 這是我們上個範例計算得到的信賴區間，沒記錯的話就是$\pm{7}$，但是這個區間太大，不滿意，打妹，我們希望可以壓在$\pm{3}$。為此，我們需要更大的採樣數字。問題：讓我們的得到最少$\pm{3}$的樣本大小應該是多少？ ### Calculating Sample Size ![image](https://hackmd.io/_uploads/rJloM0oTT.png) 先寫出誤差範圍的公式： $z_{\alpha/2}\cdot\dfrac{\sigma}{\sqrt{n}}$。我們的目標是3，所以公式就變成： $3=z_{\alpha/2}\cdot\dfrac{\sigma}{\sqrt{n}}$ 只要小於3我們都好，所以公式就變成： $3 \geq z_{\alpha/2}\cdot\dfrac{\sigma}{\sqrt{n}}$ 然後我們已知的就可以帶進來： $3 \geq 1.96 \cdot\dfrac{25}{\sqrt{n}}$ ### Calculating Sample Size ![image](https://hackmd.io/_uploads/rklfXCiT6.png) 整個公式拉拉哩拉拉調一調， ### Calculating Sample Size ![image](https://hackmd.io/_uploads/ryTI7RspT.png) 現在，我們知道，在採樣大小能夠有267的情況下，我們就可以得到$\pm{3}$的信賴區間。 ### Calculating Sample Size ![image](https://hackmd.io/_uploads/rJd_4AiT6.png) 總結，用於計算特定誤差範圍的公式稱為MOE，也就是我們希望可以在$\pm{3}$的範圍，這個$\pm{3}$就是MOE，整個公式就是$n \geq (\dfrac{\alpha/2\cdot\sigma}{MOE})^2$。 ## Difference Between Confidence and Probability [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/n65jc/difference-between-confidence-and-probability) ### Difference Between Confidence and Probability ![image](https://hackmd.io/_uploads/HyGUcMTap.png) 假設我們計算出樣本估測值，$\bar{x}$，並且計算出95%的信賴區間，根據理解我們應該會說，這個信賴區間在95%情況下包含真實的總體參數，這可能是正確的。不過如果變成是說，有95%的機率，其總體參數落入信賴區間，這句話就是錯的。 ### Difference Between Confidence and Probability ![image](https://hackmd.io/_uploads/rJlp2fTaT.png) 首先我們來看總體均值，Population mean $\mu$的幾個特性： 1. 這是一個未知數，也是我們要估測的目標 2. $\mu$並沒有機率分佈，它並非隨機的，只是未知，它的值是固定不變的 3. 它是固定的，所以它的情況就是存不存在給定的信賴區間 4. 它不會改變，所以不論是否是95%的情況，它都不會落入指定區間 :::warning 第4點的部份不是很明理，下面貼出原文： It does not change. So it's not going to fall within a specified interval 95% of the time or not. ::: ### Difference Between Confidence and Probability ![image](https://hackmd.io/_uploads/HJOngX6pp.png) 另一方面，樣本的樣本分佈就說明著，這個值會隨著採樣而變化。因此，信賴區間的概念跟樣本均值相關，並且它會隨著樣本均值的變化而變化。我們說，我們會有95%的信心，這跟重覆多次的採樣實驗並且計算每個樣本估測值是有關的。95%的情況下，這些信賴區間會包含均值。這個信賴區間跟建構信賴區間的成功率是有關的。 ### Difference Between Confidence and Probability ![image](https://hackmd.io/_uploads/Skn0g766a.png) 這並非特定區間包含總體均值的機率，正如我們所看到的，總體均值要嘛包含，要嘛不包含在區間內。 ## Unknown Standard Deviation [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/Mcj0y/unknown-standard-deviation) ### Confidence Interval - $t$ Distribution ![image](https://hackmd.io/_uploads/rkKXUmTa6.png) 這課至今，我們的估測都是建立在我們知道總體的標準差$\sigma$的情況下。不過這世道沒那麼順利的事，更多情況下我們是不知道總體標準差的。不過這不礙事，當我們不知道的時候就可以引入一個Student $t$-distribution的觀念。在知道總體標準差的情況下，我們的採樣分佈會在總體均值周圍形成一個正態分佈，然後因為這個特性我們可以採用臨界值$z_{\alpha/2}$。但是不知道總體標準差的時候，我們就不用使用$\sigma$，也不能使用臨界值了，這是一個問題，這樣我們要怎麼樣取得一個信賴區間？不能使用總體標準差$\sigma$，那就來試一下樣本標準差$s$，公式只要調一下，do、re、mi、so，就成功了。但是這種情況下就不再是正態分佈，它的分佈會很接近正態分佈，稱為Student $t$-distribution。 $t$分佈兩邊尾巴跟x軸之間的gap會高一些。這意謂著從兩端去採樣到的機會也會相對高一些，也就是說，採樣到的點離中心點相較於正態分佈可能會遠一些。 ### Confidence Interval - $t$ Distribution ![image](https://hackmd.io/_uploads/Hyf0iQaTa.png) 上圖左是已知總體標準差的情況，上圖右是未知總體標準差的情況。因為已知，所以是正態分佈，也因此就可以使用$z$。未知的情況下，我們使用樣本標準差$s$來取代總體標準差$\sigma$，這時候就不再是正態分佈，而是Student $t$-distribution。但是，因為是Student $t$-distribution而不是正態分佈，所以不能使用$z$。 ### Confidence Interval - $t$ Distribution ![image](https://hackmd.io/_uploads/rygs3mpaT.png) 我們不再使用$z$-score，而是改用$t$-score來計算誤差範圍。 ### Confidence Interval - $t$ Distribution ![image](https://hackmd.io/_uploads/SkNqJV6ap.png) 這個$t$啊是由一個稱為自由度(degree of freedom)所定義的，那這個自由度是由樣本數減一，$n-1$，所給出的。最大的影響就是，當$n$愈大，自由度愈高，也就會愈接近正態分佈。這很直觀也很合理，因為樣本數愈大就愈接近實際估值。 ## Confidence Intervals for Proportion [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/c3x3e/confidence-intervals-for-proportion) ### Confidence Intervals for Proportion ![image](https://hackmd.io/_uploads/HkFnpwCaa.png) 我們已經知道如何在給定樣本均值的情況下計算其信賴區間，也就是均值加減誤差範圍。那如果要使用比例的信賴區間(Confidence Intervals for Proportion)呢？舉例來說，30個人，其中24個人有汽車，6個人有摩托車，這就是說，$n=30$，$x=24$，$\hat{p}=\dfrac{x}{n}=\dfrac{24}{30}=80%$，意思就是說有80%的人擁有汽車。這可能不是總體比例，但是可能非常接近。問題：我們要如何計算這個樣本比例的95%信賴區間？ ### Confidence Intervals for Proportion ![image](https://hackmd.io/_uploads/Sy4xy_Caa.png) 跟給定樣本均值類似，不過這個比例的信賴區間是由樣本比例$\hat{p}$所給出，也就是$\hat{p}$加減誤差範圍。誤差範圍的公式如下： $z_{\alpha/2}\cdot\sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$ 最大的差別就是標準差$\sigma$的部份由樣本比例來替代。 ### Confidence Intervals for Proportion ![image](https://hackmd.io/_uploads/HkG8kOA66.png) 回到我們的問題，帶入公式，do、re、mi、so，得到誤差範圍為0.14。 ### Confidence Intervals for Proportion ![image](https://hackmd.io/_uploads/Syij1uCTp.png) 信賴區間就是樣本比例加減誤差範圍，也就是$0.8\pm0.14$，意思就是說，我們有95%的信心，有車的人口比例落在66%~94%之間。