## **【Statistics 基礎統計 : 統計機率分配】** :::info - 排列 - 組合 - 分配: 非負的整數解 - 二項式定理(Binomial Theorem)與多項式定理(Multinomial Theorem) - 機率 : 描述事件發生可能性的數量指標,通常表示為一個介於0和1之間 - 排容、容斥原理 : 用來處理多個事件的交集,以得到它們的聯集的概率 - 獨立事件 - 相依事件 : 兩個或多個事件之間存在某種關聯或相互影響的情況 - 互斥事件 : 兩事件沒有共同的元素 - 條件機率 : 給定事件B的條件下,事件A的條件概率 - 貝氏定理 : 給定其他相關事件的條件下,計算事件的概率 - 隨機變數 : 隨機變數X是定義於樣本空間之實數值函數 - 期望值 (Expected Value) : 經長時間重複實驗,預期得到的平均數 - 間斷型、離散型 - 連續型 - 機率分配(Probability Distribution) : 一個隨機變數的可能值,意思是將總機率1分配到各個可能值 - 間斷型、離散型、分散型隨機分配(Discrete) - 均勻分配(Uniform Distribution):均勻分佈是指隨機變數在一段區間內取值的機率相等,它可以是連續型的,也可以是離散型的 - 負二項分配 (Negative Binomial Distribution): 伯努利試驗中,首次成功的次數(在達到"指定的成功次數"之前,進行了多少次試驗) *excel =NEGBINOM.DIST(r, X, p, TRUE) - 幾何分配(Geometric Distribution): 伯努利試驗中,首次成功需要進行的試驗次數("第一次成功"之前, 進行了多少次試驗)。遵循無記憶性的特性 *excel =GEOM.DIST(Y, p, FALSE) - 超幾何分配 (Hypergeometric Distribution):從有限總體中抽取固定大小的樣本,不放回地進行抽樣 (不放回)(PS 二項分配會放回) *excel =HYPGEOM.DIST(x, N, k, n, FALSE),=h(x;N,n,k) - 布阿松分配(Posiion Distribution): 探討在一段時間內發生事件次數 λ (讀做 lambda),可視為極端的二項分配(n大p小),常用於罕見事件,例如交通事故的發生次數、電子郵件的收到次數 *excel =POISSON.DIST(3, 2, FALSE) - 二項分配(Binomial Distribution):在多次相互獨立的伯努利試驗中,成功次數的概率分佈,可以應用在離散型隨機變數或連續型隨機變數 *excel = BINOM.DIST(x;n,p) - 連續型隨機分配 (Continuous)PS可以視為間斷型的直方圖 - 均勻分配(Uniform Distribution):均勻分佈是指隨機變數在一段區間內取值的機率相等,它可以是連續型的,也可以是離散型的,在連續型均勻分佈中,隨機變數在一個給定區間內的取值是均勻分佈的 - 常態分配(Normal Distribution):也稱為正態分佈、高斯分佈,一種對稱的概率分佈,具有特定的平均值和標準差。在常態分佈中,大約68.26% 的數據點位於平均值加減一個標準差的範圍內,約95% 的數據點位於均值加減兩個標準差的範圍內,約99.73% 的數據點位於均值加減三個標準差的範圍內 PS mean medium 差不多 = 呈現常態分布 - 指數分配(Exponential Distribution):指數分佈是描述隨機事件之間時間間隔的機率分佈。 它通常用於建模事件發生的時間間隔,遵循無記憶性的特性,這意味著已經等待的時間不會影響將來的等待時間 - 伽瑪分配(Gamma Distribution)的概率密度函數(PDF)通常以兩個參數 α(alpha)和 β(beta)來表示 - PS 伽瑪函數 : 在概率分佈、統計推斷、熱力學、量子力學等領域中常被使用,特別是在描述某些分佈的機率密度函數時 - 卡方分配(Chi-Square Distribution): k個獨立標準正態分佈的平方和的分佈,其中k為自由度(degrees of freedom)。常用於樣本變異數的估計,樣本變異數除以真實變異數後再乘以樣本數減一,得到的結果呈現卡方分佈 PS 卡方分配為伽瑪分配(Gamma Distribution)特例,當自由度k為正整數時,卡方分佈即為自由度為k的伽瑪分佈 - 聯合機率分配(Joint Probability Distribution) : 涉及兩個或多個隨機變數的概率分配 - 間斷型 - 連續型 - 邊際分配 - 邊際機率分配(Marginal Probability Distribution) : 在多維度的機率分配中,將其中一個或多個隨機變數的機率分佈提取出 - 機率 - 概率密度(Probability Density):隨機變數取某一值的概率 *excel: =NORM.DIST(數值, mean, std, TRUE) FALSE 是高度 - 累積概率密度(Cumulative Probability Density): 計算標準正態分佈中 Z 分數範圍的概率 *excel: =NORM.S.DIST(Z-SCORE, TRUE) - 累積概率(Cumulative Probability):計算給定累積概率的對應值 *excel: =NORM.INV(25%,mean,std) - 累積機率(Cumulative Probability):計算標準正態分佈中給定累積機率的對應 Z 分數 *excel: =NORM.S.INV(1-5%) - 練習 ::: :::warning - 課程、網頁: - 中華科大 CUSTCourses [【統計學-李柏堅】](https://www.youtube.com/watch?v=sXMOx9Pbpe4&list=PLP1Ynr8cs97tPCMS0jOEYFNJoz7CelIJ5) - 交大 OCW 公開課程[【統計學(一)(基礎統計) - 工業工程與管理學系 唐麗英老師】](https://www.youtube.com/watch?v=3okbnliWIlU&t=2s) - Udemy [【Statistics for Data Science and Business Analysis】](https://www.udemy.com/course/statistics-for-data-science-and-business-analysis/?utm_source=adwords&utm_medium=udemyads&utm_campaign=DSA_Catchall_la.EN_cc.ROW&utm_content=deal4584&utm_term=_._ag_88010211481_._ad_535397282061_._kw__._de_c_._dm__._pl__._ti_dsa-41250778272_._li_9040379_._pd__._&matchtype=&gclid=CjwKCAjwsKqoBhBPEiwALrrqiMy7g9P6ZjPz6g4QXJXkRJhSUlR3kmZe9yeE5s2V5_QoLJyyjvObHxoC_HEQAvD_BwE) ::: ### :+1:排列 從n個數字中,選m個  *excel =FACT(n) / FACT(n-m) ![螢幕擷取畫面 2023-11-29 150303](https://hackmd.io/_uploads/BkpEGPEBp.png) - 乘法 假設投擲銅板三次,考慮順序,有幾種排法? = P(2,3) = 8 假設四個人排成一列,有幾種排法? = 4! 階乘 = 24 = P(4,4) = 4!/0! = 5*4 = 24 假設台北-新竹-台中,台北-新竹,有三種交通方式,台北-新竹,有兩種交通方式,共有幾種交通選擇? = 3*2 = 6 = P(3,1)*P(2,1) = (3!/2!)*(2!/1!) = 6 假設1,2,3,4,5,選2個,數字不可重複 = P(5,2) = 5!/(5-2)! = 5*4 = 20 假設AB要抽籤倒垃圾,六天中每人剛好做三天機率為? = 6!/3!3! = 20 or 下方用組合 = C(6,3) = 6!/3!(6-3)! = 20 = 2*2*2*2*2*2= 2的6次方 最後 20/2的6次方 = 5/16 假設只能往上、往右,A到B有幾種走法? ![螢幕擷取畫面 2023-11-29 152122](https://hackmd.io/_uploads/ryQqUDNHa.png) = 10!/6!4! = 210 - 加法 假設台北-新竹,有三班火車、二十班客運,有幾種交通班次? = 3+20 = 23 <br/> ### :+1:組合 從n個數字中,選m個一組 *excel =FACT(n) / (FACT(m) * FACT(n-m)) ![螢幕擷取畫面 2023-11-29 165445](https://hackmd.io/_uploads/ry7PhO4BT.png) 假設大樂透包牌要買幾張? = C(49,6) = 49!/6!(49-6)! = 13983816 #### 分配: 非負的整數解  *excel =COMBIN(n+m-1, m) ![螢幕擷取畫面 2023-11-29 170240](https://hackmd.io/_uploads/BklBCdEr6.png) H(n,m) = C(n+m-1,m) H(3,5) = C(7,5) = 7!/5!2!= 21 假設10顆巧克力給三人,考慮重複排列,有幾種分法? X+Y+Z=10 = H(10,3) = C(12,10) = 12!/10!2! = 66 <br/> ### :+1:二項式定理(Binomial Theorem)與多項式定理(Multinomial Theorem) - 二項式定理(Binomial Theorem) : 常用在 (a+b)n次方 的展開 ![螢幕擷取畫面 2023-11-29 172342](https://hackmd.io/_uploads/SJJVmYNST.png) - 多項式定理(Multinomial Theorem): 是二項式定理的擴展 ![螢幕擷取畫面 2023-11-29 172836](https://hackmd.io/_uploads/BkVL4YVHp.png) <br/> ### :+1:機率:描述事件發生可能性的數量指標,通常表示為一個介於0和1之間 #(E) 是事件E的可能結果數量 #(Ω) 是樣本空間Ω的可能結果總數 ![螢幕擷取畫面 2023-11-29 173503](https://hackmd.io/_uploads/BkE0HYNSa.png) 假設一顆骰子,出現偶數機率 P = 3/6 = 1/2 <br/> ### :+1:排容、容斥原理 : 用來處理多個事件的交集,以得到它們的聯集的概率 ∩ 且 ∪ 或 P(A∪B)=P(A)+P(B)-P(A∩B) 假設有1~100的球,隨機抽取一顆 球號是2且5的倍數的機率? 10的倍數 10/100=10 機率 10/100 球號是2或5的倍數的機率? 2的倍數 2/100=50 機率 50/100 5的倍數 5/100=20 機率 20/100 扣掉交集 50/100 + 20/100 - 10/100 = 60/100 = 3/5 <br/> ### :+1:獨立事件 : 如果一個事件的發生與另一個事件的發生沒有關聯,則這兩個事件被視為獨立事件 P(A∩B) = P(A) * P(B) >PS 條件機率公式 >給定事件B的條件下,事件A的條件概率 >![螢幕擷取畫面 2023-11-29 175321](https://hackmd.io/_uploads/Bylm9tNH6.png) 假設52張撲克牌,事件A抽取第一張為老K,事件B抽取第二張為老K機率? (放回) P(A) = 4/52 = 1/13 P(B) = 4/52 = 1/13 P(A∩B) = 1/13 * 1/13 ### :+1:相依事件 : 兩個或多個事件之間存在某種關聯或相互影響的情況 P(A∩B) =/= P(A)⋅P(B) 假設52張撲克牌,事件A抽取第一張為老K,事件B抽取第二張為老K機率? (不放回) P(A) = 4/52 = 1/13 P(A∩B) = 4/52 * 3/51 = 1/13 * 1/17 <br/> 袋中共有10個球,其中有2個紅球。一次取1球,則第2球會取到紅球之機率為? (不放回) P(A) = 2/10 * 1/9 + 8/10 * 2/9 = 1/5 *2/10 第一次取到紅球、8/10 第一次取到非紅球 <br/> ### :+1:互斥事件 : 兩事件沒有共同的元素 P(A∩B) = 0 假設52張撲克牌,事件A抽取第一張為老K,事件B抽取第二張為紅心,兩事件是否互斥? 否,因為有紅心K,機率為1/52 <br/> ### :+1:條件機率 : 給定事件B的條件下,事件A的條件概率 ![螢幕擷取畫面 2023-11-29 180906](https://hackmd.io/_uploads/SJzR6tEBT.png) ![螢幕擷取畫面 2023-11-29 182142](https://hackmd.io/_uploads/rkYTgcNHT.png) 假設一個家庭有兩個小孩,已知一位是男孩,求兩個都是男孩的機率? 事前機率 (男,女)(女,男)(男,女)(女,女) = 1/4 事後機率 已知一位是男孩 (男,女)(女,男)(男,女) = 1/3 套公式 A: 至少有一個男生 B: 兩個均為男生 A且B = 1/4 P(B|A) = (1/4)/(3/4) = 1/3 <br/> ### :+1:貝氏定理 : 給定其他相關事件的條件下,計算事件的概率 ![螢幕擷取畫面 2023-11-29 182006](https://hackmd.io/_uploads/rJpUbc4BT.png) 工廠由甲乙丙三台機器生產 燈泡,相關資料如下表: 甲 乙 丙 生產總量(%) 50% 30% 20% 不良品(%) 3% 4% 5% 求所有燈泡抽出一個,為不良品的機率? 0.5 * 3% + 0.3 * 4% + 0.2 * 5% = 3.7% 若抽出一個以之為不良品,為甲的機率? 甲,又是不良品 = 0.5 * 3% = 1.5% 1.5% / 3.7% = 15/37 <br/> ### :+1:隨機變數 : 隨機變數X是定義於樣本空間之實數值函數 假設袋子中有五顆球,3紅2黑 抽兩球,X表示抽到紅球的個數,X值可能為 = 0、1、2 抽三球,X表示抽到紅球的個數,X值可能為 1、2、3 - 離散型、間斷型隨機變數 : 有線或可數的無限。擲一枚骰子的點數,因為可能的取值為1、2、3、4、5、6,每個點數的概率都是1/6;擲銅板3次,出現的正面次數為0、1、2、3 - 連續型隨機變數 : 身高、體重、頭髮根數 <br/> ### :+1:期望值 (Expected Value) : 經長時間重複實驗,預期得到的平均數 - 間斷型、離散型 :  ![螢幕擷取畫面 2023-11-29 195751](https://hackmd.io/_uploads/rJnUDsVS6.png) 預期有出現正面的機率為3/2 ![螢幕擷取畫面 2023-11-29 201439](https://hackmd.io/_uploads/HynNjjVSp.png) 預期會拿到29/8元 ![螢幕擷取畫面 2023-11-29 202000](https://hackmd.io/_uploads/H1gYhsES6.png) 預期會虧-1/19元 ![螢幕擷取畫面 2023-11-29 202202](https://hackmd.io/_uploads/ryRZas4ra.png) 預期亂答的人會得到0分,答錯應該倒扣1分 ![螢幕擷取畫面 2023-11-29 202344](https://hackmd.io/_uploads/SyzdpsVBa.png) 男女數量無影響 >無窮等比級數總和公式:等比級數的和 ![螢幕擷取畫面 2023-11-30 165354](https://hackmd.io/_uploads/BJAi6TrBp.png) ![螢幕擷取畫面 2023-11-30 165320](https://hackmd.io/_uploads/rkaFpaSSa.png) ![螢幕擷取畫面 2023-11-30 165255](https://hackmd.io/_uploads/BJeEO6pSS6.png) 所需場次期望為 5.69728 ![螢幕擷取畫面 2023-11-30 171346](https://hackmd.io/_uploads/B1SdMArr6.png) - 連續型 :  ![螢幕擷取畫面 2023-11-29 195844](https://hackmd.io/_uploads/rkGtwj4Ba.png) <br/> ### :+1:機率分配(Probability Distribution) : 一個隨機變數的可能值,意思是將總機率1分配到各個可能值 總和一定為1 ![螢幕擷取畫面 2023-11-29 192829](https://hackmd.io/_uploads/rJe_gsEBT.png) ![螢幕擷取畫面 2023-11-29 192941](https://hackmd.io/_uploads/rkG3xiNS6.png) ![螢幕擷取畫面 2023-11-30 163839](https://hackmd.io/_uploads/r1JQqpHHT.png) ![螢幕擷取畫面 2023-11-29 193239](https://hackmd.io/_uploads/BJwwWjVBp.png) <br/> - 間斷型、離散型、分散型隨機分配(Discrete) :1234:均勻分配(Uniform Distribution):均勻分佈是指隨機變數在一段區間內取值的機率相等,它可以是連續型的,也可以是離散型的 ![螢幕擷取畫面 2023-11-20 132941](https://hackmd.io/_uploads/BkNzJOuN6.png) :1234:負二項分配 (Negative Binomial Distribution): 伯努利試驗中,首次成功的次數(在達到"指定的成功次數"之前,進行了多少次試驗) *excel =NEGBINOM.DIST(r, X, p, TRUE) X 是成功的次數,r 是成功的目標次數,p 是每次試驗成功的概率 ![螢幕擷取畫面 2023-11-30 173029](https://hackmd.io/_uploads/r12BL0SHp.png) 練習一 ![螢幕擷取畫面 2023-11-30 174233](https://hackmd.io/_uploads/rJmEKCBS6.png) 練習二 ![螢幕擷取畫面 2023-11-30 174418](https://hackmd.io/_uploads/HJGFKRHH6.png) <br/> :1234:幾何分配(Geometric Distribution): 伯努利試驗中,首次成功需要進行的試驗次數("第一次成功"之前, 進行了多少次試驗)。遵循無記憶性的特性 *excel =GEOM.DIST(Y, p, FALSE) Y 是首次成功需要進行的試驗次數,p 是每次試驗成功的概率 ![螢幕擷取畫面 2023-11-30 173034](https://hackmd.io/_uploads/SJQUU0Hr6.png) 練習一 ![螢幕擷取畫面 2023-11-30 174156](https://hackmd.io/_uploads/SyaXYRHBp.png) ![螢幕擷取畫面 2023-11-30 174150](https://hackmd.io/_uploads/HJumKRrS6.png) 練習二 ![螢幕擷取畫面 2023-11-30 174830](https://hackmd.io/_uploads/ryj_90SBT.png) ```= import scipy.stats as stats # 成功概率 p = 0.2 # 計算首次成功所需的試驗次數 k = 5 # 計算幾何分佈機率 # 數學公式寫法 probability = ((1 - p) ** (k - 1)) * p probability = stats.geom.pmf(k, p) print(f"在第 {k} 次試驗中首次成功的機率為{probability:.4f}") ``` <br/> :1234:超幾何分配 (Hypergeometric Distribution):從有限總體中抽取固定大小的樣本,不放回地進行抽樣 (不放回)(PS 二項分配會放回) *excel =HYPGEOM.DIST(x, N, k, n, FALSE) ,=h(x;N,n,k) 期望值:np, 變異數:(N-n)/(N-1)npq PS q=1-p ![螢幕擷取畫面 2023-11-30 181710](https://hackmd.io/_uploads/Sym4-kLS6.png) ![螢幕擷取畫面 2023-11-30 180829](https://hackmd.io/_uploads/BJnQ11IHT.png) 練習一 ![螢幕擷取畫面 2023-11-30 180945](https://hackmd.io/_uploads/SJU_kkIBp.png) 練習二 (取後不放回) ![螢幕擷取畫面 2023-11-30 181754](https://hackmd.io/_uploads/rJldWJIST.png) >PS 在實務上,當母體(總體大小)足夠大時,超幾何分配可以近似為二項分配。因為當母體足夠大時,進行不放回的抽樣對母體的影響相對較小。通常需要滿足兩個條件: n/N<0.05,母體是樣本的20倍以上 練習三 (取後不放回) ![螢幕擷取畫面 2023-11-30 190020](https://hackmd.io/_uploads/BkJcn1LS6.png) ![螢幕擷取畫面 2023-11-30 190739](https://hackmd.io/_uploads/SytZpyUHp.png) <br/> :1234:布阿松分配(Poisson Distribution): 探討在一段時間內發生事件次數 λ (讀做 lambda),可視為極端的二項分配(n大p小),常用於罕見事件,例如交通事故的發生次數、電子郵件的收到次數 *excel =POISSON.DIST(3, 2, FALSE) TRUE累積概率 FALSE單一概率 一段時間發生的次數與另一段時間發生的次數獨立 一段時間發生的平均次數與時間長短成比例 在極短的時間內發生的機率趨近0 np = λ e= 2.72 ![螢幕擷取畫面 2023-11-30 192334](https://hackmd.io/_uploads/BJ7pleUBp.png) 練習一 ![螢幕擷取畫面 2023-11-30 194409](https://hackmd.io/_uploads/H1IcSg8HT.png) 練習二 ![螢幕擷取畫面 2023-11-30 194857](https://hackmd.io/_uploads/ryL2Ll8S6.png) 練習三 ![螢幕擷取畫面 2023-11-30 195151](https://hackmd.io/_uploads/rJLDvgUBp.png) 練習四 ![螢幕擷取畫面 2023-11-30 195256](https://hackmd.io/_uploads/HJhoDlLrp.png) 練習五 ![螢幕擷取畫面 2023-11-30 195852](https://hackmd.io/_uploads/BkVzKg8Ba.png) 練習六 ![螢幕擷取畫面 2023-11-30 200006](https://hackmd.io/_uploads/BkDUKxLB6.png) 練習七 ![螢幕擷取畫面 2023-11-30 200136](https://hackmd.io/_uploads/SJx3Kl8H6.png) 練習八 ![螢幕擷取畫面 2023-11-30 200424](https://hackmd.io/_uploads/Sk8U9gUrT.png) 練習九 ![螢幕擷取畫面 2023-11-30 200933](https://hackmd.io/_uploads/B1x5olLHp.png) 練習十 ![螢幕擷取畫面 2023-11-30 201415](https://hackmd.io/_uploads/ryVi2eLHa.png) 練習十一 ![螢幕擷取畫面 2023-11-30 202154](https://hackmd.io/_uploads/HkJtRgIH6.png) ```= import scipy.stats as stats # 事件平均發生的次數 lambda_value = 3 # 具體的次數 k = 2 # 計算泊松分佈機率 # 數學公式寫法 from math import exp, factorial # 數學公式寫法 probability = (exp(-lambda_value) * (lambda_value ** k)) / factorial(k) probability = stats.poisson.pmf(k, lambda_value) print(f"在一個固定時間內事件發生 {k} 次的機率為 {probability:.4f}") ``` <br/> :1234:二項分配(Binomial Distribution):在多次相互獨立的伯努利試驗中,成功次數的概率分佈,可以應用在離散型隨機變數或連續型隨機變數 *excel = BINOM.DIST(x;n,p) p為機率 期望值:np, 變異數:(N-n)/npq PS q=1-p ![螢幕擷取畫面 2023-11-30 185629](https://hackmd.io/_uploads/rycPqkISp.png) (取後放回) 一家輪胎工廠生產了5000個輪胎,其中有1000個不良品,隨機抽10個輪胎中, 恰有3個不良品的機率為? p=0.2 (=1000/5000) q=0.8 (=4000/5000) ![螢幕擷取畫面 2023-11-30 184538](https://hackmd.io/_uploads/SkJJ_kIHa.png) 練習一 ![螢幕擷取畫面 2023-11-30 185644](https://hackmd.io/_uploads/S17FqJ8Ba.png) 練習二 ![螢幕擷取畫面 2023-11-30 185829](https://hackmd.io/_uploads/HJDksJIST.png) 練習三 ![螢幕擷取畫面 2023-11-30 190020](https://hackmd.io/_uploads/r1mLo1ISa.png) 練習四 ![螢幕擷取畫面 2023-11-30 190639](https://hackmd.io/_uploads/r1eAhJ8ra.png) 練習五 也可以用布阿松分配,但二項分配比較容易 ![螢幕擷取畫面 2023-11-30 201215](https://hackmd.io/_uploads/r1TQ2eLH6.png) ```= import scipy.stats as stats # 總試驗次數 n = 10 # 成功機率 p = 0.3 # 成功的次數 k = 4 # 計算二項分佈機率 # 數學公式寫法 from math import comb # 數學公式寫法 probability = comb(n, k) * (p ** k) * ((1 - p) ** (n - k)) probability = stats.binom.pmf(k, n, p) print(f"在 {n} 次獨立重複試驗中成功 {k} 次的機率為 {probability:.4f}") ``` >PS 當np>5 or nq>5,可以常態分配估計機率 ![螢幕擷取畫面 2023-12-02 115131](https://hackmd.io/_uploads/B1j1q7dS6.png) ![螢幕擷取畫面 2023-12-02 115153](https://hackmd.io/_uploads/HkgCkqXOBp.png) ![螢幕擷取畫面 2023-12-02 115159](https://hackmd.io/_uploads/HyVec7urp.png) >PS 當np<5,可以布阿松分配估計機率 <br/> - 連續型隨機分配 (Continuous) PS可以視為間斷型的直方圖 PS可以用來算機率密度 ![螢幕擷取畫面 2023-12-01 142017](https://hackmd.io/_uploads/HkVIogwBT.png) 對於每個x的取值,將其與平均值μ的偏差平方,再乘以概率密度函數f(x)後,進行積分 ![螢幕擷取畫面 2023-12-01 142546](https://hackmd.io/_uploads/H14KnevS6.png) :1234:均勻分配(Uniform Distribution):均勻分佈是指隨機變數在一段區間內取值的機率相等,它可以是連續型的,也可以是離散型的,在連續型均勻分佈中,隨機變數在一個給定區間內的取值是均勻分佈的 ![螢幕擷取畫面 2023-11-20 132955](https://hackmd.io/_uploads/rkjB1dOVp.png) <br/> :1234:常態分配(Normal Distribution):也稱為正態分佈、高斯分佈,一種對稱的概率分佈,具有特定的平均值和標準差。在常態分佈中,大約68.26% 的數據點位於平均值加減一個標準差的範圍內,約95% 的數據點位於均值加減兩個標準差的範圍內,約99.73% 的數據點位於均值加減三個標準差的範圍內 PS mean medium 差不多 = 呈現常態分布 ![螢幕擷取畫面 2023-12-02 110735](https://hackmd.io/_uploads/SkTt17OST.png) ![螢幕擷取畫面 2023-12-02 111349](https://hackmd.io/_uploads/BkyWWm_Sp.png) 通常不會自己算,用查表[參考](http://www.cust.edu.tw/mathmet/stat/z-dist.pdf) ![螢幕擷取畫面 2023-12-02 111914](https://hackmd.io/_uploads/By7BMXdBp.png) 練習一 ![螢幕擷取畫面 2023-12-02 112045](https://hackmd.io/_uploads/SyKcGQ_ST.png) 練習二 ![螢幕擷取畫面 2023-12-02 112254](https://hackmd.io/_uploads/BJI7mQdBp.png) 練習三 ![螢幕擷取畫面 2023-12-02 112332](https://hackmd.io/_uploads/r1NSXQOS6.png) 練習四 查z ![螢幕擷取畫面 2023-12-02 113323](https://hackmd.io/_uploads/ByWcrXOSp.png) ![螢幕擷取畫面 2023-12-02 112427](https://hackmd.io/_uploads/SyCdXmdST.png) 練習五 查z ![螢幕擷取畫面 2023-12-02 112516](https://hackmd.io/_uploads/S1g2mQ_Ha.png) 練習六 ![image](https://hackmd.io/_uploads/Hyc6rmdB6.png) ![螢幕擷取畫面 2023-12-02 113921](https://hackmd.io/_uploads/r10xvXOrp.png) 練習七 ![螢幕擷取畫面 2023-12-02 114340](https://hackmd.io/_uploads/HJJbOmura.png) 練習八 ![螢幕擷取畫面 2023-12-02 114455](https://hackmd.io/_uploads/ryEBdmOH6.png) 練習九 ![螢幕擷取畫面 2023-12-02 114617](https://hackmd.io/_uploads/ryC5umuHp.png) 練習十 ![螢幕擷取畫面 2023-12-02 115159](https://hackmd.io/_uploads/H1zP97ura.png) 練習十一 ![螢幕擷取畫面 2023-12-02 115554](https://hackmd.io/_uploads/SkIAq7urp.png) 練習十二 ![螢幕擷取畫面 2023-12-02 115504](https://hackmd.io/_uploads/Hyuo57dB6.png) 練習十三 ![螢幕擷取畫面 2023-12-02 120517](https://hackmd.io/_uploads/H1OVpmurT.png) ![](https://hackmd.io/_uploads/rJ27tDhJa.png) ```= 承上面題目, 大約68%的數據點應該位於範圍 [5 - 2, 5 + 2],即 [3, 7] 內 約95%的數據點應該位於範圍 [5 - 2×2, 5 + 2×2],即 [1, 9] 內 約99.7%的數據點應該位於範圍 [5 - 3×2, 5 + 3×2],即 [-1, 11] 內 ``` <br/> :1234:指數分配(Exponential Distribution):連續隨機變數首次發生事件所需的時間的概率分佈。常用模擬等待時間、服務時間,以及其他可能發生的連續事件。遵循無記憶性的特性,意味著已經等待的時間不會影響將來的等待時間 ![螢幕擷取畫面 2023-12-01 150806](https://hackmd.io/_uploads/ByMD8-PrT.png) ![螢幕擷取畫面 2023-12-01 151353](https://hackmd.io/_uploads/S1kpwWDHT.png) ![螢幕擷取畫面 2023-12-01 150905](https://hackmd.io/_uploads/HJes8ZwHT.png) 練習一 ![螢幕擷取畫面 2023-12-01 153921](https://hackmd.io/_uploads/BkUnTbvBT.png) ![螢幕擷取畫面 2023-12-01 154029](https://hackmd.io/_uploads/BJ5xCbPBa.png) 練習二 ![螢幕擷取畫面 2023-12-01 162618](https://hackmd.io/_uploads/SJyTuGwSa.png) 練習三 ![螢幕擷取畫面 2023-12-01 171116](https://hackmd.io/_uploads/rkBh7QDSa.png) <br/> >PS 與布阿松分配關係  ![螢幕擷取畫面 2023-12-01 155229](https://hackmd.io/_uploads/B1-AgMPB6.png) ![螢幕擷取畫面 2023-12-01 155411](https://hackmd.io/_uploads/SJ7NZfPHT.png) <br/> :1234:伽瑪分配(Gamma Distribution)的概率密度函數(PDF)通常以兩個參數 α(alpha)和 β(beta)來表示 ![螢幕擷取畫面 2023-12-01 150110](https://hackmd.io/_uploads/S1QpVWwBT.png) ![螢幕擷取畫面 2023-12-01 150520](https://hackmd.io/_uploads/SyypBbPST.png) <br/> >PS 伽瑪函數(Γ, 讀作gamma): 在概率分佈、統計推斷、熱力學、量子力學等領域中常被使用,特別是在描述某些分佈的機率密度函數時。在伽瑪分佈中,伽瑪函數充當正規化項,確保概率密度函數的積分等於 1 ![螢幕擷取畫面 2023-12-01 144238](https://hackmd.io/_uploads/HyxueZDBa.png) ![螢幕擷取畫面 2023-12-01 145859](https://hackmd.io/_uploads/r1jLVZPHp.png) ![螢幕擷取畫面 2023-12-01 145904](https://hackmd.io/_uploads/BkePNWPHT.png) ![螢幕擷取畫面 2023-12-01 145923](https://hackmd.io/_uploads/rJfDVZwBp.png) <br/> :1234:卡方分配(Chi-Square Distribution): k個獨立標準正態分佈的平方和的分佈,其中k為自由度(degrees of freedom)。常用於樣本變異數的估計,樣本變異數除以真實變異數後再乘以樣本數減一,得到的結果呈現卡方分佈 PS 卡方分配為伽瑪分配(Gamma Distribution)特例,當自由度k為正整數時,卡方分佈即為自由度為k的伽瑪分佈 ![螢幕擷取畫面 2023-12-01 164433](https://hackmd.io/_uploads/HkTlTMvHa.png) 期望值為一倍自由度v 變異數為兩倍自由度2v ![螢幕擷取畫面 2023-12-01 165309](https://hackmd.io/_uploads/rJ8ZymDH6.png) 自由度互相獨立 ![螢幕擷取畫面 2023-12-01 165444](https://hackmd.io/_uploads/S1zPkXPSa.png) ![螢幕擷取畫面 2023-12-01 170435](https://hackmd.io/_uploads/ByNn-XvBp.png) <br/> - 混和隨機變數 : 累積分佈函數(Cumulative Distribution Function, CDF)通常表示為F(x),k是混合分佈中的分量數量,Wi是每個分量的權重 ![螢幕擷取畫面 2023-12-01 172351](https://hackmd.io/_uploads/ry4E87DHp.png) ![螢幕擷取畫面 2023-12-01 171116](https://hackmd.io/_uploads/HyBH7mvH6.png) 練習一 PDF(Probability Density Function 概率密度函數) PMF(Probability Mass Function 概率質量函數) ![螢幕擷取畫面 2023-12-01 173317](https://hackmd.io/_uploads/rJTvOQDSa.png) <br/> - 聯合機率分配(Joint Probability Distribution) : 涉及兩個或多個隨機變數的概率分配 PS 相關係數[【統計相關性、迴歸分析】](https://hackmd.io/RczS18T1SWG5rsoLXIufWA?both) - 間斷型 ![螢幕擷取畫面 2023-12-02 120748](https://hackmd.io/_uploads/S1No6mur6.png) 練習一 ![螢幕擷取畫面 2023-12-02 143752](https://hackmd.io/_uploads/SyA6eUOB6.png) - 連續型 ![螢幕擷取畫面 2023-12-02 121650](https://hackmd.io/_uploads/ByW61EOBa.png) ![螢幕擷取畫面 2023-12-02 143627](https://hackmd.io/_uploads/SJiul8OH6.png) 練習一 ![螢幕擷取畫面 2023-12-02 143702](https://hackmd.io/_uploads/By65g8uH6.png) - 邊際分配 ![螢幕擷取畫面 2023-12-02 122010](https://hackmd.io/_uploads/B1uKgEurT.png) ![螢幕擷取畫面 2023-12-02 122229](https://hackmd.io/_uploads/r1GzbEurT.png) ![螢幕擷取畫面 2023-12-02 122550](https://hackmd.io/_uploads/SJiAb4OST.png) ![螢幕擷取畫面 2023-12-02 122606](https://hackmd.io/_uploads/SkoJME_ST.png) ![螢幕擷取畫面 2023-12-02 122753](https://hackmd.io/_uploads/BkPLGV_Sa.png) 練習一 ![螢幕擷取畫面 2023-11-29 194731](https://hackmd.io/_uploads/H1N1Bj4HT.png) 練習二 ![螢幕擷取畫面 2023-12-02 123224](https://hackmd.io/_uploads/ryPPQEuH6.png) - 邊際機率分配(Marginal Probability Distribution) : 在多維度的機率分配中,將其中一個或多個隨機變數的機率分佈提取出 ![螢幕擷取畫面 2023-11-29 194923](https://hackmd.io/_uploads/BJBUSiEHp.png) <br/> ### :+1:機率 - 概率密度 p.d.f(Probability Density):隨機變數取某一值的概率,取現下的總面積為1,p(a<X<b)表示由a圍到b的面積 *excel: =NORM.DIST(數值, mean, std, TRUE) FALSE 是高度 ![螢幕擷取畫面 2023-12-01 174018](https://hackmd.io/_uploads/rJDQqmPST.png) 假設一群運動員身高,平均195.2,標準差10.26 200公分的機率? =norm.dist(200,195.2,10.26,TRUE),得到0.68,因此 68% 機率 < 200公分,1-68%=32%,因此 32% 機率 >= 200公分 190~200公分的機率? (可以使用兩次 NORM.DIST 函數,然後取差值) =(norm.dist(200,195.2,10.26,TRUE))-(norm.dist(190,195.2,10.26,TRUE))=0.68-0.3061,得到0.3739,因此 37.39% 190~200 公分 - 累積概率密度(Cumulative Probability Density): 計算標準正態分佈中 Z 分數範圍的概率*excel: =NORM.S.DIST(Z-SCORE, TRUE) ![螢幕擷取畫面 2023-12-01 174029](https://hackmd.io/_uploads/HJe45mDBa.png) Z lower: 1 Z upper: 1 P(-1<=Z<=1): 0.00% NORM.S.DIST(1,TRUE)-NORM.S.DIST(-1,TRUE) Z 分數落在 -1 到 1 之間的機率約為 68.27% - 累積概率(Cumulative Probability):計算給定累積概率的對應值 *excel: =NORM.INV(25%,mean,std) 通常使用逆標準正態分佈(Inverse Standard Normal Distribution)的函數,表示為 ![螢幕擷取畫面 2023-12-01 174151](https://hackmd.io/_uploads/By_Oc7DS6.png) 假設一群運動員身高,平均身高195.2,標準差10.26,多少公分才會比70%的運動員高? =NORM.INV(0.7,192.5,10.26) = 197.88 - 累積機率(Cumulative Probability):計算標準正態分佈中給定累積機率的對應 Z 分數 *excel: =NORM.S.INV(1-5%) 通常使用逆標準正態分佈(Inverse Standard Normal Distribution)的函數,表示為![螢幕擷取畫面 2023-12-01 174157](https://hackmd.io/_uploads/BJDYcXvHp.png) 假設我想知道前5%運動員,身高比平均值高出多少標準差? =NORM.S.INV(1-5%) =1.645 假設一群人成績平均80.17、標準差6.17,資優班只收前10%,幾分才有資格進入? =NORM.INV(0.9,80.17,6.17) =88.077 NORM.S.INV(0.9) =1.28 高於平均1.28個標準差 - 練習 假設有嬰兒出生體重數據,多少嬰兒體重低於2500g? 推估1%和99%的 ![](https://hackmd.io/_uploads/SkxK4dqW6.png) ![](https://hackmd.io/_uploads/SJMtEucZp.png) <br/>