## **【Statistics 基礎統計 : 統計機率分配】**
:::info
- 排列
- 組合
- 分配: 非負的整數解
- 二項式定理(Binomial Theorem)與多項式定理(Multinomial Theorem)
- 機率 : 描述事件發生可能性的數量指標,通常表示為一個介於0和1之間
- 排容、容斥原理 : 用來處理多個事件的交集,以得到它們的聯集的概率
- 獨立事件
- 相依事件 : 兩個或多個事件之間存在某種關聯或相互影響的情況
- 互斥事件 : 兩事件沒有共同的元素
- 條件機率 : 給定事件B的條件下,事件A的條件概率
- 貝氏定理 : 給定其他相關事件的條件下,計算事件的概率
- 隨機變數 : 隨機變數X是定義於樣本空間之實數值函數
- 期望值 (Expected Value) : 經長時間重複實驗,預期得到的平均數
- 間斷型、離散型
- 連續型
- 機率分配(Probability Distribution) : 一個隨機變數的可能值,意思是將總機率1分配到各個可能值
- 間斷型、離散型、分散型隨機分配(Discrete)
- 均勻分配(Uniform Distribution):均勻分佈是指隨機變數在一段區間內取值的機率相等,它可以是連續型的,也可以是離散型的
- 負二項分配 (Negative Binomial Distribution): 伯努利試驗中,首次成功的次數(在達到"指定的成功次數"之前,進行了多少次試驗) *excel =NEGBINOM.DIST(r, X, p, TRUE)
- 幾何分配(Geometric Distribution): 伯努利試驗中,首次成功需要進行的試驗次數("第一次成功"之前, 進行了多少次試驗)。遵循無記憶性的特性 *excel =GEOM.DIST(Y, p, FALSE)
- 超幾何分配 (Hypergeometric Distribution):從有限總體中抽取固定大小的樣本,不放回地進行抽樣 (不放回)(PS 二項分配會放回) *excel =HYPGEOM.DIST(x, N, k, n, FALSE),=h(x;N,n,k)
- 布阿松分配(Posiion Distribution): 探討在一段時間內發生事件次數 λ (讀做 lambda),可視為極端的二項分配(n大p小),常用於罕見事件,例如交通事故的發生次數、電子郵件的收到次數 *excel =POISSON.DIST(3, 2, FALSE)
- 二項分配(Binomial Distribution):在多次相互獨立的伯努利試驗中,成功次數的概率分佈,可以應用在離散型隨機變數或連續型隨機變數 *excel = BINOM.DIST(x;n,p)
- 連續型隨機分配 (Continuous)PS可以視為間斷型的直方圖
- 均勻分配(Uniform Distribution):均勻分佈是指隨機變數在一段區間內取值的機率相等,它可以是連續型的,也可以是離散型的,在連續型均勻分佈中,隨機變數在一個給定區間內的取值是均勻分佈的
- 常態分配(Normal Distribution):也稱為正態分佈、高斯分佈,一種對稱的概率分佈,具有特定的平均值和標準差。在常態分佈中,大約68.26% 的數據點位於平均值加減一個標準差的範圍內,約95% 的數據點位於均值加減兩個標準差的範圍內,約99.73% 的數據點位於均值加減三個標準差的範圍內 PS mean medium 差不多 = 呈現常態分布
- 指數分配(Exponential Distribution):指數分佈是描述隨機事件之間時間間隔的機率分佈。 它通常用於建模事件發生的時間間隔,遵循無記憶性的特性,這意味著已經等待的時間不會影響將來的等待時間
- 伽瑪分配(Gamma Distribution)的概率密度函數(PDF)通常以兩個參數 α(alpha)和 β(beta)來表示
- PS 伽瑪函數 : 在概率分佈、統計推斷、熱力學、量子力學等領域中常被使用,特別是在描述某些分佈的機率密度函數時
- 卡方分配(Chi-Square Distribution): k個獨立標準正態分佈的平方和的分佈,其中k為自由度(degrees of freedom)。常用於樣本變異數的估計,樣本變異數除以真實變異數後再乘以樣本數減一,得到的結果呈現卡方分佈 PS 卡方分配為伽瑪分配(Gamma Distribution)特例,當自由度k為正整數時,卡方分佈即為自由度為k的伽瑪分佈
- 聯合機率分配(Joint Probability Distribution) : 涉及兩個或多個隨機變數的概率分配
- 間斷型
- 連續型
- 邊際分配
- 邊際機率分配(Marginal Probability Distribution) : 在多維度的機率分配中,將其中一個或多個隨機變數的機率分佈提取出
- 機率
- 概率密度(Probability Density):隨機變數取某一值的概率 *excel: =NORM.DIST(數值, mean, std, TRUE) FALSE 是高度
- 累積概率密度(Cumulative Probability Density): 計算標準正態分佈中 Z 分數範圍的概率 *excel: =NORM.S.DIST(Z-SCORE, TRUE)
- 累積概率(Cumulative Probability):計算給定累積概率的對應值 *excel: =NORM.INV(25%,mean,std)
- 累積機率(Cumulative Probability):計算標準正態分佈中給定累積機率的對應 Z 分數 *excel: =NORM.S.INV(1-5%)
- 練習
:::
:::warning
- 課程、網頁:
- 中華科大 CUSTCourses [【統計學-李柏堅】](https://www.youtube.com/watch?v=sXMOx9Pbpe4&list=PLP1Ynr8cs97tPCMS0jOEYFNJoz7CelIJ5)
- 交大 OCW 公開課程[【統計學(一)(基礎統計) - 工業工程與管理學系 唐麗英老師】](https://www.youtube.com/watch?v=3okbnliWIlU&t=2s)
- Udemy [【Statistics for Data Science and Business Analysis】](https://www.udemy.com/course/statistics-for-data-science-and-business-analysis/?utm_source=adwords&utm_medium=udemyads&utm_campaign=DSA_Catchall_la.EN_cc.ROW&utm_content=deal4584&utm_term=_._ag_88010211481_._ad_535397282061_._kw__._de_c_._dm__._pl__._ti_dsa-41250778272_._li_9040379_._pd__._&matchtype=&gclid=CjwKCAjwsKqoBhBPEiwALrrqiMy7g9P6ZjPz6g4QXJXkRJhSUlR3kmZe9yeE5s2V5_QoLJyyjvObHxoC_HEQAvD_BwE)
:::
### :+1:排列
從n個數字中,選m個 *excel =FACT(n) / FACT(n-m)

- 乘法
假設投擲銅板三次,考慮順序,有幾種排法?
= P(2,3) = 8
假設四個人排成一列,有幾種排法?
= 4! 階乘 = 24
= P(4,4) = 4!/0! = 5*4 = 24
假設台北-新竹-台中,台北-新竹,有三種交通方式,台北-新竹,有兩種交通方式,共有幾種交通選擇?
= 3*2 = 6
= P(3,1)*P(2,1) = (3!/2!)*(2!/1!) = 6
假設1,2,3,4,5,選2個,數字不可重複
= P(5,2) = 5!/(5-2)! = 5*4 = 20
假設AB要抽籤倒垃圾,六天中每人剛好做三天機率為?
= 6!/3!3! = 20
or 下方用組合
= C(6,3) = 6!/3!(6-3)! = 20
= 2*2*2*2*2*2= 2的6次方
最後 20/2的6次方 = 5/16
假設只能往上、往右,A到B有幾種走法?

= 10!/6!4! = 210
- 加法
假設台北-新竹,有三班火車、二十班客運,有幾種交通班次?
= 3+20 = 23
<br/>
### :+1:組合
從n個數字中,選m個一組 *excel =FACT(n) / (FACT(m) * FACT(n-m))

假設大樂透包牌要買幾張?
= C(49,6) = 49!/6!(49-6)!
= 13983816
#### 分配: 非負的整數解
*excel =COMBIN(n+m-1, m)

H(n,m) = C(n+m-1,m)
H(3,5) = C(7,5) = 7!/5!2!= 21
假設10顆巧克力給三人,考慮重複排列,有幾種分法?
X+Y+Z=10
= H(10,3) = C(12,10)
= 12!/10!2! = 66
<br/>
### :+1:二項式定理(Binomial Theorem)與多項式定理(Multinomial Theorem)
- 二項式定理(Binomial Theorem) : 常用在 (a+b)n次方 的展開

- 多項式定理(Multinomial Theorem): 是二項式定理的擴展

<br/>
### :+1:機率:描述事件發生可能性的數量指標,通常表示為一個介於0和1之間
#(E) 是事件E的可能結果數量
#(Ω) 是樣本空間Ω的可能結果總數

假設一顆骰子,出現偶數機率
P = 3/6 = 1/2
<br/>
### :+1:排容、容斥原理 : 用來處理多個事件的交集,以得到它們的聯集的概率
∩ 且
∪ 或
P(A∪B)=P(A)+P(B)-P(A∩B)
假設有1~100的球,隨機抽取一顆
球號是2且5的倍數的機率?
10的倍數 10/100=10
機率 10/100
球號是2或5的倍數的機率?
2的倍數 2/100=50
機率 50/100
5的倍數 5/100=20
機率 20/100
扣掉交集
50/100 + 20/100 - 10/100 = 60/100 = 3/5
<br/>
### :+1:獨立事件 : 如果一個事件的發生與另一個事件的發生沒有關聯,則這兩個事件被視為獨立事件
P(A∩B) = P(A) * P(B)
>PS 條件機率公式
>給定事件B的條件下,事件A的條件概率
>
假設52張撲克牌,事件A抽取第一張為老K,事件B抽取第二張為老K機率? (放回)
P(A) = 4/52 = 1/13
P(B) = 4/52 = 1/13
P(A∩B) = 1/13 * 1/13
### :+1:相依事件 : 兩個或多個事件之間存在某種關聯或相互影響的情況
P(A∩B) =/= P(A)⋅P(B)
假設52張撲克牌,事件A抽取第一張為老K,事件B抽取第二張為老K機率? (不放回)
P(A) = 4/52 = 1/13
P(A∩B) = 4/52 * 3/51 = 1/13 * 1/17
<br/>
袋中共有10個球,其中有2個紅球。一次取1球,則第2球會取到紅球之機率為? (不放回)
P(A) = 2/10 * 1/9 + 8/10 * 2/9 = 1/5
*2/10 第一次取到紅球、8/10 第一次取到非紅球
<br/>
### :+1:互斥事件 : 兩事件沒有共同的元素
P(A∩B) = 0
假設52張撲克牌,事件A抽取第一張為老K,事件B抽取第二張為紅心,兩事件是否互斥?
否,因為有紅心K,機率為1/52
<br/>
### :+1:條件機率 : 給定事件B的條件下,事件A的條件概率


假設一個家庭有兩個小孩,已知一位是男孩,求兩個都是男孩的機率?
事前機率
(男,女)(女,男)(男,女)(女,女) = 1/4
事後機率 已知一位是男孩
(男,女)(女,男)(男,女) = 1/3
套公式
A: 至少有一個男生
B: 兩個均為男生
A且B = 1/4
P(B|A) = (1/4)/(3/4) = 1/3
<br/>
### :+1:貝氏定理 : 給定其他相關事件的條件下,計算事件的概率

工廠由甲乙丙三台機器生產
燈泡,相關資料如下表:
甲 乙 丙
生產總量(%) 50% 30% 20%
不良品(%) 3% 4% 5%
求所有燈泡抽出一個,為不良品的機率?
0.5 * 3% + 0.3 * 4% + 0.2 * 5% = 3.7%
若抽出一個以之為不良品,為甲的機率?
甲,又是不良品 = 0.5 * 3% = 1.5%
1.5% / 3.7% = 15/37
<br/>
### :+1:隨機變數 : 隨機變數X是定義於樣本空間之實數值函數
假設袋子中有五顆球,3紅2黑
抽兩球,X表示抽到紅球的個數,X值可能為 = 0、1、2
抽三球,X表示抽到紅球的個數,X值可能為 1、2、3
- 離散型、間斷型隨機變數 : 有線或可數的無限。擲一枚骰子的點數,因為可能的取值為1、2、3、4、5、6,每個點數的概率都是1/6;擲銅板3次,出現的正面次數為0、1、2、3
- 連續型隨機變數 : 身高、體重、頭髮根數
<br/>
### :+1:期望值 (Expected Value) : 經長時間重複實驗,預期得到的平均數
- 間斷型、離散型 :

預期有出現正面的機率為3/2

預期會拿到29/8元

預期會虧-1/19元

預期亂答的人會得到0分,答錯應該倒扣1分

男女數量無影響
>無窮等比級數總和公式:等比級數的和



所需場次期望為 5.69728

- 連續型 :

<br/>
### :+1:機率分配(Probability Distribution) : 一個隨機變數的可能值,意思是將總機率1分配到各個可能值
總和一定為1




<br/>
- 間斷型、離散型、分散型隨機分配(Discrete)
:1234:均勻分配(Uniform Distribution):均勻分佈是指隨機變數在一段區間內取值的機率相等,它可以是連續型的,也可以是離散型的

:1234:負二項分配 (Negative Binomial Distribution): 伯努利試驗中,首次成功的次數(在達到"指定的成功次數"之前,進行了多少次試驗) *excel =NEGBINOM.DIST(r, X, p, TRUE)
X 是成功的次數,r 是成功的目標次數,p 是每次試驗成功的概率

練習一

練習二

<br/>
:1234:幾何分配(Geometric Distribution): 伯努利試驗中,首次成功需要進行的試驗次數("第一次成功"之前, 進行了多少次試驗)。遵循無記憶性的特性 *excel =GEOM.DIST(Y, p, FALSE)
Y 是首次成功需要進行的試驗次數,p 是每次試驗成功的概率

練習一


練習二

```=
import scipy.stats as stats
# 成功概率
p = 0.2
# 計算首次成功所需的試驗次數
k = 5
# 計算幾何分佈機率
# 數學公式寫法 probability = ((1 - p) ** (k - 1)) * p
probability = stats.geom.pmf(k, p)
print(f"在第 {k} 次試驗中首次成功的機率為{probability:.4f}")
```
<br/>
:1234:超幾何分配 (Hypergeometric Distribution):從有限總體中抽取固定大小的樣本,不放回地進行抽樣 (不放回)(PS 二項分配會放回) *excel =HYPGEOM.DIST(x, N, k, n, FALSE) ,=h(x;N,n,k)
期望值:np, 變異數:(N-n)/(N-1)npq
PS q=1-p


練習一

練習二 (取後不放回)

>PS 在實務上,當母體(總體大小)足夠大時,超幾何分配可以近似為二項分配。因為當母體足夠大時,進行不放回的抽樣對母體的影響相對較小。通常需要滿足兩個條件: n/N<0.05,母體是樣本的20倍以上
練習三 (取後不放回)


<br/>
:1234:布阿松分配(Poisson Distribution): 探討在一段時間內發生事件次數 λ (讀做 lambda),可視為極端的二項分配(n大p小),常用於罕見事件,例如交通事故的發生次數、電子郵件的收到次數 *excel =POISSON.DIST(3, 2, FALSE)
TRUE累積概率 FALSE單一概率
一段時間發生的次數與另一段時間發生的次數獨立
一段時間發生的平均次數與時間長短成比例
在極短的時間內發生的機率趨近0
np = λ
e= 2.72

練習一

練習二

練習三

練習四

練習五

練習六

練習七

練習八

練習九

練習十

練習十一

```=
import scipy.stats as stats
# 事件平均發生的次數
lambda_value = 3
# 具體的次數
k = 2
# 計算泊松分佈機率
# 數學公式寫法 from math import exp, factorial
# 數學公式寫法 probability = (exp(-lambda_value) * (lambda_value ** k)) / factorial(k)
probability = stats.poisson.pmf(k, lambda_value)
print(f"在一個固定時間內事件發生 {k} 次的機率為 {probability:.4f}")
```
<br/>
:1234:二項分配(Binomial Distribution):在多次相互獨立的伯努利試驗中,成功次數的概率分佈,可以應用在離散型隨機變數或連續型隨機變數 *excel = BINOM.DIST(x;n,p)
p為機率
期望值:np, 變異數:(N-n)/npq
PS q=1-p

(取後放回)
一家輪胎工廠生產了5000個輪胎,其中有1000個不良品,隨機抽10個輪胎中, 恰有3個不良品的機率為?
p=0.2 (=1000/5000) q=0.8 (=4000/5000)

練習一

練習二

練習三

練習四

練習五
也可以用布阿松分配,但二項分配比較容易

```=
import scipy.stats as stats
# 總試驗次數
n = 10
# 成功機率
p = 0.3
# 成功的次數
k = 4
# 計算二項分佈機率
# 數學公式寫法 from math import comb
# 數學公式寫法 probability = comb(n, k) * (p ** k) * ((1 - p) ** (n - k))
probability = stats.binom.pmf(k, n, p)
print(f"在 {n} 次獨立重複試驗中成功 {k} 次的機率為 {probability:.4f}")
```
>PS 當np>5 or nq>5,可以常態分配估計機率



>PS 當np<5,可以布阿松分配估計機率
<br/>
- 連續型隨機分配 (Continuous) PS可以視為間斷型的直方圖
PS可以用來算機率密度

對於每個x的取值,將其與平均值μ的偏差平方,再乘以概率密度函數f(x)後,進行積分

:1234:均勻分配(Uniform Distribution):均勻分佈是指隨機變數在一段區間內取值的機率相等,它可以是連續型的,也可以是離散型的,在連續型均勻分佈中,隨機變數在一個給定區間內的取值是均勻分佈的

<br/>
:1234:常態分配(Normal Distribution):也稱為正態分佈、高斯分佈,一種對稱的概率分佈,具有特定的平均值和標準差。在常態分佈中,大約68.26% 的數據點位於平均值加減一個標準差的範圍內,約95% 的數據點位於均值加減兩個標準差的範圍內,約99.73% 的數據點位於均值加減三個標準差的範圍內 PS mean medium 差不多 = 呈現常態分布


通常不會自己算,用查表[參考](http://www.cust.edu.tw/mathmet/stat/z-dist.pdf)

練習一

練習二

練習三

練習四 查z


練習五 查z

練習六


練習七

練習八

練習九

練習十

練習十一

練習十二

練習十三


```=
承上面題目,
大約68%的數據點應該位於範圍 [5 - 2, 5 + 2],即 [3, 7] 內
約95%的數據點應該位於範圍 [5 - 2×2, 5 + 2×2],即 [1, 9] 內
約99.7%的數據點應該位於範圍 [5 - 3×2, 5 + 3×2],即 [-1, 11] 內
```
<br/>
:1234:指數分配(Exponential Distribution):連續隨機變數首次發生事件所需的時間的概率分佈。常用模擬等待時間、服務時間,以及其他可能發生的連續事件。遵循無記憶性的特性,意味著已經等待的時間不會影響將來的等待時間



練習一


練習二

練習三

<br/>
>PS 與布阿松分配關係


<br/>
:1234:伽瑪分配(Gamma Distribution)的概率密度函數(PDF)通常以兩個參數 α(alpha)和 β(beta)來表示


<br/>
>PS 伽瑪函數(Γ, 讀作gamma): 在概率分佈、統計推斷、熱力學、量子力學等領域中常被使用,特別是在描述某些分佈的機率密度函數時。在伽瑪分佈中,伽瑪函數充當正規化項,確保概率密度函數的積分等於 1




<br/>
:1234:卡方分配(Chi-Square Distribution): k個獨立標準正態分佈的平方和的分佈,其中k為自由度(degrees of freedom)。常用於樣本變異數的估計,樣本變異數除以真實變異數後再乘以樣本數減一,得到的結果呈現卡方分佈
PS 卡方分配為伽瑪分配(Gamma Distribution)特例,當自由度k為正整數時,卡方分佈即為自由度為k的伽瑪分佈

期望值為一倍自由度v 變異數為兩倍自由度2v

自由度互相獨立


<br/>
- 混和隨機變數 : 累積分佈函數(Cumulative Distribution Function, CDF)通常表示為F(x),k是混合分佈中的分量數量,Wi是每個分量的權重


練習一
PDF(Probability Density Function 概率密度函數)
PMF(Probability Mass Function 概率質量函數)

<br/>
- 聯合機率分配(Joint Probability Distribution) : 涉及兩個或多個隨機變數的概率分配
PS 相關係數[【統計相關性、迴歸分析】](https://hackmd.io/RczS18T1SWG5rsoLXIufWA?both)
- 間斷型

練習一

- 連續型


練習一

- 邊際分配





練習一

練習二

- 邊際機率分配(Marginal Probability Distribution) : 在多維度的機率分配中,將其中一個或多個隨機變數的機率分佈提取出

<br/>
### :+1:機率
- 概率密度 p.d.f(Probability Density):隨機變數取某一值的概率,取現下的總面積為1,p(a<X<b)表示由a圍到b的面積
*excel: =NORM.DIST(數值, mean, std, TRUE) FALSE 是高度

假設一群運動員身高,平均195.2,標準差10.26
200公分的機率?
=norm.dist(200,195.2,10.26,TRUE),得到0.68,因此 68% 機率 < 200公分,1-68%=32%,因此 32% 機率 >= 200公分
190~200公分的機率?
(可以使用兩次 NORM.DIST 函數,然後取差值)
=(norm.dist(200,195.2,10.26,TRUE))-(norm.dist(190,195.2,10.26,TRUE))=0.68-0.3061,得到0.3739,因此 37.39% 190~200 公分
- 累積概率密度(Cumulative Probability Density): 計算標準正態分佈中 Z 分數範圍的概率*excel: =NORM.S.DIST(Z-SCORE, TRUE)

Z lower: 1
Z upper: 1
P(-1<=Z<=1): 0.00%
NORM.S.DIST(1,TRUE)-NORM.S.DIST(-1,TRUE)
Z 分數落在 -1 到 1 之間的機率約為 68.27%
- 累積概率(Cumulative Probability):計算給定累積概率的對應值 *excel: =NORM.INV(25%,mean,std)
通常使用逆標準正態分佈(Inverse Standard Normal Distribution)的函數,表示為 
假設一群運動員身高,平均身高195.2,標準差10.26,多少公分才會比70%的運動員高?
=NORM.INV(0.7,192.5,10.26)
= 197.88
- 累積機率(Cumulative Probability):計算標準正態分佈中給定累積機率的對應 Z 分數 *excel: =NORM.S.INV(1-5%)
通常使用逆標準正態分佈(Inverse Standard Normal Distribution)的函數,表示為
假設我想知道前5%運動員,身高比平均值高出多少標準差?
=NORM.S.INV(1-5%)
=1.645
假設一群人成績平均80.17、標準差6.17,資優班只收前10%,幾分才有資格進入?
=NORM.INV(0.9,80.17,6.17)
=88.077
NORM.S.INV(0.9)
=1.28 高於平均1.28個標準差
- 練習
假設有嬰兒出生體重數據,多少嬰兒體重低於2500g? 推估1%和99%的


<br/>