---
tags: 應用統計
---
# 應用統計 R 101-2
### **樣本空間與事件**
樣本空間 (sample space), Ω 或 S, 是一個隨機試驗所有可能結果所形成的集合
事件 (event), 樣本空間的任何子集 A、B… 都稱為事件
### **集合的基本運算**
$$
A∩B=\{x∈S|x∈A\ and\ x∈B\}\\
A∪B=\{x∈S|x∈A\ or\ x∈B\} → P(A∪B)=P(A)+P(B)−P(A∩B)\\
A^c=\{x∈S|x∉A\}\\
A−B=\{x∈S|x∈A\ and\ x∉B\}\\
A△B=(A−B)∪(B−A) → P(A△B)=P(A∪B)−P(A∩B)\\
$$
### **笛摩根定律**
$$
∼(P∧Q)=(∼P)∨(∼Q)\\
∼(P∨Q)=(∼P)∧(∼Q)\\
(\bigcup_{i=1}^{n}Ei)^c=(E1\ \cup\ E2\ \cup\ E3 ...\ \cup\ En)^c=E1\ \cap\ E2\ \cap\ E3 ...\ \cap\ En=\bigcap_{i=1}^{n}Ei^c\\
(\bigcap_{i=1}^{n}Ei)^c=(E1\ \cap\ E2\ \cap\ E3 ...\ \cap\ En)^c=E1\ \cup\ E2\ \cup\ E3 ...\ \cup\ En=\bigcup_{i=1}^{n}Ei^c
$$
#### 練習
$$
\begin{multline}
\shoveleft 若 S=\{1,2,3,4,5,7\}. A=\{1,2,3,4\},B=\{1,4,5\}\\
\shoveleft (A∩B)^c=A^c∪B^c=\{2,3,5,7\}\\
\shoveleft (A∪B)^c=A^c∩B^c=\{7\}
\end{multline}
$$
### **Axioms of Probability(機率公設)**
機率公設: 若有一事件 E⊆S. P(E) 代表事件 E 發生的機率. 則 須滿足三個機率公設:
$$
\begin{multline}
\shoveleft 1.0≤P(E)≤1,\ \ E⊆S ← \rm Normality\\
\shoveleft 2.P(S)=1\ ←\ \rm Tautology Rule\\
\shoveleft 3.假設 E1,…,En 是互斥事件 (\rm mutually exclusive)\\
\end{multline}
\\
\begin{split}
P(\bigcup_{i=1}^{n}Ei)=\sum\limits_{i}^nP(Ei)←\rm Additivity\ Rule
\end{split}
$$
### **機率性質:**
$$
\begin{multline}
\shoveleft 1.事件 A 的補集 A^c (\rm Complement): 對事件 A,P(A^c)=1−P(A)\\
\shoveleft 2.事件的聯集 (\rm Union) : P(A∪B)=P(A)+P(B)−P(A∩B)\\
\shoveleft 3.如果 A, B 互斥事件, 則 P(A∪B)=P(A)+P(B)\\
\shoveleft 4.對事件 A,B,\qquad P(A∪B)≤P(A)+P(B)\\
\shoveleft 5.以計數的角度\ (|⋅| 代表個數)\\
\shoveleft |A∪B∪C|=|A|+|B|+|C|−|A∩B|−|B∩C|−|C∩A|+|A∩B∩C|.\\
\shoveleft 6.推廣, 對事件 A1,A2,A3,\\
\end{multline}\\
\begin{split}
P(A1∪A2∪A3)=&P(A1)+P(A2)+P(A3)\\& −P(A1∩A2)−P(A2∩A3)−P(A3∩A1)\\&+P(A1∩A2∩A3)\\
\end{split}
$$
#### **練習**
$$
\begin{multline}
\shoveleft 1.如果汽車修理工在任何工作日維修 3、4、5、6、7 或 8 輛或更多汽車的機率\\
\shoveleft 分別為 0.12、0.19、0.28、0.24、0.10 和 0.07, 那麼第二天上班時他至少會維修 5 輛車概率是多少?\\
\shoveleft <\rm sol>1-0.12-0.19=0.69\\
\shoveleft 2.P(A^c∩B^c)=1+P(A∩B)−P(A)−P(B)\\
\shoveleft <\rm sol>P(A^c∩B^c)=P((A∪B)^c)=1-P(A∪B)=1+P(A∩B)−P(A)−P(B)\\
\shoveleft 3.今天拍畢業照, 鬧鐘響起, 3 個室友匆忙間拿起學士服…, 沒有一個拿對的可能性?\\
\shoveleft Ai 表第i個同學拿對的事件, i=1,2,3.\\
\shoveleft A1∪A2∪A3 代表有人拿對的事件. 答案 →1−P(A1∪A2∪A3)
\end{multline}
$$
### **計數的方式:「排列」與「組合」**
$$
\begin{multline}
\shoveleft 1.「排列」是從 n 個物體中挑出 r 個按給定順序排開.\\
\shoveleft 這種排列的可能方法數以 P(n,r)=P_r^n 表示
\end{multline}\\
\begin{split}
P(n,r)=\dfrac{n!}{(n-r)!}=C(n,r)\times r!
\end{split}
$$
$$
\begin{multline}
\shoveleft 2.「組合」是從 n 個物體中挑出 r 個排開, 其中順序無關緊要.\\
\shoveleft 這種排列的可能數由 C(n,r)=C_r^n 表示. 表示\\
\end{multline}\\
\begin{split}
C(n,r)=\dfrac{n!}{r!(n-r)!}
\end{split}
$$
$$
\begin{multline}
\shoveleft 3. 假設 n 個物體中, \\
\shoveleft 其中 n_1 是一種類型 (彼此不可區分), n_2 是第二種類型, … , n_k 是第 k 個類型\\
\shoveleft 所以 n=n1+n2+…,nk. 那麼 n 個物體的不同排列的方法數是\\
\end{multline}\\
\begin{split}
P(n,n1,…,nk)=\dfrac{n!}{n_1!,...,n_k!}
\end{split}
$$
### **推廣 A1,A2,…,An, n 個事件的排容原理 (inclusion-exclusion)**
$$
\begin{split}
P(A_1∪A_2∪...∪A_n)=&\sum\limits_{i = 1}^n{P(A_i)}-\sum\limits_{i_i<i_2}^n{P(A_{i1}∩A_{i2})}\\
&+\sum\limits_{i_i<i_2<i_3}^n{P(A_{i1}∩A_{i2}∩A_{i3})}\\
&-\sum\limits_{i_i<i_2<i_3<i_$}^n{P(A_{i1}∩A_{i2}∩A_{i3}∩A_{i4})}\\
&+...\\
&+(-1)^{n+1}P(A_{1}∩A_{2}∩..∩A_{n})
\end{split}
$$
### **次可加性(Subadditivity, Boole's inequality)**
$$
P(\bigcup_{i=1}^{\infty}Ai)\leq \sum_{i=1}^{\infty}P(Ai)\\
因為\bigcup_{i=1}^{\infty}Ai=A1∪(\bar{A_1}∩A2)∪⋯∪(\bar{A_1}∩⋯∩\overline{A_{n-1}}∩An)∪⋯
$$
#### **例子: 想要瞭解三個地區的平均收入是否相等?**
甲地平均收入 = 乙地平均收入 = 丙地平均收入
如果你有
A1 事件: 甲地平均收入 = 乙地平均收入, 有95%的信心會是可信的. 且
A2 事件: 乙地平均收入 = 丙地平均收入, 也有95%的信心會是可信的.
那 甲、乙、丙 三個地區的平均收入相等想法, 是否也有95%的信心?
\<Ans\>
$$
\\
\\A1∩A2=甲、乙、丙 三個地區的平均收入相等\\
P(A_1∩A_2)=1−P(\overline{A_1∩A_2})\\
=1−P(\bar{A_1}∪\bar{A_2}) 使用次可加性\\
≥1−(P(\bar{A_1})+P(\bar{A_2}))=0.90\\
有95\%的信心? 只知道信心會大於90\%!
$$
### **條件機率 (Conditional probability)**
$$
若P(B)≠0, 則已知 B 事件發生, 求 A 事件發生的機率, 記為\\
P(A\mid B)=\dfrac{P(B \cap A)}{P(B)}
$$
#### **練習**
$$
\begin{multline}
\shoveleft 1.台灣蓮霧年產量約5 萬4,891 公噸. 我國蓮霧去年出口總計4942公噸, 其中有4792\\
\shoveleft 公噸都銷往中國大陸. (中國禁止出口,僅僅影響蓮霧影響9\%.)\\
\end{multline}\\
\begin{split}
P(出口)=\dfrac{4942}{54891}≈0.09\\
P(銷往中國∣出口)=\dfrac{4792}{4942}≈0.97\\
\end{split}
$$
$$
\begin{multline}
2.釋迦年產量64,000 公噸. 去年出口總共約1萬4284公噸, 其中有1萬3588公噸銷往中\\
\shoveleft 國. (禁止出口, 影響較蓮霧大, 影響約20\%.)\\
\end{multline}\\
\begin{split}
P(出口)=\dfrac{14284}{64000}≈0.223\\
P(銷往中國∣出口)=\dfrac{13588}{14284}≈0.951\\
\end{split}
$$
$$
\begin{multline}
\shoveleft 3.假設有一個遊戲, 不停地擲骰子, 直到得到點數 1 為止.此一試驗的投擲次數, \\
\shoveleft 取值範圍是 {1,2,3,…},假設 Ai 表示在第 i 次投擲前, 點數 1 都未出現的事件. 則\\
P(A_5) 的機率為?\\
P(A_5)=(5/6)^4\\
P(A_{15}∣A_{10}) 的機率為?\\
P(A_{15}∣A_{10})=\dfrac{P(A_{15}\cap A_{10})}{A_{10}}=\dfrac{A_{15}}{A_{10}}=\dfrac{(5/6)^{14}}{(5/6)^{9}}=(5/6)^{5}\\
\shoveleft 假設你知道機率的求算 P(第 i 次投擲前, 點數 1 都未出現) = q^{i−1}=(5/6)^{i−1}
\end{multline}
$$
### **乘法規則**
$$
條件機率定義蘊含: 若 A,B⊆S,\\
P(A\mid B)=\dfrac{P(B \cap A)}{P(B)}\iff P(B \cap A)=P(A\mid B)P(B)\\
P(A \cap B)=P(A\mid B)P(B)=P(B\mid A)P(A)\\
推廣:\\
P(A_1∩A_2∩⋯∩A_k)\\
=P(A_1)P(A_2∣A_1)P(A_3∣A_2∩A_1)⋯P(A_k∣A_1∩A_2∩⋯∩A_{k−1})
$$
#### **練習**
1.假設有 A、B 兩袋. A袋中有藍球 3 個、白球 5 個; B袋中有藍球 2 個、白球 7 個、紅球 6 個. 若選到 A 袋的機率是 B 袋的3倍, 今從 A 袋中, 隨機抽取一球, 此球是藍色球的機率?
$$
P( 此球是藍色∣ A 袋)=\dfrac{3}{8}
$$
2.擲骰子兩次. 事件 A 代表第一次結果是點數為 3 的事件; 而事件 B 代表兩次結果點數和為7的事件. 則 P(A∣B) 為?
$$
P(A∣B)=P(第一次是3\mid 兩次加總7)=\dfrac{1}{6}
$$
3.一個袋子有7個紅色和6個白色的。 無置換的隨機抽出大小為3的樣本, 3球都是紅球的機率? 令 Ri 表示第 i 次抽取為紅球的事件
$$
P(R_1∩R_2∩R_3)=P(R_1)P(R_2|R_1)P(R_3|R_1∩R_2)\\
=\dfrac{7}{13}\dfrac{1}{2}\dfrac{5}{11}=\dfrac{15}{169}
$$
4.假設有 A、B 兩袋. A袋中有藍球 3 個、白球 5 個; B袋中有藍球 2 個、白球 7 個、紅球 6 個. 若選到 A 袋的機率是 B 袋的3倍, 今隨機抽取一球, 此球來自 A 袋且是藍色球的機率?
$$
設抽到A袋的事件為X, 抽到藍色球的事件為Y.\\
P(X∩Y)=P(Y∣X)P(X)\\
=\dfrac{3}{8}\dfrac{3}{4}=\dfrac{9}{32}\\
$$
### **獨立事件**
$$
定義事件 A,B∈B 為統計獨立(\rm Statistically Independent)\\
A,B\ Independent⟷P(A∩B)=P(A)P(B)\\
所以獨立蘊含 P(A|B)=P(A), P(B|A)=P(B).\\
互斥事件和獨立事件是兩個不同的觀念\\
若事件 A,B⊆S 是互斥事件, 則A,B⊆S 不為獨立事件
$$
#### 例子
1.保險公司發現, 75%的保戶年紀大(等)於45歲以上, 60% 的保戶是男性, 又 50% 的保戶是已婚. 今假設保險公司的保戶年紀、性別、婚姻狀況皆為獨立。 今隨機抽取一位保戶,
* 已知為女性且是已婚的機率?
$$
0.4*0.5=0.2=20\%
$$
* 已知為女性或是已婚的機率?
$$
0.4+0.5-0.2=0.7=70\%
$$
* 已知為女性且是已婚, 該保戶年紀小於45歲的機率?
$$
0.2*0.25=0.05=5\%
$$
2.假設有 A、B 兩袋. A袋中有藍球 3 個、白球 5 個; B袋中有藍球 2 個、白球 7 個、紅球 6 個. 若選到 A 袋的機率是 B 袋的3倍, 今隨機抽取一球, 此球來自 A 袋且是藍色球的機率?
$$
設抽到A袋的事件為X, 抽到藍色球的事件為Y.\\
P(X∩Y)=P(Y∣X)P(X)\\
=\dfrac{3}{8}\dfrac{3}{4}=\dfrac{9}{32}\\
$$
3.從普通的52張紙牌中隨機選擇兩張紙牌,獲得兩張 Ace 的概率是多少?令 B 為第一張牌為Ace的事件, 而A為第二張牌為Ace的事件.
$$
古典機率 P(B∩A)=C(4,2)/C(52,2)\\
條件機率 P(B∩A)=P(A∣B)P(B)=(3/51)(4/52)
$$
4.一個箱子裡包含4個紅色和4個藍色的球.4次從碗中無置換的隨機挑選兩個球. 你每次選一個紅色和藍色的球的概率是多少?
$$
設R_i
$$
### **分割**
$$
樣本空間的一個分割 (\rm A\ Partition\ of\ Ω): \\
若 Ai,…,An 是 Ω 的一個 partition 若且唯若(iff) \\
Ai,…,An 是 mutually\ exclusive\ and \ \ exhaustive.\\
\bigcup_{i=1}^{n}A_i= Ω\ and \ A_i\cap A_j=∅, ∀i,j
$$
#### **例子**
$$
B\ 和 \bar B 是\ Ω\ 的一個分割\\
P(A)=P(A \cap B)+P(A \cap \bar B)\\
=P(A\mid B)P(B)+P(A\mid \bar B)P(\bar B)
$$
### **全機率定律 (Law of Total Probability)**
$$
若 Bi,…,Bn 是 S 的一個 partition, 則\\
P(A)=\sum_{i=1}^{n}P(A\cap B_i)=\sum_{i=1}^{n}P(A\mid B_i)P(B_i)
$$
### **貝氏定理 (Bayes’ Theorem)**

$$
推廣, 若 Ai,…,An 是 Ω 的一個 partition, B 為 Ω 中的事件.則\\
P(A_j\mid B)=\dfrac{P(B\mid A_j)P(A_j)}{\sum_{i=1}^nP(B∣Ai)P(Ai)}, ∀j.
$$
#### **例子**
1.設甲袋中有藍球 3 個、白球 5 個; 乙袋中有藍球 2 個、白球 1 個、紅球 2 個. 先依機會均等的原則選出甲袋或乙袋, 再從中取出一球. 今已知抽出是藍色球, 求此球來自甲袋的機率. (設 A 代表選出甲袋的事件, B 代表取出藍球的事件)(求P(A∣B))
$$
P(A∣B)=\dfrac{P(A\cap B)}{P(B)}=\dfrac{3}{5}
$$
2.設 D 為在一族群中某人患有此稀有疾病的事件, P(D)=0.0001.
若 B 表某人檢驗結果為陽性反應的事件.
今若某人有病的情形下有99%的機會可被檢驗出, 即 P(B∣D)=0.99. 此檢驗的假陽性機會為0.1%, 即
$$
P(B∣\bar {D})=0.001.\\
則此人檢驗結果為陽性的情形下,確實有此稀有疾病的機率是多少? 即 P(D∣B)\\
P(D\mid B)=\dfrac{P(B \mid D)*P(D)}{P(B)}=\dfrac{P(B \mid D)*P(D)}{P(B\mid D)P(D)+P(B\mid \bar D)P(\bar D)}\\
=\dfrac{0.99*0.0001}{0.99*0.0001+0.001*0.9999}\approx0.09
$$
3.貝氏搜尋: 有一飛機失蹤,
依經驗判斷會墜毀在三個可能的地區, 且失事機率依序評估為 0.20,0.43,0.37.
一般而言常因地形險峻導致, 即使墜落該地區, 搜尋結果可能是找不到飛機. 若 βi, i=1,2,3 表示該飛機若墜毀在該地區, 搜尋該地區未能被找到的機率值. 假設 βi 依序為 0.25,0.80,0.65.
今天從第二區開始搜尋, 若搜尋結果沒發現失蹤飛機, 試問該飛機墜落於第 i 區的機率是多少? 假設 Ri: 飛機墜落於第 i 區, i=1,2,3., N_2: 搜尋第二區結果沒發現失蹤飛機.
$$
P(R_2\mid N_2)=\dfrac{P(R_2 \cap N_2)}{P(N_2)}=\dfrac{P(R_2 \cap N_2)}{\sum_{i=1}^3P( N_2∣R_i)P(R_i)}\\
=\dfrac{P(N_2 \mid R_2)P(R_2)}{\sum_{i=1}^3P( N_2∣R_i)P(R_i)}\\
=\dfrac{0.8*0.43}{1*0.2+0.8*0.43+1*0.37}=0.3764\\
(若墜落在1區找了2區必找不到=>P( N_2∣R_i)=1)\\
$$
$$
P(R_1\mid N_2)=\dfrac{P(R_1 \cap N_2)}{P(N_2)}=\dfrac{P(R_1 \cap N_2)}{\sum_{i=1}^3P( N_2∣R_i)P(R_i)}\\
=\dfrac{P(N_2 \mid R_1)P(R_2)}{\sum_{i=1}^3P( N_2∣R_i)P(R_i)}\\
=\dfrac{1*0.2}{1*0.2+0.8*0.43+1*0.37}=0.2188\\
$$
$$
P(R_3\mid N_2)=\dfrac{P(R_3 \cap N_2)}{P(N_2)}=\dfrac{P(R_3 \cap N_2)}{\sum_{i=1}^3P( N_2∣R_i)P(R_i)}\\
=\dfrac{P(N_2 \mid R_3)P(R_3)}{\sum_{i=1}^3P( N_2∣R_i)P(R_i)}\\
=\dfrac{1*0.37}{1*0.2+0.8*0.43+1*0.37}=0.4048\\
$$