# 機率與統計 - 陳冠宇
> 維護者:Vic Wen
> [個人筆記分享](https://attractive-kryptops-661.notion.site/Discrete-Mathematics-Probability-theory-90968f124b7a4bb8bb6937272fa6bb81) (因為我自己做過了就不參與這篇共筆了ㄌ)
## Probabilistic Model 機率模型
**Probabilistic Model**(機率模型)是一種數學模型,用來描述系統或現象的不確定性,並透過機率分佈來表示隨機變數的可能結果。
### **Probabilistic Model 的基本概念**
1. **隨機變數(Random Variable)**
- 用來表示可能的輸出,例如擲骰子的結果$X$ 可以取$\{1, 2, 3, 4, 5, 6\}$。
2. **機率分佈(Probability Distribution)**
- 定義每個可能結果的機率,例如擲公正骰子時,每個數字的機率為$P(X = i) = \frac{1}{6}$。
3. **條件機率(Conditional Probability)**
- 例如在垃圾郵件過濾模型中,給定郵件的某些詞彙,計算該郵件為垃圾郵件的機率:
$$
P(Spam | Words) = \frac{P(Words | Spam) P(Spam)}{P(Words)}
$$
- 這是 **貝氏定理(Bayes’ Theorem)** 的應用。
4. **獨立性與依賴性(Independence & Dependence)**
- 變數之間可能是獨立的(如擲兩次骰子),或是有依賴關係(如某些疾病與年齡的關係)。
## Sample Space, Probability Law (樣本空間, 機率公設)
### **1. 樣本空間(Sample Space,$S$)**
樣本空間是所有可能結果的集合,記作 **$S$** 或 **$\Omega$**,代表一次隨機實驗可能發生的所有情況(outcome)。
#### **範例**
1. **擲骰子**
- 樣本空間:
$$
S = \{1, 2, 3, 4, 5, 6\}
$$
- 代表骰子落地時可能出現的六種情況。
2. **擲兩次硬幣**
- 樣本空間:
$$
S = \{HH, HT, TH, TT\}
$$
- 代表兩次擲硬幣的所有可能結果。
3. **測量溫度(連續型)**
- 如果隨機變數代表溫度,則樣本空間可能是:
$$
S = \{ x \in \mathbb{R} \mid 0 \leq x \leq 100 \}
$$
- 這是一個**連續樣本空間**,代表溫度範圍在$[0, 100]$ 之間的所有值。
---
### **2. 機率公設(Probability Law,$P$)**
機率律是指一個函數$P$,它將樣本空間中的**事件(Event)** 對應到機率值,滿足以下條件:
1. **非負性(Non-negativity)**:對任何事件$A$,有:$P(A) \geq 0$
2. **規範性(Normalization)**:樣本空間的總機率為 1:$P(S) = 1$
3. **可加性(Additivity)**:
- 若事件$A, B$ 互斥($A \cap B = \emptyset$),則:$P(A \cup B) = P(A) + P(B)$
- 若事件$A, B$ 非互斥,則 $P(A \cup B) = P(A) + P(B) - P(A \cap B).$
## Conditional Probability
衡量在已知某個事件發生的情況下,另一個事件發生的可能性。
1. **基本定義**
給定兩個事件 $A$ 和 $B$,如果 $P(B) > 0$,那麼事件 $A$ 在事件 $B$ 發生的條件下的機率定義為:
$$
P(A|B) = \frac{P(A \cap B)}{P(B)}
$$
這個公式的直觀解釋是:在所有 $B$ 發生的情況中,有多少比例同時滿足 $A$ 也發生。
2. **幾個關鍵概念**
- **交集 $A \cap B$:** 表示同時滿足 $A$ 與 $B$ 的所有可能結果。
- **條件事件 $B$:** 作為已知發生的前提條件,僅考慮 $B$ 發生時的情況。
3. **條件機率的性質**
條件機率 $P(\cdot|B)$ 本身滿足機率法則,即:
- **非負性:** $P(A|B) \geq 0$
- **正規化:** $P(\Omega|B) = 1$(在 $B$ 已發生的前提下,樣本空間中一定有某個結果發生)
- **可加性:** 如果 $A_1$ 與 $A_2$ 互不重疊,則有
$$
P(A_1 \cup A_2|B) = P(A_1|B) + P(A_2|B)
$$
## **Chain Rule**(**Multiplication Rule**)
是機率論中用來分解多個事件同時發生機率的重要工具。它基於「條件機率」的概念,能夠將一個複雜的「交集事件」拆解成一連串的「單事件機率」與「條件機率」的相乘。以下做詳細說明:
### 兩事件情況
最簡單的情況是兩個事件 $A$ 與 $B$。根據條件機率的定義,
$$
P(A \cap B) \;=\; P(A)\,P(B \mid A).
$$
- **解釋**:
1. 先讓事件 $A$ 發生,機率為 $P(A)$。
2. 在 $A$ 已經發生的前提下,事件 $B$ 再發生的機率為 $P(B \mid A)$。
3. 兩者相乘,即得到「$A$ 和 $B$ 同時發生」的機率。
---
### 三事件情況
若考慮三個事件 $A, B, C$,想求 $P(A \cap B \cap C)$,可依序拆解:
$$
P(A \cap B \cap C)
= P(A)\,P(B \mid A)\,P(C \mid A \cap B).
$$
- **流程**:
1. 先發生 $A$,機率 $P(A)$。
2. 在 $A$ 發生後,$B$ 發生的機率為 $P(B \mid A)$。
3. 在 $A$ 與 $B$ 都發生後,$C$ 再發生的機率為 $P(C \mid A \cap B)$。
4. 將三個機率相乘,即可得到交集事件 $A \cap B \cap C$ 的機率。
---
### 一般化:$n$ 個事件
對於 $n$ 個事件 $A_1, A_2, \dots, A_n$,可以類似地逐步套用條件機率的定義,得到**一般化**的 Chain Rule:
$$
P\bigl(A_1 \cap A_2 \cap \cdots \cap A_n\bigr)
= P(A_1)
\,\times\, P(A_2 \mid A_1)
\,\times\, P(A_3 \mid A_1 \cap A_2)
\,\times \cdots \times\,
P\bigl(A_n \mid A_1 \cap A_2 \cap \cdots \cap A_{n-1}\bigr).
$$
## Disjoint & Independent
* 當 $A$ 和 $B$ 是互斥時(即 $A \cap B = \varnothing$):
* $P(A \cup B)=P(A)+P(B)$
* 當 $A$ 和 $B$ 不是互斥時即存在重疊部分,$P(A \cap B) > 0$),則必須扣除重複計算的部分,因此使用通用公式:
$P(A \cup B)=P(A)+P(B) - P(A \cap B)$
## 全機率定理(Total Probability Theorem)
- 當一個事件 B 的發生可以由一組互斥且完備的事件組合來解釋時:
$$
P(B) = \sum_{i=1}^n P(A_i) \cdot P(B|A_i)
$$
其中 $A_1, A_2, \dots, A_n$ 是一個對樣本空間的分割(partition)。
### 🧮 範例一:
- 有三種玩家(type1, type2, type3),對應機率為 0.5, 0.25, 0.25
- 勝利的機率分別是 0.3, 0.4, 0.5
- 根據全機率定理:
$$
P(\text{Win}) = 0.5 \cdot 0.3 + 0.25 \cdot 0.4 + 0.25 \cdot 0.5 = 0.375
$$
---
## 貝氏定理(Bayes’ Rule)
- 計算已知結果 B 時,某個原因 $A_i$ 發生的機率:
$$
P(A_i|B) = \frac{P(A_i) \cdot P(B|A_i)}{P(B)}
$$
其中 $P(B)$ 可由全機率定理算出
### 範例:疾病檢測問題
- $P(A) = 0.001$:患病者機率
- $P(B|A) = 0.95$:檢測為陽性且有病
- $P(B|A^c) = 0.05$:偽陽性
- 計算患病且檢測為陽性的機率:
$$
P(A|B) = \frac{0.001 \cdot 0.95}{0.001 \cdot 0.95 + 0.999 \cdot 0.05} ≈ 0.0187
$$
當然可以!這就是貝氏定理的核心思維:
---
## 🎯「先驗 × 條件 / 總體」的意思
$$
\boxed{
P(A|B) = \frac{P(A) \cdot P(B|A)}{P(B)}
}
$$
你可以把它翻成一句話:
>「**發生 A 的原本機率(先驗)**,乘上**B 在 A 發生下的機率(條件)**,
然後除以**整體 B 發生的總機率(總體)**,就能得到『B 發生後是 A』的機率。」
---
## 🧠 各部分意思拆解:
| 部分 | 意義 |
|-----------------|----------------------------------------------------------------------|
| $P(A)$ | 先驗機率(Prior)→ 你在還沒看到任何新資訊時,原本認為 A 發生的可能性 |
| $P(B\|A)$ | 條件機率(Likelihood)→ 如果 A 發生,那 B 會出現的機率是? |
| $P(B)$ | 總體機率(Evidence)→ B 整體發生的機率,不管是由 A 或其他原因造成 |
| $P(A\|B)$ | 後驗機率(Posterior)→ 在知道 B 發生後,你對 A 發生的信心有多少? |
### ✏️ 套用公式:
$$
P(病|+) = \frac{P(病) \cdot P(+|病)}{P(病) \cdot P(+|病) + P(沒病) \cdot P(+|沒病)}
$$
$$
= \frac{0.01 \cdot 0.95}{0.01 \cdot 0.95 + 0.99 \cdot 0.05}
= \frac{0.0095}{0.0095 + 0.0495} = \frac{0.0095}{0.059} ≈ \boxed{0.161}
$$
### 🧠 用一句話記起來:
> **貝氏定理 =(你原本相信的)×(觀察符合的程度)÷(所有符合的可能)**
## Counting Formula
### 🧮 計數公式整理表(Counting Formula Summary)
| 類型 | 公式形式 | 中文說明 | 條件 |
|-------------------------------|-------------------------------------------------------------|----------------------------------------------|------------------------------|
| **基本計數原理** | $n_1 × n_2 × \cdots × n_k$ | k 個步驟,各有不同選擇方式 | 每步驟選項互不影響 |
| **全排列(Permutation)** | $n!$ | 從 n 個不同物品全部排成一列 | 無重複、全取 |
| **k-排列(k-Permutation)** | $P(n, k) = \frac{n!}{(n - k)!}$ | 從 n 個不同物品中選出 k 個,排成一列 | 無重複、有順序 |
| **k-組合(k-Combination)** | $C(n, k) = \binom{n}{k} = \frac{n!}{k!(n - k)!}$ | 從 n 個中選出 k 個,不在意順序 | 無重複、無順序 |
| **有放回排列(With Repetition Permutation)** | $n^k$ | 每次都可重複選擇,排出長度為 k 的序列 | 可重複、有順序 |
| **有放回組合(With Repetition Combination)** | $\binom{n + k - 1}{k}$ | 從 n 種物品中選 k 個(可重複,無順序) | 可重複、無順序 |
| **分組(Partition)** | $\frac{n!}{n_1! n_2! \cdots n_k!}$ | 將 n 個物品分成 k 組,各組大小為 $n_i$ | 各組內部無順序 |
| **重複排列(Multiset Permutation)** | $\frac{n!}{n_1! n_2! \cdots n_k!}$ | 有重複元素的排列,如單字 OTATTO | 有重複元素、有順序 |
---
### 🎲 機率與計數混合公式
| 類型 | 公式形式 | 說明 |
|---------------------------------|----------------------------------------------------------------------------------------------|---------------------------------|
| **有放回機率(Binomial Model)** | $P(X = k) = \binom{n}{k} p^k (1 - p)^{n-k}$ | 抽樣 n 次,成功機率為 p |
| **無放回機率(Hypergeometric)**| $P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}$ | 從 N 個中抽 n 個,K 個是成功者 |
### 🎯 一、重複採樣 -> 二項分布(Binomial Distribution)
- 「幾種情況」×「每種情況的機率」:
- \( \binom{n}{k} \):挑 k 次中紅球的方式
- \( p^k \):中紅球的機率
- \( (1 - p)^{n - k} \):不中的機率
🔁 關鍵字:「放回 → 機率不變」、「每次獨立」、「乘起來」。
---
### 🎯 二、不重複採樣 -> 超幾何分布(Hypergeometric Distribution)
1. **總共的抽法(樣本空間):**
- 從 N 個物品中抽出 n 個的方法數是:
$$
\binom{N}{n}
$$
2. **事件發生的方式數:**
- 從 K 個紅球中抽出 k 個紅球的方法:
$$
\binom{K}{k}
$$
- 從剩下的 \( N - K \) 個綠球中抽出 \( n - k \) 個的方法:
$$
\binom{N - K}{n - k}
$$
- 所以抽出 k 個紅球的方式總共是:
$$
\binom{K}{k} \binom{N - K}{n - k}
$$
3. **機率為:**
$$
P(X = k) = \frac{\binom{K}{k} \binom{N - K}{n - k}}{\binom{N}{n}}
$$