# 機率與統計 - 陳冠宇 > 維護者:Vic Wen > [個人筆記分享](https://attractive-kryptops-661.notion.site/Discrete-Mathematics-Probability-theory-90968f124b7a4bb8bb6937272fa6bb81) (因為我自己做過了就不參與這篇共筆了ㄌ) ## Probabilistic Model 機率模型 **Probabilistic Model**(機率模型)是一種數學模型,用來描述系統或現象的不確定性,並透過機率分佈來表示隨機變數的可能結果。 ### **Probabilistic Model 的基本概念** 1. **隨機變數(Random Variable)** - 用來表示可能的輸出,例如擲骰子的結果$X$ 可以取$\{1, 2, 3, 4, 5, 6\}$。 2. **機率分佈(Probability Distribution)** - 定義每個可能結果的機率,例如擲公正骰子時,每個數字的機率為$P(X = i) = \frac{1}{6}$。 3. **條件機率(Conditional Probability)** - 例如在垃圾郵件過濾模型中,給定郵件的某些詞彙,計算該郵件為垃圾郵件的機率: $$ P(Spam | Words) = \frac{P(Words | Spam) P(Spam)}{P(Words)} $$ - 這是 **貝氏定理(Bayes’ Theorem)** 的應用。 4. **獨立性與依賴性(Independence & Dependence)** - 變數之間可能是獨立的(如擲兩次骰子),或是有依賴關係(如某些疾病與年齡的關係)。 ## Sample Space, Probability Law (樣本空間, 機率公設) ### **1. 樣本空間(Sample Space,$S$)** 樣本空間是所有可能結果的集合,記作 **$S$** 或 **$\Omega$**,代表一次隨機實驗可能發生的所有情況(outcome)。 #### **範例** 1. **擲骰子** - 樣本空間: $$ S = \{1, 2, 3, 4, 5, 6\} $$ - 代表骰子落地時可能出現的六種情況。 2. **擲兩次硬幣** - 樣本空間: $$ S = \{HH, HT, TH, TT\} $$ - 代表兩次擲硬幣的所有可能結果。 3. **測量溫度(連續型)** - 如果隨機變數代表溫度,則樣本空間可能是: $$ S = \{ x \in \mathbb{R} \mid 0 \leq x \leq 100 \} $$ - 這是一個**連續樣本空間**,代表溫度範圍在$[0, 100]$ 之間的所有值。 --- ### **2. 機率公設(Probability Law,$P$)** 機率律是指一個函數$P$,它將樣本空間中的**事件(Event)** 對應到機率值,滿足以下條件: 1. **非負性(Non-negativity)**:對任何事件$A$,有:$P(A) \geq 0$ 2. **規範性(Normalization)**:樣本空間的總機率為 1:$P(S) = 1$ 3. **可加性(Additivity)**: - 若事件$A, B$ 互斥($A \cap B = \emptyset$),則:$P(A \cup B) = P(A) + P(B)$ - 若事件$A, B$ 非互斥,則 $P(A \cup B) = P(A) + P(B) - P(A \cap B).$ ## Conditional Probability 衡量在已知某個事件發生的情況下,另一個事件發生的可能性。 1. **基本定義** 給定兩個事件 $A$ 和 $B$,如果 $P(B) > 0$,那麼事件 $A$ 在事件 $B$ 發生的條件下的機率定義為: $$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$ 這個公式的直觀解釋是:在所有 $B$ 發生的情況中,有多少比例同時滿足 $A$ 也發生。 2. **幾個關鍵概念** - **交集 $A \cap B$:** 表示同時滿足 $A$ 與 $B$ 的所有可能結果。 - **條件事件 $B$:** 作為已知發生的前提條件,僅考慮 $B$ 發生時的情況。 3. **條件機率的性質** 條件機率 $P(\cdot|B)$ 本身滿足機率法則,即: - **非負性:** $P(A|B) \geq 0$ - **正規化:** $P(\Omega|B) = 1$(在 $B$ 已發生的前提下,樣本空間中一定有某個結果發生) - **可加性:** 如果 $A_1$ 與 $A_2$ 互不重疊,則有 $$ P(A_1 \cup A_2|B) = P(A_1|B) + P(A_2|B) $$ ## **Chain Rule**(**Multiplication Rule**) 是機率論中用來分解多個事件同時發生機率的重要工具。它基於「條件機率」的概念,能夠將一個複雜的「交集事件」拆解成一連串的「單事件機率」與「條件機率」的相乘。以下做詳細說明: ### 兩事件情況 最簡單的情況是兩個事件 $A$ 與 $B$。根據條件機率的定義, $$ P(A \cap B) \;=\; P(A)\,P(B \mid A). $$ - **解釋**: 1. 先讓事件 $A$ 發生,機率為 $P(A)$。 2. 在 $A$ 已經發生的前提下,事件 $B$ 再發生的機率為 $P(B \mid A)$。 3. 兩者相乘,即得到「$A$ 和 $B$ 同時發生」的機率。 --- ### 三事件情況 若考慮三個事件 $A, B, C$,想求 $P(A \cap B \cap C)$,可依序拆解: $$ P(A \cap B \cap C) = P(A)\,P(B \mid A)\,P(C \mid A \cap B). $$ - **流程**: 1. 先發生 $A$,機率 $P(A)$。 2. 在 $A$ 發生後,$B$ 發生的機率為 $P(B \mid A)$。 3. 在 $A$ 與 $B$ 都發生後,$C$ 再發生的機率為 $P(C \mid A \cap B)$。 4. 將三個機率相乘,即可得到交集事件 $A \cap B \cap C$ 的機率。 --- ### 一般化:$n$ 個事件 對於 $n$ 個事件 $A_1, A_2, \dots, A_n$,可以類似地逐步套用條件機率的定義,得到**一般化**的 Chain Rule: $$ P\bigl(A_1 \cap A_2 \cap \cdots \cap A_n\bigr) = P(A_1) \,\times\, P(A_2 \mid A_1) \,\times\, P(A_3 \mid A_1 \cap A_2) \,\times \cdots \times\, P\bigl(A_n \mid A_1 \cap A_2 \cap \cdots \cap A_{n-1}\bigr). $$ ## Disjoint & Independent * 當 $A$ 和 $B$ 是互斥時(即 $A \cap B = \varnothing$): * $P(A \cup B)=P(A)+P(B)$ * 當 $A$ 和 $B$ 不是互斥時即存在重疊部分,$P(A \cap B) > 0$),則必須扣除重複計算的部分,因此使用通用公式: $P(A \cup B)=P(A)+P(B) - P(A \cap B)$ ## 全機率定理(Total Probability Theorem) - 當一個事件 B 的發生可以由一組互斥且完備的事件組合來解釋時: $$ P(B) = \sum_{i=1}^n P(A_i) \cdot P(B|A_i) $$ 其中 $A_1, A_2, \dots, A_n$ 是一個對樣本空間的分割(partition)。 ### 🧮 範例一: - 有三種玩家(type1, type2, type3),對應機率為 0.5, 0.25, 0.25 - 勝利的機率分別是 0.3, 0.4, 0.5 - 根據全機率定理: $$ P(\text{Win}) = 0.5 \cdot 0.3 + 0.25 \cdot 0.4 + 0.25 \cdot 0.5 = 0.375 $$ --- ## 貝氏定理(Bayes’ Rule) - 計算已知結果 B 時,某個原因 $A_i$ 發生的機率: $$ P(A_i|B) = \frac{P(A_i) \cdot P(B|A_i)}{P(B)} $$ 其中 $P(B)$ 可由全機率定理算出 ### 範例:疾病檢測問題 - $P(A) = 0.001$:患病者機率 - $P(B|A) = 0.95$:檢測為陽性且有病 - $P(B|A^c) = 0.05$:偽陽性 - 計算患病且檢測為陽性的機率: $$ P(A|B) = \frac{0.001 \cdot 0.95}{0.001 \cdot 0.95 + 0.999 \cdot 0.05} ≈ 0.0187 $$ 當然可以!這就是貝氏定理的核心思維: --- ## 🎯「先驗 × 條件 / 總體」的意思 $$ \boxed{ P(A|B) = \frac{P(A) \cdot P(B|A)}{P(B)} } $$ 你可以把它翻成一句話: >「**發生 A 的原本機率(先驗)**,乘上**B 在 A 發生下的機率(條件)**, 然後除以**整體 B 發生的總機率(總體)**,就能得到『B 發生後是 A』的機率。」 --- ## 🧠 各部分意思拆解: | 部分 | 意義 | |-----------------|----------------------------------------------------------------------| | $P(A)$ | 先驗機率(Prior)→ 你在還沒看到任何新資訊時,原本認為 A 發生的可能性 | | $P(B\|A)$ | 條件機率(Likelihood)→ 如果 A 發生,那 B 會出現的機率是? | | $P(B)$ | 總體機率(Evidence)→ B 整體發生的機率,不管是由 A 或其他原因造成 | | $P(A\|B)$ | 後驗機率(Posterior)→ 在知道 B 發生後,你對 A 發生的信心有多少? | ### ✏️ 套用公式: $$ P(病|+) = \frac{P(病) \cdot P(+|病)}{P(病) \cdot P(+|病) + P(沒病) \cdot P(+|沒病)} $$ $$ = \frac{0.01 \cdot 0.95}{0.01 \cdot 0.95 + 0.99 \cdot 0.05} = \frac{0.0095}{0.0095 + 0.0495} = \frac{0.0095}{0.059} ≈ \boxed{0.161} $$ ### 🧠 用一句話記起來: > **貝氏定理 =(你原本相信的)×(觀察符合的程度)÷(所有符合的可能)** ## Counting Formula ### 🧮 計數公式整理表(Counting Formula Summary) | 類型 | 公式形式 | 中文說明 | 條件 | |-------------------------------|-------------------------------------------------------------|----------------------------------------------|------------------------------| | **基本計數原理** | $n_1 × n_2 × \cdots × n_k$ | k 個步驟,各有不同選擇方式 | 每步驟選項互不影響 | | **全排列(Permutation)** | $n!$ | 從 n 個不同物品全部排成一列 | 無重複、全取 | | **k-排列(k-Permutation)** | $P(n, k) = \frac{n!}{(n - k)!}$ | 從 n 個不同物品中選出 k 個,排成一列 | 無重複、有順序 | | **k-組合(k-Combination)** | $C(n, k) = \binom{n}{k} = \frac{n!}{k!(n - k)!}$ | 從 n 個中選出 k 個,不在意順序 | 無重複、無順序 | | **有放回排列(With Repetition Permutation)** | $n^k$ | 每次都可重複選擇,排出長度為 k 的序列 | 可重複、有順序 | | **有放回組合(With Repetition Combination)** | $\binom{n + k - 1}{k}$ | 從 n 種物品中選 k 個(可重複,無順序) | 可重複、無順序 | | **分組(Partition)** | $\frac{n!}{n_1! n_2! \cdots n_k!}$ | 將 n 個物品分成 k 組,各組大小為 $n_i$ | 各組內部無順序 | | **重複排列(Multiset Permutation)** | $\frac{n!}{n_1! n_2! \cdots n_k!}$ | 有重複元素的排列,如單字 OTATTO | 有重複元素、有順序 | --- ### 🎲 機率與計數混合公式 | 類型 | 公式形式 | 說明 | |---------------------------------|----------------------------------------------------------------------------------------------|---------------------------------| | **有放回機率(Binomial Model)** | $P(X = k) = \binom{n}{k} p^k (1 - p)^{n-k}$ | 抽樣 n 次,成功機率為 p | | **無放回機率(Hypergeometric)**| $P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}$ | 從 N 個中抽 n 個,K 個是成功者 | ### 🎯 一、重複採樣 -> 二項分布(Binomial Distribution) - 「幾種情況」×「每種情況的機率」: - \( \binom{n}{k} \):挑 k 次中紅球的方式 - \( p^k \):中紅球的機率 - \( (1 - p)^{n - k} \):不中的機率 🔁 關鍵字:「放回 → 機率不變」、「每次獨立」、「乘起來」。 --- ### 🎯 二、不重複採樣 -> 超幾何分布(Hypergeometric Distribution) 1. **總共的抽法(樣本空間):** - 從 N 個物品中抽出 n 個的方法數是: $$ \binom{N}{n} $$ 2. **事件發生的方式數:** - 從 K 個紅球中抽出 k 個紅球的方法: $$ \binom{K}{k} $$ - 從剩下的 \( N - K \) 個綠球中抽出 \( n - k \) 個的方法: $$ \binom{N - K}{n - k} $$ - 所以抽出 k 個紅球的方式總共是: $$ \binom{K}{k} \binom{N - K}{n - k} $$ 3. **機率為:** $$ P(X = k) = \frac{\binom{K}{k} \binom{N - K}{n - k}}{\binom{N}{n}} $$