Try   HackMD

考研筆記 - 機率 (偉文高成)

tags: 考研 機率 數學
撰寫時間 : 2022/09/12 ~ 2022/10/28

機率模型的考前背誦表

機率模型 PMF \(f_X(x)\) MGF \(m_X(t)\) \(E[X]\) \(\mathrm{Var}(X)\) 模型關係
白努利分布 \(X \sim B(1, p)\) \(p^x (1 - p)^{1 - x}\) \(1 - p + p e^t\) \(p\) \(p(1 - p)\) X
二項分布 \(X \sim B(n, p)\) \(C^n_x p^x (1 - p)^{n - x}\) \((1 - p + p e^t)^n\) \(np\) \(np(1 - p)\) \(\Sigma B(1, p) = B(n, p)\)、當\(n \to \infty, p \to 0\)時二項分布近似成波松分布
波松分布 \(X \sim Po(\lambda), \lambda \triangleq np\) \(\frac{e^{-\lambda} \lambda^x}{x!}\) \(e^{\lambda (e^t - 1)}\) \(\lambda\) \(\lambda\) \(Po(\lambda_1) + Po(\lambda_2) = Po(\lambda_1 + \lambda_2)\)
幾何分布 \(X \sim G(p)\) \(1 \cdot p (1 - p)^{x - 1}\) \(\frac{p e^t}{1 - (1 - p)e^t}\) \(\frac{1}{p}\) \(\frac{1 - p}{p^2}\) n次白努利試驗第1次成功的機率
負二項分布 \(X \sim NB(p)\) \(C^{x - 1}_{r - 1} \cdot p^r (1 - p)^{x - r}\) \(\left( \frac{p e^t}{1 - (1 - p)e^t} \right)^r\) \(r \left( \frac{1}{p} \right)\) \(r \left( \frac{1 - p}{p^2} \right)\) \(\Sigma G(p) = NB(r, p)\)
均勻分布 \(X \sim U[a, b]\) \(\frac{1}{b - a}\) \(\frac{1}{b - a} \frac{1}{t} (e^{tb} - e^{ta})\) \(\frac{a + b}{2}\) \(\frac{(\text{interval})^2}{12}\) 設任意機率模型的CDF為轉換函數則轉換後為\(U \sim [0,1]\)
高斯分布 \(X \sim N(\mu, \sigma^2)\) \(\frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}\) \(e^{\mu t + \frac{1}{2} \sigma^2 t^2}\) \(\mu\) \(\sigma^2\) \(\Sigma N(\mu_i, \sigma_i^2) = N(\sum^n_{i = 1} \mu_i, \sum^n_{i = 1} \sigma_i^2)\)
指數分布 \(X \sim E(\lambda)\) \(\lambda e^{-\lambda x}\) \(\frac{\lambda}{\lambda - t}\) \(\frac{1}{\lambda}\) \(\frac{1}{\lambda^2}\) X
gamma分布 \(X \sim Gamma(\alpha, \beta)\) \(\frac{x^{\alpha - 1} e^{-\frac{x}{\beta}} }{ \Gamma(\alpha) \cdot \beta^\alpha }\) \(\frac{1}{(1 - \beta t)^\alpha}\) \(\alpha \beta\) \(\alpha \beta^2\) \(\Sigma E(\lambda) = Gamma (\alpha, \frac{1}{\lambda})\)

ch1 機率導論

綱要

  • 機率空間由樣本空間、事件的集合、機率測度三部分組合
  • 3大公理與相關定理的證明
  • 獨立且乘法原則、互斥或加法原則
  • 重複取/不重複取的排列與組合
  • 多項式展開 - 二項式公式、二項式級數
  • 條件機率 - 樣本空間改變
  • 獨立事件與燈泡問題
  • 全機率定理與貝式定理

集合定義與運算

  1. 集合有2種表示式,一種是列舉式,把所有元素都列舉出來;另一種是描述式,描述所有集合內的共同的特性,記為\(A = \{x \in \mathbb{N} \mid 1 < x < 10\}\)
  2. 宇集(universe),為討論問題領域中,所有合乎選擇條件的元素所形成的集合,記為\(S\)或是\(\Omega\)
  3. \(n(A)\)代表集合\(A\)中元素(element)的個數。
  4. 集合有相減的運算,即為差集(difference),\(A - B = A \cap \overline{B}\),但集合沒有相加的運算。
  5. 冪集(power set),記為\(2^A \triangleq \{ X \mid X \subseteq A \}\),代表包含於集合\(A\)中所有子集合\(X\)所形成的集合,其中包括集合\(A\)本身與空集合\(\phi\)。而欲計算冪集元素的個數,可以使用"獨立且"乘法原則,在原集合\(A\)中每一個元素分為可取和不取的兩種情形,因此\(n(2^A) = 2^{n(A)}\)

隨機試驗與機率空間

  1. 隨機試驗有兩個比較重要的定義 - 在相同條件下可以重複進行,隨機試驗的結果事前不可預知。
  2. 機率空間(probability space)\((\Omega, F, P)\)為人類定義出來,用於描述機率問題的,分為3個部分
    • 第一項\(\Omega\)為樣本空間(sample space),一隨機試驗所有可能發生結果組成的集合。
    • 第二項\(F\)為樣本空間的冪集(power set),集合內的元素為事件(event)\(A\),屬於樣本空間的子集合\(A \subseteq S\)
    • 第三項\(P\)為機率測度(probability measure),一個從集合\(F\)映至實數域\(R\)的函數,\(P : F \to R\)。每個事件都被此函數賦予一個0和1之間的機率值。

機率的三大公理(Kolmogorov axioms)

一隨機試驗的樣本空間\(S\)\(A\)\(S\)中的任一事件,因此所有事件的集合即為樣本空間的冪集\(F\),定義機率測度\(P : F \to R\)為樣本空間的冪集映射至實數的實係數函數,並滿足以下三大機率公理

  1. \(P(S) = 1\),機率總和為一。
  2. \(P(A) \in \mathbb{R}, P(A) \geq 0, \forall A \in F\),任一事件的機率為非負實數。
  3. 若事件\(A_n, n = 1,2,3,\ldots\)彼此互斥(mutually exclusive),即事件交集為空集合\(A_i \cap A_j = \phi, i \neq j\),則滿足加法原理\(P(\underset{n}{\cup} A_n) = \sum_n P(A_n)\)

根據三大機率公理就可以證明出很多機率的定理,大部分的證明幾乎都是用到是第三點公理。例如機率的排容原理\(P(A \cup B) = P(A) + P(B) - P(A \cup B)\)的證明

  1. 列出互斥 \[ (A \cap B) \cap (\overline{A} \cap B) \cap (A \cap \overline{B}) = \phi \]
  2. 列出或 \[ (A \cap B) \cup (\overline{A} \cap B) \cup (A \cap \overline{B}) = A \cup B \]
  3. 使用加法原則 \[ \begin{align*} & \;\quad P((A \cap B) \cup (\overline{A} \cap B) \cup (A \cap \overline{B})) = P(A \cup B)\\ &= P(A \cap B) + P(\overline{A} \cap B) + P(A \cap \overline{B})\\ &= \{ P(A \cap B) + P(A \cap \overline{B}) \} + \{ P(A \cap B) + P(\overline{A} \cap B) \} - P(A \cap B)\\ &= P(A) + P(B) - P(A \cup B) \end{align*} \]

計數原理有4個技巧

  1. (獨立且)乘法原則
    若兩事件\(A\)\(B\),為獨立事件\(P(A \cap B) = P(A)P(B)\)\(A\)\(n\)個元素,\(B\)\(m\)個元素,則由\(A\)\(B\)中各取一個元素,共有\(n \times m\)種結果。
  2. (互斥或)加法原則
    若兩事件\(A\)\(B\),為互斥事件\(A \cap B = \phi\)\(A\)\(n\)個元素,\(B有\)\(m\)個元素,則由\(A\)\(B\)中取一個元素,共有\(n + m\)種結果。
  3. 樹狀圖
    適用於一試驗重複執行或是多試驗循序執行。
  4. 排列與組合
    當隨機試驗可能的結果太多,則採用此技巧。分為可重複取或是不可重複取;有論次序的排列與沒有論次序的組合。

排列組合

  • 排列 - 重複取 - \(n\)物取\(r\)個重複排列有\(n^r\)種情形。
  • 排列 - 不重複取 - \(n\)物取\(r\)個不重複排列有\(P^n_r = n(n - 1)\cdots (n - r + 1) = \frac{n!}{(n - r)!}\)種情形。
  • 排列 - 不盡相異物的排列數 - 有\(n\)件物品含有\(k\)種不同種類,分別個數為\(n_1, n_2, \ldots, n_k\),則\(n_1 + n_2 + \cdots n_k = n\)。若將\(n\)件物品排列,則其排列數為\(\frac{n!}{n_1! n_2! \cdots n_k!}\)
  • 多項式展開
  1. 二項式公式 \[ (x + y)^n = \sum^n_{k = 0} \frac{n!}{k!(n - k)!} x^k y^{n-k} \] 可以視為有\(k\)顆紅球\(x\)\(n - k\)顆藍球\(y\)做不盡相異物的排列數。
  2. 同理可擴展至多項式公式 \[ (x_1 + x_2 + \cdots + x_k)^n = \sum_{0 \leq n_i \leq n} \frac{n!}{n_1!n_2!\cdots n_k!} x_1^{n_1} x_2^{n_2} \cdots x_k^{n_k} \]
  3. 微積分的二項式級數(binomial coefficients)與排列組合無關,是利用馬克勞林級數(以0展開的泰勒級數)證明。 \[ \begin{align*} (1 + x)^k &= \sum^\infty_{n = 0} \frac{f^{(n)} (0)}{n!} x^n\\ &= \frac{f(0)}{0!} + \frac{f'(0)}{1!}x + \frac{f''(0)}{2!}x^2 + \frac{f'''(0)}{3!}x^3 + \cdots\\ &= 1 + kx + \frac{k(k - 1)}{2!}x^2 + \frac{k(k - 1)(k - 2)}{3!}x^3 + \cdots\\ &= \sum^\infty_{n = 0} \underbrace{\frac{k(k - 1) \cdots (k - n + 1)}{n!}}_{\text{bimonial coefficients}} x^n , |x| < 1\\ &=\sum^\infty_{n = 0} \begin{pmatrix}k\\ n\end{pmatrix} x^n\\ \end{align*} \]
  • 組合 - 不重複取 - \(n\)物取\(r\)個不重複組合有\(C^n_r = \frac{1}{r!}P^n_r = \frac{n!}{(n - r)!r!}\)種情形,就是將不重複取的排列\(P^n_r\)除上重複計算的排列數\(r!\),重要的組合公式有巴斯卡定理\(C^n_k = C^{n - 1}_{k - 1} + C^{n - 1}_k\)
  • 組合 - 分組、分堆 - 若組別不同(論次序)則可以視為排列,若組別相同(不論次序)則可以視為組合。
  • 組合 - 重複取 - \(n\)物取\(r\)個重複組合有\(H^n_r = C^{n + r - 1}_r = \frac{(n + r - 1)!}{(n - 1)!r!}\)種情形,直觀可以理解有\(r\)個相同的圈圈要分給\(n\)個人,就是把原本\(r\)個相同的圈圈加上\(n - 1\)條分隔線,做不盡相異物的排列數

條件機率

  1. 若事件\(A, B\)為樣本空間\(S\)的部分集合,且\(P(B) > 0\),在事件\(B\)已發生的條件之下,事件\(A\)發生的條件機率定義為 \[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \] 其意義等同於縮小原本樣本空間\(S\)變成\(B\),再從新的樣本空間\(B\)中找\(A \cap B\)的事件。
  2. 將上式移向得 \[ P(A \cap B) = P(A \mid B)P(B),\; P(A \cap B) = P(B \mid A)P(A) \] 可知欲求\(A, B\)交集的機率就是將條件機率乘上原本條件機率分母的樣本空間。
  3. 條件機率\(P(A \mid B)\)跟原來的機率\(P(A)\)無法比較,因為樣本空間已經改變,除了以下特例 \[ A \subseteq B \Rightarrow P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(A)}{P(B)} \geq P(A), \because P(B) > 0 \]
  4. 條件機率依然滿足機率的三大公理,只是樣本空間改變而已。

獨立事件

對於兩機率不為0的事件\(A,B\)而言 \[ \begin{align*} & \text{events } A \text{ and } B \text{ are independent}\\ \Leftrightarrow\; & P(A \mid B) = P(A) \tag{1}\\ \Leftrightarrow\; & P(B \mid A) = P(B) \tag{2}\\ \Leftrightarrow\; & P(A \cap B) = P(A)P(B) \tag{3} \end{align*} \] 式(1)與式(2)代表條件無用 - 在事件\(B\)發生有無的前提都與事件A會發生的機率無關;式(3)為ch1 計數原理有4個技巧乘法原理,代表\(A,B\)交集機率等於個別機率相乘,可以由式(1)、式(2)移項推導\(P(A \mid B) = P(A) \Rightarrow \frac{P(A \cap B)}{P(B)} = P(A)\)

\(A\)\(B\)互斥 \(\Leftrightarrow A \cap B = \phi \Leftrightarrow P(A \cap B) = P(\phi) = 0\)

定理為 \[ \begin{align*} & \text{events } A \text{ and } B \text{ are independent}\\ \Leftrightarrow\; & \text{events } A \text{ and } \overline{B} \text{ are independent} \tag{4}\\ \Leftrightarrow\; & \text{events } \overline{A} \text{ and } B \text{ are independent} \tag{5}\\ \Leftrightarrow\; & \text{events } \overline{A} \text{ and } \overline{B} \text{ are independent} \tag{6}\\ \end{align*} \] 式(6)證明\(p \Rightarrow q\)如下,使用"夾擊法"的證明技巧 \[ \begin{align*} & \text{events } A \text{ and } B \text{ are independent} \Rightarrow\; P(A \cap B) = P(A)P(B)\\ \because\; & P(A) = P(A \cap B) + P(A \cap \overline{B})\\ \therefore\; & P(A \cap \overline{B}) = P(A) - \underbrace{P(A \cap B)}_{= P(A)P(B)} = P(A)(1 - P(B)) = P(A \cap \overline{B}) = P(A)P(\overline{B})\\ & P(A \cap \overline{B}) = P(A)P(\overline{B}) \Rightarrow \text{events } A \text{ and } \overline{B} \text{ are independent}\\ \end{align*} \] 需要注意3個以上的事件獨立,不只要兩個事件成對獨立\(P(A \cap B) = P(A)P(B), \ldots\),更要保證三個事件彼此也是獨立\(P(A \cap B \cap C) = P(A)P(B)P(C)\),同理推廣到\(n\)個事件互為獨立的條件,由此可知獨立事件的條件是分嚴格。

獨立事件的應用為燈泡開關的迴路問題,若串聯元件\(A,B\)彼此獨立,則導通機率為\(P(A \cap B) = P(A)P(B)\);若並聯元件\(A,B\)彼此獨立,則導通機率為\(P(A \cup B) = P(A) + P(B) - P(A \cap B) = P(A) + P(B) - P(A)P(B)\)


全機率定理

事件集\(\{ E_1, E_2, \ldots, E_n \}\),若集合中任二個事件為互斥\(E_i \cap E_j = \phi\),且\(E_1 \cup E_2 \cup \ldots \cup E_n = S\)樣本空間,稱為分割(partition)或是互斥無遺漏集合。對任意事件\(A\)恆有 \[ \begin{align*} P(A) &= P(A \cap E_1) + P(A \cap E_2) + \cdots + P(A \cap E_n)\\ &= P(A \mid E_1)P(E_1) + P(A \mid E_2)P(E_2) + \cdots + P(A \mid E_n)P(E_n) \end{align*} \] 白話來說分割就是把樣本空間拆成一塊塊拼圖,全機率定理就是把拼圖一塊塊拼出來,再將其轉成個別條件機率,在實際情況中事件的全貌\(P(A)\)不容易取得,需要靠條件機率的一塊塊拼圖\(P(A \mid E_i)P(E_i)\)得知事情全貌。


貝氏定理

適用於題目給\(P(A \mid E_i)\),求\(P(E_k \mid A)\),事件和條件對調的問題。若\(\{ E_1, E_2, \ldots, E_n \}\)為樣本空間\(S\)的一組分割,則任意機率大於0的事件\(A\)恆有 \[ P(E_i \mid A) = \frac{P(E_i \cap A)}{P(A)} = \frac{P(A \mid E_i) P(E_i)}{\sum^n_{j = 1} P(A \mid E_j)P(E_j)} \] 分子使用條件機率推得,分母使用全機率定理推得,一般貝氏定理都是使用樹狀圖分析求得。


ch2 隨機變數

綱要

  • 隨機變數是將"抽象"的樣本空間映射到"具體"、可執行加減乘除運算的實數系的"函數"
  • 隨機變數根據值域類型分為離散型、連續型、混合型
  • 離散型隨機變數的PMF與CDF、連續型隨機變數的PDF與CDF
  • 離散型與連續型的多隨機變數
  • 條件機率函數與獨立隨機變數

隨機變數

隨機變數不具有隨機性,也不是一個變數,隨機變數\(X\)是函數,把定義域上"抽象"的樣本空間\(S\)中每一個樣本點\(\omega\),映射到值域上"具體"、可執行加減乘除運算的實數系\(\mathbb{R}\)上,記為\(X : S \to S_X, S_X = \{ X(\omega) \mid \omega \in S, X \in \mathbb{R}\}\)。隨機變數是一個劃時代的概念,從古典機率僅能執行集合運算,透過隨機變數將抽象的集合映射到實數系,到近代機率可以執行加減乘除、微分、積分運算。需要注意原機率空間\(\{S, E, P( \cdot)\}\)透過隨機變數\(X\)映射到新的機率空間\(\{S_X, E_X, P_X( \cdot)\}\)依然滿足機率的三大公理。

根據隨機變數值域\(S_X\)的種類又可分為3種

  1. \(S_X\)集合元素有有限個或是無限但可數個,則稱為離散型隨機變數。
  2. \(S_X\)集合元素有無限不可數,則稱為連續型隨機變數。
  3. \(S_X\)集合元素一部分可數,另一部分不可數,則稱為混合型隨機變數。

離散型隨機變數

  1. 機率質量函數(PMF, probability mass function)
    PMF在\(x = x_0\)的值為單點機率 \[ f_X(x = x_0) = P_X(X = x_0) \] 並且PMF滿足以下2個性質
    1. \(0 \leq f_X(x) \leq 1\),PMF在0和1的區間。
    2. \(\sum_X f_X(x) = 1\),所有\(x\)點的PMF總和為1。

PMF常使用單位脈衝來表示,假設有樣本點\(x_1, x_2, \ldots\),則PMF \(f_X(x) = \sum c_n \delta(x - x_i)\)

  1. 累積分布函數(CDF, cumulative distribution function)
    設離散型隨機變數\(X\)的PMF為\(f_X(x)\),則CDF則是把\(x_0\)點以前(包括\(x_0\)該點)的機率"累積"起來。 \[ F_X(x_0) = P_X(X \leq x_0) = \sum_{s \leq x_0} f_X(s) \] 離散型隨機變數的CDF具有以下7個性質
    1. \(0 \leq F_X(x) \leq 1\),由於所有\(x\)點的PMF總和為1,所以CDF最大值只會是1。
    2. \(F_X(\infty) = P(x \leq \infty) = 1\)為必然事件;\(F_X(-\infty) = P(x \leq -\infty) = 0\)為不可能事件。
    3. \(x_1 < x_2 \rightarrow F_X(x_1) \leq F_X(x_2)\),非遞減的階梯函數。
    4. \(P(X = x_0) = f_X(x_0) = F_X(x) - \lim_{\epsilon \to 0} F_X(x - \epsilon)\),欲求該點機率值,等於CDF的函數值減去左極限值。
    5. \(P(X > x_0) = 1 - F_X(x_0)\),若原機率難求,可利用補事件的概念來求。
    6. \(P(a < X \leq b) = F_X(b) - F_X(a)\),需要注意\(X\)的範圍下限是開區間,上限是閉區間,可用CDF的定義\(F_X(x_0) = P_X(X \leq x_0)\)去證明。
    7. 若離散型隨機變數的值域有樣本點\(x_1, x_2, \ldots\),則\(F_X(x_i) = \lim_{h \to 0} F_X(x_i + h), \forall i = 1, 2,\ldots\),代表離散型CDF右極限值等於函數值,屬於右連續函數。

連續型隨機變數

  1. 機率密度函數(PDF, probability density function)
    給定連續型隨機變數\(X\),且\(S_X\)是其值域,\(E\)\(S_X\)的任一部分集合,則機率密度函數\(f_X(x)\)滿足 \[ P_X(E) = \int_{x \in E} f_X(x) dx \] PDF具有以下性質

    1. \(f_X(x) \geq 0\),PDF在0以上,曲線高度可以大於1,因為不像離散型隨機變數一樣,連續型隨機變數的單點機率沒有意義。
    2. \(\int^\infty_{-\infty} f_X(x)dx = 1\),所有\(x\)點積分起來的PDF總和為1。
    3. \(P(x = x_0) = \int^{x_0}_{x_0} f(x)dx = 0\),單點機率為0,無任何意義。
    4. PDF本身不是機率,需要積分才有機率的意義,連續型隨機變數最基本的單位為\(P(x_0 < X \leq x_0 + dx) = f_X(x_0)dx\)
    5. 由於單點機率無意義,故機率上下限小於和小於等於,大於和大於等於同義,\(P(a < X <b) = P(a \leq X <b) = P(a < X \leq b) = P(a \leq X \leq b) = \int^b_a f_X(x)dx\)
  2. 累積分布函數(CDF, cumulative distribution function)
    設連續型隨機變數\(X\)的PDF為\(f_X(x)\),則CDF則是把\(x_0\)點以前的PDF"積分"起來。 \[ F_X(x_0) = P_X(X \leq x_0) = \int^x_{-\infty} f_X(t)dt \] 連續型隨機變數的CDF具有以下5個性質

    1. \(0 \leq F_X(x) \leq 1\),PDF \(f_X(x)\)\(x\)軸所圍出來的區域面積最大為1。
    2. \(F_X(\infty) = P(x \leq \infty) = 1\)為必然事件;\(F_X(-\infty) = P(x \leq -\infty) = 0\)為不可能事件。
    3. \(x_1 < x_2 \rightarrow F_X(x_1) \leq F_X(x_2)\),非遞減的連續函數。
    4. \(P(a < X \leq b) = F_X(b) - F_X(a)\)
    5. \(\frac{dF_X(x)}{dx} = f_X(x)\),由微積分基本定理(一)可得對CDF微分為PDF。

離散型多隨機變數

在解題上,第一步是畫出結合機率分析表

  1. 結合機率質量函數(joint PMF, joint probability mass function)
    若有2個離散型的隨機變數\(X,Y\),則JPMF在\(x=x_0, y= y_0\)的值為單點機率 \[ f_{X, Y}(x = x_0, y = y_0) = P_X(X = x_0, Y = y_0) \] JPMF類似PMF滿足以下2個性質

    1. \(0 \leq f_{X,Y}(x, y) \leq 1\),JPMF在0和1的區間。
    2. \(\sum_X \sum_Y f_{X,Y}(x, y) = 1\),所有JPMF上二維單點機率總和為1。
  2. 邊際機率質量函數(marginal PMF, marginal probability mass function)
    將不要的變數全部相加,將兩個隨機變數退化為一個隨機變數。 \[ f_X(x) = \sum_Y f_{X, Y}(x, y)\\ f_Y(y) = \sum_X f_{X, Y}(x, y) \] JPMF類似PMF滿足以下2個性質

    1. \(0 \leq f_X(x), f_Y(y) \leq 1\),MPMF在0和1的區間。
    2. \(\sum_X f_X(x) = \sum_Y f_Y(y) = 1\),退化後的MPMF即為一維的PMF,機率總和為1。
  3. 結合累積分布函數(joint CDF, joint cumulative distribution function) 若有2個離散型的隨機變數\(X,Y\),則JCMF \(F_{X,Y}(x_0, y_0)\)就是把二維點\((x_0, y_0)\)以下的面積加起來,做機率累積 \[ F_{X, Y}(x_0,y_0) = P_X(X \leq x_0, Y \leq y_0) \] JCDF具有以下4個性質

    1. \(0 \leq F_{X,Y}(x,y) \leq 1\),PDF所圍出來的區域面積最大為1。
    2. \(F_{X,Y}(\infty, \infty) = P(x \leq \infty, y \leq \infty) = 1\)為必然事件;\(F_{X,Y}(-\infty, -\infty) = P(x \leq -\infty, y -\leq \infty) = 1\)為不可能事件。
    3. \(F_{X,Y}(-\infty, y) = 0, F_{X,Y}(x, -\infty) = 0\),帶回定義可以發現,\(x,y\)有一邊機率是0,為不可能事件。
    4. \(F_{X,Y}(x, \infty) = F_X(x), F_{X,Y}(\infty, y) = F_Y(y)\),代表其中一個隨機變數都加完,退化為一個變數的CDF,稱為邊際累積分布函數(marginal CDF, marginal cumulative distribution function)。

連續型多隨機變數

在解題上,第一步是畫出值域\(S_{X,Y}\)圖。

  1. 結合機率密度函數(joint PDF, joint probability density function)
    給定連續型隨機變數\(X, Y\),且\(S\)是其值域,\(E\)\(S\)的任一部分集合,則機率密度函數\(f_{X,Y}(x, y)\)滿足 \[ P(E) = \int\int_{(x, y) \in E} f_{X, Y}(x, y) dxdy \] PDF具有以下性質

    1. \(f_{X,Y}(x, y) \geq 0\),JPDF在0以上,曲線高度可以大於1,因為不像離散型隨機變數一樣,連續型隨機變數的單點機率沒有意義。
    2. \(\int^\infty_{-\infty}\int^\infty_{-\infty} f_{X,Y}(x, y)dxdy = 1\),所有\(x,y\)點雙重積分起來的JPDF總和為1。
    3. \(P(x = x_0, y = y_0) = \int^{x_0}_{x_0}\int^{y_0}_{y_0} f(x)dxdy = 0\),單點機率為0,無任何意義。
    4. JPDF本身不是機率,需要積分才有機率的意義,連續型隨機變數最基本的單位為\(P(x_0 < X \leq x_0 + dx, y_0 < Y \leq y_0 + dy) = f_{X.Y}(x_0, y_0)dxdy\)
  2. 邊際機率密度函數(marginal PDF, marginal probability density function)
    將不要的變數全部積分起來,將兩個隨機變數退化為一個隨機變數。 \[ f_X(x) = \int^\infty_{-\infty} f_{X, Y}(x, y) dy\\ f_Y(y) = \int^\infty_{-\infty} f_{X, Y}(x, y) dx \] JPDF類似PDF滿足以下2個性質

    1. \(f_X(x), f_Y(y) \geq 0\),PDF在0以上,曲線高度可以大於1,因為不像離散型隨機變數一樣,連續型隨機變數的單點機率沒有意義。
    2. \(\int^\infty_{-\infty} f_X(x)dx = \int^\infty_{-\infty} f_Y(y)dy = 1\),退化後的MPMF即為一維的PMF,機率總和為1。
  3. 結合累積分布函數(joint CDF, joint cumulative distribution function)
    設連續型隨機變數\(X,Y\)的JPDF為\(f_{X,Y}(x, y)\),則JCDF則是把\((x_0, y_0)\)點以前的JPDF"積分"起來。 \[ F_{X,Y}(x_0, y_0) = P(X \leq x_0, Y \leq y_0) = \int^x_{-\infty} \int^y_{-\infty} f_{X,Y}(s, t)dtds \] 連續型隨機變數的JCDF具有以下6個性質

    1. \(0 \leq F_{X,Y}(x,y) \leq 1\),JPDF所圍出來的區域面積最大為1。
    2. \(F_{X,Y}(\infty, \infty) = P(x \leq \infty, y \leq \infty) = 1\)為必然事件;\(F_{X,Y}(-\infty, -\infty) = P(x \leq -\infty, y -\leq \infty) = 1\)為不可能事件。
    3. \(F_{X,Y}(-\infty, y) = 0, F_{X,Y}(x, -\infty) = 0\),帶回定義可以發現,\(x,y\)有一邊機率是0,為不可能事件。
    4. \(F_{X,Y}(x, \infty) = F_X(x), F_{X,Y}(\infty, y) = F_Y(y)\),代表其中一個隨機變數都積分完,退化為一個變數的CDF,稱為邊際累積分布函數(marginal CDF, marginal cumulative distribution function)。
    5. \(\frac{\partial F_{X, Y}(x, y)}{\partial x \partial y} = f_{X, Y}(x, y)\),由微積分基本定理(一)可得對JCDF微分為JPDF。
    6. 可畫圖證明,記憶口訣是正正(起點、起點)得正、負負(終點、終點)得負 \[ \begin{align*} P(a < X \leq b, c < Y \leq d) &= \int^b_a \int^d_c f_{X, Y}(x, y)dydx\\ &= F_{X, Y}(b,d) - F_{X, Y}(b,c) - F_{X, Y}(a,d) + F_{X, Y}(a,c) \end{align*} \]

隨機向量

\(n\)個隨機變數,寫成向量的形式\(X = (X_1, X_2, \ldots, X_n)^T\),稱為隨機向量,若皆是連續型隨機變數,同理可定義JPDF、MPDF、JCDF、MCDF。


條件機率函數

若隨機變數\(X,Y\)的結合機率函數\(f_{X, Y}(x, y)\)、邊際機率函數\(f_X(x), f_Y(y)\)

  • 離散型條件機率密度函數(conditional PMF) \[ P_{X \mid Y}(x \mid y) = P(X = x \mid Y = y) = \frac{P(X = x, Y = y)}{P(Y = y)} = \frac{f_{X, Y}(x, y)}{f_Y(y)} \]
  • 連續型條件機率機率函數(conditional PDF) \[ \begin{align*} & f_{X \mid Y}(x \mid y) = \frac{f_{X, Y}(x, y)}{f_Y(y)}\\ & P[x < X \leq x + dx \mid y < Y \leq y + dy]\\ &\quad= \frac{P[x < X \leq x + dx, y < Y \leq y + dy]}{P[y < Y \leq y + dy]}\\ &\quad= \frac{f_{X,Y}(x, y)dxdy}{f_{Y}(y)dy}\\ &\quad= f_{X \mid Y}(x \mid y)dx \end{align*} \]

獨立隨機變數

給定隨機變數\(X_1, X_2, \ldots, X_n\), joint PDF \(f(X_1, X_2, \ldots, X_n)\), marginal PDF \(f(X_1), f(X_2), \ldots, f(X_n)\), joint CDF \(F(X_1, X_2, \ldots, X_n)\), marginal CDF\(F(X_1), F(X_2), \ldots, F(X_n)\) \[ \begin{align*} & \text{rv's } X_1, X_2, \ldots, X_n \text{ are independent}\\ \Leftrightarrow\;& f(X_1, X_2, \ldots, X_n) = f(X_1)f(X_2) \cdots f(X_n)\\ \Leftrightarrow\;& F(X_1, X_2, \ldots, X_n) = F(X_1)F(X_2) \cdots F(X_n) \end{align*} \] \(n\)個隨機變數獨立的定義為個別PDF(CDF)相乘等於聯合的PDF(CDF),而ch1 獨立事件\(n\)個事件獨立的定義不僅需要\(n\)個事件成對獨立,還需要兩兩事件成對獨立、三三事件成對獨立等,條件較為"嚴格"。欲快速判斷隨機變數\(X, Y\)是否互為獨立,首先判斷\(X\)\(Y\)的值域有無關聯,再來看joint PDF是否可以分離變數\(f_{X, Y}(x, y) \overset{?}{=} g(x)h(y)\)


ch3 期望值、變異數

綱要

  • 一階(原點)動差 - 期望值、二階中心動差 - 變異數
  • 動差形成函數(MGF)、特徵函數(CF)、機率質量/密度函數(PMF/PDF)三者關係
  • 機率的比較隨機變數\(X, Y\)之間相關性的共變數與相關係數
  • 獨立 ⇒ 不相關,but不相關 !⇒ 獨立
  • 條件期望值

期望值(=平均數)

給定隨機變數\(X\)與其PMF/PDF\(f_X(x)\),則\(g(x)\)的期望值為 \[ E[g(x)] \triangleq \begin{cases} \sum_{x \in S_X} g(x) f_X(x)\\ \int^\infty_{-\infty} g(x) f_X(x)dx \end{cases} \] 由上式可知,期望值就是加權平均,這個權重就是機率分布函數。


變異數

給定隨機變數\(X\),其PMF/PDF \(f_X(x)\),則\(X\)的變異數為 \[ \mathrm{Var}(X) \triangleq E\{(X - \mu_X)^2\} = \begin{cases} \sum_{x \in S_x}(x- \mu_X)^2 f_X(x)\\ \int^\infty_{-\infty} (x - \mu_X)^2 f_X(x)dx \end{cases} \] 變異數為將所有數值與平均值的誤差做平方再取期望值,稱為均方誤差(MSE - mean square error),當隨機變數的PMF/PDF較鬆散時,變異數大;反之PMF/PDF較密集時,變異數小。進一步推導變異數 \[ \begin{align*} E\{(X - \mu_X)^2\} &= E\{X^2 - 2X\mu_X + \mu_x^2 \}\\ &= E[X^2] - 2E[X] \cdot \mu_X + \mu_X^2\\ &= E[X^2] - \mu_X^2 \end{align*} \] 可以得到變異數較方便計算的公式 - 二階動差 - (一階動差)2

由於變異數\(E\{(X - \mu_X)^2\} > 0\),因此定義標準差為變異數的開根號\(\sigma_X \triangleq \sqrt{\mathrm{Var}(X)}\)


動差形成函數(MGF)與特徵函數(CF)

2022上一段日記 03/14(一)的動差形成函數與特徵函數,需要注意動差形成函數有收斂範圍(ROC),而特徵函數則沒有。另外機率質量/密度函數\(f_X(x)\)、特徵函數\(\Phi(\omega)\)、動差生成函數\(M_X(s)\)這三者中只要知道任一項,即可求其他兩項(可被唯一決定)。 \[ \begin{align*} \mathscr{L}^{-1} &\downarrow\uparrow \mathscr{L}\\ &f_X(x) \to m_n = \int^\infty_{-\infty} x^n f_X(x)dx\\ \mathscr{F} &\downarrow\uparrow \mathscr{F}^{-1}\\ &\Phi(\omega) \to m_n = (-j)^n\frac{d^n\Phi}{d\omega^n}\Bigg|_{\omega = 0}\\ \omega = \frac{s}{j} &\downarrow\uparrow s = j\omega\\ &M_X(s) \to m_n = \frac{d^nM(s)}{ds^n}\Bigg|_{s = 0} \end{align*} \] 其中Laplace Transform與Fourier Transform與工數的定義上差了一個負號,但這兩種定義是等效的。 \[ \begin{align*} M_X(s) &= \mathscr{L}\{f_X(x)\} = \int^\infty_{-\infty} e^{sx} f_X(x)dx\\ \Phi(\omega) &= \mathscr{F}\{f_X(x)\} = \int^\infty_{-\infty} e^{j\omega x} f_X(x)dx \end{align*} \]


期望值與變異數的性質

期望值屬於一階(原點)動差,因此具有線性運算的性質,即\(E[g(X) + h(Y)] = E[g(X)] + E[h(Y)]\),但是期望值的乘法不能拆開,只有在隨機變數\(X,Y\)是獨立的條件下\(E[g(X) \cdot h(Y)] = E[g(X)] \cdot E[h(Y)]\)

線性代數篇 ch6 範數(norm)介紹線性代數版的柯西不等式,也有個機率版的柯西不等式,證明為令新的隨機變數\(Z = Y - \lambda X, \forall \lambda \in R\),並計算\(E[Z^2]\) \[ E[XY]^2 \leq E[X^2]E[Y^2] \] \(P[Y = \alpha X] = 1\)時,"="才會成立。

變異數為二階中心動差,與期望值不同,不具有線性運算,而變異數的其他性質為 \[ \mathrm{Var}(aX + b) = a^2\mathrm{Var}(X) \]


共變數(=協方差)(covariance)

給定隨機變數\(X, Y\)與平均值\(\mu_X, \mu_Y\),則共變數 \[ \mathrm{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] = \sigma_{XY} \] 其意義在於比較隨機變數\(X, Y\)之間的相關性\(\mathrm{Cov}(X, Y) > 0\)代表正相關、\(\mathrm{Cov}(X, Y) < 0\)代表負相關、\(\mathrm{Cov}(X, Y) = 0\)代表不相關。
進一步推導 \[ \begin{align*} \mathrm{Cov}(X, Y) &= E[(X - \mu_X)(Y - \mu_Y)]\\ &= E[XY - \mu_X Y - \mu_Y X + \mu_X \mu_Y]\\ &= E[XY] - \mu_X E[Y] - \mu_Y E[X] + \mu_X \mu_Y\\ &= E[XY] - \mu_X\mu_Y \end{align*} \] 可以得到共變數較方便計算的公式。
與變異數做比較 \[ \begin{align*} \mathrm{Var}(X) &\triangleq E\{(X - \mu_X)(X - \mu_X)\}\\ &= E[X^2] - \mu_X^2\\ &= \mathrm{Cov}(X, X) = \sigma_X^2 \geq 0 \end{align*} \] 可以發現變異數就是自己跟自己的共變數,代表比較自己跟自己的關係。


相關係數(correlation coefficients)

共變數可以判斷兩隨機變數\(X, Y\)的相關性,但只能定性,不能定量,需要除以各自隨機變數的標準差,得到定量的相關係數。 \[ \rho_{XY} \triangleq \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{E[XY] - \mu_X \mu_Y}{\sqrt{E[X^2] - \mu_X^2} \sqrt{E[Y^2] - \mu_Y^2}} \] 性質 - 相關係數指介於-1到1之間,即\(-1 \leq \rho_{XY} \leq 1\) \[ \begin{align*} & \text{set } U = X - \mu_X, V = Y - \mu_Y\\ & E[UV]^2 \leq E[U^2] E[V^2] \quad \ldots \text{Cauchy–Schwarz inequality}\\ \Rightarrow\;& \mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \mathrm{Var}(Y)\\ \Rightarrow\;& \left( \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y} \right)^2 = \rho_{XY}^2 \leq 1\\ \Rightarrow\;& -1 \leq \rho_{XY} \leq 1 \end{align*} \]


獨立 ⇒ 不相關,but不相關 !⇒ 獨立

\[ \begin{align*} & X, Y \text{ are uncorrelated}\\ \Leftrightarrow\;& \mathrm{Cov}(X, Y) = 0\\ \Leftrightarrow\;& \rho_{XY} = 0\\ \Leftrightarrow\;& E[XY] = E[X]E[Y]\\ & X, Y \text{ are independent}\\ \Leftrightarrow\;& f_{X,Y}(x, y) = f_X(x) f_Y(y)\\ \Leftrightarrow\;& F_{X,Y}(x, y) = F_X(x) F_Y(y)\\ \Leftrightarrow\;& E[g(X) h(Y)] = E[g(X)]E[h(Y)] \end{align*} \] 由獨立與不相關等效的第3的定義可知,獨立是任意\(g(X),h(Y)\)\(n\)階動差都可拆開,等效於\(M(s_1,s_2) = M_X(s_1) \cdot M_Y(s_2)\),而不相關是僅有一階動差能拆開\(E[XY] = E[X]E[Y]\),因此獨立可以推得不相關,但不相關無法推得獨立

但有兩個例外(獨立與不相關等價)

  1. 二位元傳輸 - 隨機變數\(X,Y\),其值域為\(S_X = \{0, 1\} = S_Y\)
  2. 高斯分布 - 隨機變數\(X,Y \sim\) joint Gaussian distribution

共變數矩陣(covariance matrix)

將共變數推廣至\(n\)個隨機變數。給定隨機向量\(\mathbf{X}\)與平均值向量\(\mathbf{\mu}_X\) \[ \mathbf{X} = \begin{bmatrix} X_1\\ X_2\\ \vdots\\ X_n\end{bmatrix}, \mathbf{\mu}_X = \begin{bmatrix} \mu_1\\ \mu_2\\ \vdots\\ \mu_n\end{bmatrix} \] 共變數矩陣 \[ \begin{align*} \mathrm{Cov}(\mathbf{X}) &\triangleq E[(\mathbf{X} - \mathbf{\mu}_X)(\mathbf{X} - \mathbf{\mu}_X)^T]\\ &= E[\mathbf{X} \mathbf{X}^T] - \mathbf{\mu}_X \mathbf{\mu}_X^T\\ &= \begin{bmatrix} \sigma_{X_1}^2 & \sigma_{X_1 X_2} & \cdots & \sigma_{X_1 X_n}\\ \sigma_{X_2 X_1} & \sigma_{X_2}^2 & \cdots & \sigma_{X_2 X_n}\\ \vdots & \vdots &\ddots & \vdots\\ \sigma_{X_n X_1} & \sigma_{X_n X_2} & \cdots & \sigma_{X_n}^2\\ \end{bmatrix} \end{align*} \] 共變數矩陣有兩個重要的特性

  1. 實對稱 \(\sigma_{X_1 X_2} = \sigma_{X_2 X_1}, \ldots\)
  2. 半正定 \(v^T C v = E[v^Txx^Tv] = E[(v^T x)^2] \geq 0\)

條件期望值

給定隨機變數\(X, Y\)與其PMF/PDF \(f_{X, Y}(x, y)\) \[ E[g(X) \mid y] \triangleq \begin{cases} \sum_{x \in S_X} g(x) f(x \mid y)\\ \int^\infty_{-\infty} g(x) f(x \mid y)dx \end{cases}\\ E[g(Y) \mid x] \triangleq \begin{cases} \sum_{y \in S_Y} g(y) f(y \mid x)\\ \int^\infty_{-\infty} g(y) f(y \mid x)dx \end{cases} \] 其中\(E[g(X) \mid y]\)為取\(g(x)\)這個函數的期望值,故先把這個函數拿進來;而期望值是作加權平均,這個權重在此就是條件機率函數\(f(x \mid y)\),並對要做期望值的函數做相加/積分,也就是\(x\)的函數。

可以觀察上式條件期望值就是條件\(y\)的函數,當條件\(y\)改變時,樣本空間改變,因此機率分布,也就是\(x\)的範圍改變,最終期望值跟著改變。

\[ E[E[g(X) \mid Y]] = E[g(X)] \] 口訣為條件期望值做兩次,則條件可以拿掉。證明如下 \[ \begin{align*} E[g(X) \mid Y] &= \int^\infty_{-\infty} g(x) f(x \mid y)dx\\ &= \int^\infty_{-\infty} g(x) \frac{f_{X,Y}(x, y)}{f_Y(y)} dx\\ &= W(y) \quad \text{a funtion of } y\\ E[E[g(X) \mid Y]] &= E[W(y)]\\ &= \int^\infty_{-\infty} W(y) f_Y(y)dy\\ &= \int^\infty_{-\infty} \left[ \int^\infty_{-\infty} g(x) \frac{f_{X,Y}(x, y)}{f_Y(y) } dx \right] f_Y(y)dy\\ & \int^\infty_{-\infty}\int^\infty_{-\infty} g(x) f_{X, Y}(x, y) dxdy\\ &= E[g(X)] \end{align*} \]


ch4 變數變換

綱要

  • 單->單變數變換(連續型)的累積函數法、分割區間法
  • 雙->單變數變換(連續型)的累積函數法、公式法、動差法
  • 雙->雙變數變換(連續型)的雙變數轉換法
  • 聯合/邊際動差形成函數(JMGF/MMGF)與聯合/邊際特徵函數(JCF/MCF)
  • 隨機變數獨立的等價條件
  • 極值分布

變數變換

變數變換為機率的轉移,將舊的隨機變數\(X\)對應到新的隨機變數\(Y\),把那些機率合併起來,轉為\(Y\)的機率。 \[ S_X \overset{g(X) = Y}{\longrightarrow} S_Y \]


單->單變數變換(連續型)法1 - 累積函數法

題目給定新的隨機變數\(Y = g(X)\),欲求其PDF \(f_Y(y)\)。由於連續型的PDF不具有機率的意義,故先求CDF,透過反函數求得與\(X\)的關係,最後再微分得PDF。 \[ \begin{align*} F_Y(y) &\triangleq P(Y \leq y) = P(g(X) \leq y)\\ &= \begin{cases} P(X \leq g^{-1}(y)) & g(x) \text{ is increment function}\\ P(X \geq g^{-1}(y)) & g(x) \text{ is decreasing function} \end{cases}\\ &= \begin{cases} \int^{g^{-1}(y))}_{-\infty} f_X(x)dx\\ \int^\infty_{g^{-1}(y))} f_X(x)dx \end{cases}\\ f_Y(y) &= \frac{d}{dy}F_Y(y), y \in S_Y \end{align*} \]


單->單變數變換(連續型)法2 - 分割區間法

法1無法計算,為理論證明,法2偏向一般的計算考題 - 給定題目為非單調函數,解題步驟有以下3步

  1. 繪製\(Y = g(X)\),將圖形切割成數段單調函數區間\(Z_i\)
  2. 在每一單調區間\(Z_i\),計算\(f_{Y_i}(y)\),需要注意遞減函數需要加上絕對值,避免產生負號。 \[ f_{Y_i}(y) |dy| = f_X(x)dx \Rightarrow f_{Y_i}(y) = f_X(x) \Bigg| \frac{dx}{dy} \Bigg| = f_X(g_i^{-1}(y)) \Bigg| \frac{d(g_i^{-1}(y))}{dy} \Bigg| \]
  3. 將分段的\(f_{Y_i}(y)\)相加,需要注意"相同值域"的\(f_{Y_i}(y)\)才能相加。 \[ f_Y(y) = \sum^n_{i = 1} f_{Y_i}(y), y \in S_Y \]

雙->單變數變換\(Z = g(X, Y)\)(離散型)

題目較連續型簡單,也較少,直接求\(Z\)的單點機率即可,繪製\(S_X, S_Y, g(X, Y) = z\)值域圖,決定值域\(S_Z\)與累積區域\(R\),最後進行累加 \[ P_Z(z) = P(Z = z) = P(g(X, Y) = z) = \sum_x \sum_y f_{X,Y}(x, y), z \in R \]


雙->單變數變換\(Z = g(X, Y)\)(連續型)法1 - 累積函數法

繪製\(S_X, S_Y, g(X, Y) = z\)值域圖,決定值域\(S_Z\)與累積區域\(R\),最後進行積分 \[ \begin{align*} F_Z(z) &\triangleq P(Z \leq z)\\ &= P(g(X, Y) \leq z)\\ &= \int\int_R f_{X,Y}(x, y)dxdy\\ f_Z(z) &= \frac{dF_Z(z)}{dz}, z \in S_Z \end{align*} \]


雙->單變數變換\(Z = g(X, Y)\)(連續型)法2 - 公式法

以下3步為公式記憶的方式

  1. 首先觀察\(f_Z(z)\)單位\(1 / m\)\(f_{X, Y}(x, y)\)單位\(1 / m^2\)不合,因此在不失一般性之下對\(y\)做積分。
  2. \(x\)換成\(y, z\)的函數,即\(x = g(y, z)\)
  3. 由於第二步\(x\)做變數變換,因此需要乘上面積元素間的倍率,也就是Jacobian matrix \(\big| \frac{\partial x}{\partial z} \big|\) \[ \begin{align*} & Z = X + Y & f_Z(z) = \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z - y, y)dy\\ & Z = X - Y & f_Z(z) = \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z + y, y)dy\\ & Z = XY & f_Z(z) = \int^\infty_{-\infty} \frac{1}{|y|} \cdot f_{X, Y}(x = \frac{z}{y}, y)dy\\ & Z = \frac{X}{Y} & f_Z(z) = \int^\infty_{-\infty} |y| \cdot f_{X, Y}(x = zy, y)dy\\ \end{align*} \] 需要注意第4個公式要積分在分母的變數,計算上較容易。
  4. 要善用步階函數\(H( \cdot )\)來處理\(S_X, S_Y\)值域問題。

只證明公式法第1點,其他證明略省 \[ \begin{align*} F_Z(z) &= P(Z \leq z)\\ &= P(X + Y \leq z)\\ &= \int\int_R f_{X, Y}(x, y)dxdy\\ &= \int^\infty_{-\infty}\int^{Z - Y}_{-\infty} f_{X, Y}(x, y)dxdy\\ f_Z(z) &= \frac{dF_Z(z)}{dz}\\ &= \int^\infty_{-\infty} \frac{d}{dz} \Big( \int^{Z - Y}_{-\infty} f_{X, Y}(x, y)dx \Big) dy\\ &= \int^\infty_{-\infty} \Big| \frac{\partial (z - y)}{\partial z} \Big| f_{X, Y}(x = z - y, y)dy\\ &= \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z - y, y)dy \end{align*} \]


雙->單變數變換\(Z = g(X, Y)\)(連續型)法3 - 動差法

給定隨機變數\(X,Y\)彼此獨立,而\(Z = X + Y\),若PDF分別為\(f_X(z), f_Y(z)\),MGF分別為\(M_X(s), M_Y(s)\),CF分別為\(\phi_X(\omega), \phi_Y(\omega)\),則

  1. \(f_Z(z) = f_X(z) * f_Y(z)\)
  2. \(M_Z(s) = M_X(s) \cdot M_Y(s)\)
  3. \(\phi_Z(\omega) = \phi_X(\omega) \cdot \phi_Y(\omega)\)

第1點證明從法2 - 公式法出發 \[ \begin{align*} Z = X + Y, \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z - y, y)dy &= \int^\infty_{-\infty} 1 \cdot f_{X}(z - y) f_Y(y)dy\\ &= f_X(z) * f_Z(z)\\ Z = X - Y, \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z + y, y)dy &= \int^\infty_{-\infty} 1 \cdot f_{X}(z + y) f_Y(y)dy\\ &= f_X(-z) * f_Z(-z) \end{align*} \] 第2點證明複習ch3 獨立 ⇒ 不相關,but不相關 !⇒ 獨立兩隨機變數獨立的等價條件\(E[g(X) h(Y)] = E[g(X)]E[h(Y)]\) \[ M_Z(s) = E[e^{s(X + Y)}] = E[e^{sX} \cdot e^{sY)}] = E[e^{sX}] \cdot E[e^{sY)}] = M_X(s) \cdot M_Y(s) \] 特徵函數同理動差生成函數的推法 \[ \phi_Z(\omega) = E[e^{j\omega(X + Y)}] = E[e^{j\omega X} \cdot e^{j\omega Y}] = E[e^{j\omega X}] \cdot E[e^{j\omega Y}] = \phi_X(\omega) \cdot \phi_Y(\omega) \] 由Laplace Transform與Fourier Transform的性質互推這3點的性質 \[ M_Z(s) = \mathscr{F}\{ f_Z(z) \} = \mathscr{F}\{ f_X(z) * f_Y(z) \} = \mathscr{F}\{ f_X(z) \} \cdot \mathscr{F}\{ f_Y(z) \} = M_X(s) \cdot M_Y(s)\\ \phi_Z(\omega) = \mathscr{L}\{ f_Z(z) \} = \mathscr{L}\{ f_X(z) * f_Y(z) \} = \mathscr{L}\{ f_X(z) \} \cdot \mathscr{L}\{ f_Y(z) \} = \phi_X(\omega) \cdot \phi_Y(\omega) \]


雙->雙變數變換\(U = g(X, Y), V = h(X, Y)\)(連續型)

  1. \(U = g(x, y), V = h(x, y)\)求取反函數\(X = \phi(u, v), Y = \xi(u, v)\)這4個條件決定值域\(S_U, S_V\)
  2. \(f_{U,V} (u, v) = f_{X, Y}(x = \phi(u, v), y = \xi(u, v)) |J|\),做變數變換時需要乘上Jacobian。
    考慮積分一小塊JPDF才具有機率的意義,避免遞減函數讓面積產生負號,故加上絕對值 \[ f_{X,Y}|dxdy| \leftrightarrow f_{U, V}(u, v)|dudv| \] 其中微小面積\(|dxdy|\)\(|dudv|\)之間的比值稱為Jacobian \[ dxdy = |J|dudv, |J| = |\frac{\partial(x, y)}{\partial(u, v)}| = | \begin{vmatrix} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v}\\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v} \end{vmatrix}| \]

聯合/邊際動差形成函數(JMGF/MMGF)與聯合/邊際特徵函數(JCF/MCF)

ch3 動差形成函數(MGF)與特徵函數(CF)定義動差形成函數與特徵函數,給定隨機變數\(X,Y\)的JPDF \(f_{X, Y}(x, y)\),在此定義聯合動差形成函數(JMGF) \[ M(s_1, s_2) = E[e^{s_1 X + s_2 Y}] = \int^\infty_{-\infty} \int^\infty_{-\infty} e^{s_1 x} e^{s_2 y} f_{X, Y}(x, y) dxdy \] 上式即為\(2\)維的Laplace Transform。若令\(s_1 = 0\)或是\(s_2 = 0\),則JMGF會退化為單變數的邊際動差形成函數(MMGF) \[ M_X(s_1) = M(s_1, 0) = E[e^{s_1 X + 0}] = \int^\infty_{-\infty} \int^\infty_{-\infty} e^{s_1 x} f_{X, Y}(x, y) dxdy = \int^\infty_{-\infty} e^{s_1 x} f_X (x) dx \] 欲計算\(X\)\(Y\)各階聯合動差 \[ E[X^m Y^n] = \frac{ \partial^{m + n} }{\partial_{s_1}^m \partial_{s_2}^n} M(s_1, s_2) \Big|_{s_1 = s_2 = 0} \]
同理可定義聯合特徵函數(JCF) \[ \phi(\omega_1, \omega_2) = E[e^{j\omega_1 X + j\omega_2 Y}] = \int^\infty_{-\infty} \int^\infty_{-\infty} e^{j\omega_1 x} e^{j\omega_2 y} f_{X, Y}(x, y) dxdy \] 上式即為\(2\)維的Fourier Transform。若令\(\omega_1 = 0\)或是\(\omega_2 = 0\),則JCF會退化為單變數的邊際特徵函數(MCF) \[ \phi(\omega_1) = \phi(\omega_1, 0) = E[e^{j\omega_1 X + 0}] = \int^\infty_{-\infty} \int^\infty_{-\infty} e^{j\omega_1 x} f_{X, Y}(x, y) dxdy = \int^\infty_{-\infty} e^{j\omega_1 x} f_X (x) dx \] 欲計算\(X\)\(Y\)各階聯合動差 \[ E[X^m Y^n] = (-j)^{m + n} \frac{ \partial^{m + n} }{\partial_{\omega_1}^m \partial_{\omega_2}^n} \phi(\omega_1, \omega_2) \Big|_{\omega_1 = \omega_2 = 0} \]


隨機變數獨立的等價條件

可擴充ch3 獨立 ⇒ 不相關,but不相關 !⇒ 獨立中隨機變數獨立的等價條件 \[ \begin{align*} & X, Y \text{ are independent}\\ \Leftrightarrow\;& f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y) &\text{JPDF = MPDF · MPDF}\\ \Leftrightarrow\;& F_{X,Y}(x, y) = F_X(x) \cdot F_Y(y) &\text{JCDF = MCDF · MCDF}\\ \Leftrightarrow\;& E[g(X) \cdot h(Y)] = E[g(X)] \cdot E[h(Y)]\\ \Leftrightarrow\;& f_{X \mid Y}(x \mid y) = f_X(x)\\ \Leftrightarrow\;& f_{X \mid Y}(x \mid y) = f_Y(y)\\ \Leftrightarrow\;& M(s_1, s_2) = M_X(s_1) \cdot M_Y(s_2) &\text{JMGF = MMGF · MMGF}\\ \Leftrightarrow\;& \phi(\omega_1, \omega_2) = \phi_X(\omega_1) \cdot \phi_Y(\omega_2) &\text{JCF = MCF · MCF} \end{align*} \] 式(3)證明\(p \Rightarrow q\),同理式(6)、式(7) \[ \begin{align*} E[g(X) \cdot h(Y)] &\triangleq \int^\infty_{-\infty}\int^\infty_{-\infty} g(x)h(y)f_{X, Y}(x, y) dxdy\\ &= \int^\infty_{-\infty}\int^\infty_{-\infty} g(x)h(y)f_X(x) \cdot f_Y(y) dxdy\\ &= \int^\infty_{-\infty} g(x)f_X(x)dx \cdot \int^\infty_{-\infty} h(y)f_Y(y)dx\\ &= E[g(X)] \cdot E[h(Y)] \end{align*} \] 式(4)證明\(p \Rightarrow q\),同理式(5) \[ \begin{align*} f_{X \mid Y}(x \mid y) &\triangleq \frac{f_{X, Y}(x, y)}{f_Y(y)}\\ &= \frac{f_X(x) \cdot f_Y(y)}{f_Y(y)}\\ &= f_X(x) \end{align*} \]


極值分布

給定\(n\)個隨機變數\(X_1, X_2, \ldots, X_n\)獨立且其PDF為\(f_1(x_1), \ldots, f_n(x_n)\)、CDF為\(F_1(x_1), \ldots, F_n(x)\)。給定新的隨機變數為 \[ Y = \max(X_1, X_2, \ldots, X_n), Z = \min(X_1, X_2, \ldots, X_n) \] \(f_Y(y), f_Z(z)\)

解題步驟為先求CDF,並利用隨機變數獨立的性質將JCDF拆分為MCDF。 \[ \begin{align*} F_Z(z) &= P(Z \leq z)\\ &= P(\min(X_1, \ldots, X_n) \leq z)\\ &= 1 - P(\min(X_1, \ldots, X_n) > z)\\ &= 1 - P(X_1 > z, X_2 > z, \ldots, X_n > z)\\ &= 1 - P(X_1 > z) \cdot P(X_2 > z) \cdots P(X_n > z)\\ &= 1 - (\int^\infty_{z} f_1(x_1)dx_1) \cdot(\int^\infty_{z} f_2(x_2)dx_2) \cdots (\int^\infty_{z} f_n(x_n)dx_n)\\ \end{align*} \] 再來連續型對CDF微分就是PDF、離散型CDF相減就是PMF。 \[ \begin{align*} P_Z(z) &= F_Z(z) - F_Z(z - 1)\\ f_Y(z) &= \frac{dF_Z(z)}{dz} \end{align*} \]


ch5 離散型機率變數模型

綱要

  • 白努利分布 (1次白努利試驗)
  • 二項分布 (n次白努利試驗)
  • 波松分布 (二項分布的特例使\(n \to \infty, p \to 0, np \triangleq \lambda\))
  • 波松程序 (波松分布的廣義結果)
  • 幾何分布 (第1次成功為止)
  • 負二項分布 (第r次成功為止)
  • 多項式分布 (k個結果的多項試驗)

白努利試驗(Bernoulli Trial)

ch1 隨機試驗與機率空間中定義的隨機試驗,滿足3個條件

  1. 結果只有2種
  2. 每次試驗彼此獨立
  3. 每次試驗機率相同

舉例來說丟銅板、取後放回的隨機取球。


白努利分布(Bernoulli Distribution)/兩點分布(Two-point Distribution) \(X \sim B(1, p)\)

執行\(1\)次白努利試驗,成功的機率為\(p\),令隨便變數\(X\)為成功的次數,則白努利分布的PMF為 \[ f_X(x) = p^x (1 - p)^{1 - x}, S_X = \{0, 1\} \] 白努利分布即為執行一次白努利試驗,也就是二項分布在\(n = 1\)的特例,記為\(X \sim B(1, p)\)

依序計算白努利分布的動差生成函數、期望值、變異數,這三個重要的參數。 \[ \begin{align*} m_x(t) &= E[e^{tX}]\\ &= e^{t(0)} P(X = 0) + e^{t(1)} P(X = 1)\\ &= 1 \cdot (1 - p) + p \cdot e^t\\ &= 1 - p + p e^t\\ E[X] &= 1 \cdot P(X = 1) + 0 \cdot P(X = 0)\\ &= p\\ E[X^n] &= 1^n \cdot P(X = 1) + 0^n \cdot P(X = 0)\\ &= p\\ \mathrm{Var}(X) &= E[X^2] - (E[X])^2\\ &= p - p^2\\ &= p(1 - p) \end{align*} \]


二項分布(binomial distribution) \(X \sim B(n, p)\)

執行\(n\)次白努利試驗,成功的機率為\(p\),令隨機變數\(X\)為成功的次數,則二項分布的PMF為 \[ f_X(x) = C^n_x p^x (1 - p)^{n - x}, S_X = \{0, 1, 2, \ldots, n\} \] 首先先排座位,挑選\(x\)次成功次數,即為\(C^n_x\),再入座機率。

檢驗上式是否符合PMF總和機率為1的條件,使用到ch1 排列組合中的二項式展開。 \[ \sum_{x \in S_X} f_X(x) = \sum^n_{x = 0} C^n_x p^x (1 - p)^{n - x} = (p + 1 - p)^n = 1 \] 依序計算白努利分布的動差生成函數、期望值、變異數(期望值、變異數另一種算法 - MGF取ln再微分),這三個重要的參數。 \[ \begin{align*} M_X(t) &= E[e^{tX}]\\ &= \sum^n_{x = 0} e^{tx} f_X(x)\\ &= \sum^n_{x = 0} e^{tx} C^n_x p^x (1 - p)^{n - x}\\ &= \sum^n_{x = 0} C^n_x (p e^t)^x (1 - p)^{n - x}\\ &= (1 - p + p e^t)^n \quad \because (x + y)^n = \sum^n_{k = 0} C^n_k x^k y^{n-k}\\ \ln M_X(t) & = n \ln(1 - p + p e^t)\\ E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\ &= n \cdot \frac{pe^t}{1 - p + p e^t} \Bigg|_{t = 0}\\ &= np\\ \mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\ &= np \cdot \frac{e^t(1 - p + p e^t) - (e^t)(p e^t)}{(1 - p + p e^t)^2} \Bigg|_{t = 0}\\ &= np(1 - p) \end{align*} \] 最後探討模型之間的關係

  1. \(n\)個白努利分布的隨機變數獨立且同分布(iid),則隨機變數相加為二項分布。 \[ X_1, X_2, \ldots, X_n, \text{ where } X_i \sim B(1, p) \overset{\text{iid}}{\longrightarrow} X = X_1 + X_2 + \cdots + X_n \sim B(n, p) \] 由二項定義為執行\(n\)次白努利試驗,白努利分布為執行\(1\)次白努利試驗。
  2. 獨立的二項分布相加還是二項分布。 \[ X_1 \sim B(n_1, p), X_2 \sim B(n_2, p) \overset{\text{independent}}{\longrightarrow} X = X_1 + X_2 \sim B(n_1 + n_2, p) \] 可視為前\(n_1\)次白努利試驗,加上後\(n_2\)次白努利試驗。

波松分布(Poisson distribution) \(X \sim Po(\lambda), \lambda \triangleq np\)

當二項分布白努利試驗次數趨近無限大\(n \to \infty\)(一般\(n \geq 30\)),成功機率\(p \to 0\)(一般\(p \leq 10\)),而期望值\(E[X] = np \triangleq \lambda\)趨於定值 \[ \begin{align*} f_X(x) &= C^n_x p^x (1 - p)^{n - x}\\ &= \frac{n!}{x! (n - x)!} \left( \frac{\lambda}{n} \right)^x (1 - \frac{\lambda}{n})^{n- x}\\ &= \frac{\lambda^x}{x!} \left( \frac{n \cdot (n - 1) \cdots (n - k + 1)}{n \cdot n \cdots n} \right) \left( 1 - \frac{\lambda}{n} \right)^n \left( 1 - \frac{\lambda}{n} \right)^{-k} \end{align*} \] 將三式的\(n \to \infty\)後分別為 \[ \begin{align*} & \lim_{n \to \infty} \left( \frac{n \cdot (n - 1) \cdots (n - k + 1)}{n \cdot n \cdots n} \right) = 1 \cdot 1 \cdots 1 = 1\\ & \lim_{n \to \infty} \left( 1 - \frac{\lambda}{n} \right)^n = \lim_{n \to \infty} \left( 1 + \frac{(-\lambda)}{n} \right)^n = e^{-\lambda}\\ & \lim_{n \to \infty} \left( 1 - \frac{\lambda}{n} \right)^{-k} = (1)^{-k} = 1 \end{align*} \] 最後得波松分布的PMF為 \[ f_X(x) = \frac{e^{-\lambda} \lambda^x}{x!}, S_X(x) = \{0, 1, 2, \ldots, n\}, \lambda \triangleq np \] 舉例來說,在通訊傳輸,一次傳輸的bit十分巨大\(n = 100k\),且錯誤率極小\(p = 10^{-6}\),透過波松分布就可近似二項分布。 \[ C^n_x p^x (1 - p)^{n - x} \approx \frac{e^{-\lambda} \lambda^x}{x!}, \lambda \triangleq np \] 檢驗上式是否符合PMF總和機率為1的條件,使用到微積分自然對數的泰勒展開式。 \[ \sum_{x \in S_X} f_X(x) = \sum^n_{x = 0} \frac{e^{-\lambda} \lambda^x}{x!} = e^{-\lambda} \sum^n_{x = 0} \frac{\lambda^x}{x!} = e^{-\lambda} \cdot e^\lambda = 1 \] 依序計算波松分布的動差生成函數、期望值、變異數,這三個重要的參數。 \[ \begin{align*} M_X(t) &= E[e^{tX}]\\ &= \sum^n_{x = 0} e^{tx} f_X(x)\\ &= \sum^n_{x = 0} e^{tx} \frac{e^{-\lambda} \lambda^x}{x!}\\ &= e^{-\lambda} \sum^n_{x = 0} \frac{(\lambda e^{t})^x}{x!}\\ &= e^{-\lambda} e^{\lambda e^t} \quad \because e^k = \sum^n_{n = 0} \frac{k^n}{n!}\\ &= e^{\lambda (e^t - 1)}\\ \ln M_X(t) & = \lambda (e^t - 1)\\ E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\ &= \lambda e^t \Big|_{t = 0}\\ &= \lambda\\ \mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\ &= \lambda e^t \Big|_{t = 0}\\ &= \lambda \end{align*} \] 最後探討模型之間的關係,獨立的波松分布相加還是波松分布。 \[ X_1 \sim Po(\lambda_1), X_2 \sim Po(\lambda_2) \overset{\text{independent}}{\longrightarrow} X = X_1 + X_2 \sim Po(\lambda_1 + \lambda_2) \] 由於波松分布是二項分布的特例,因此"繼承"二項分布的模型之間的關係。


波松程序(Poisson process) - 與時間有關


已知在\((0, T)\)區間時間內共發生\(n\)個事件,則在\((t_1, t_2)\)區間的\(t\)時間內發生\(x\)個點(\(x < n\))的機率為何?
假設隨機程序為stationary,代表機率與絕對時間無關,只與相對時間長短有關,\(1\)個點落在\((t_1, t_2)\)內的機率為 \[ p = \frac{t}{T} \tag{1} \] \(x\)個點落在\(t\)的機率則為二項分布,假設將時間切割很細,切成每一小區段機率\(p\)很低的白努利分布,因此\(n \gg 1, T \gg t\),二項分布可近似於Poisson分布 \[ C^n_x p^x (1 - p)^{n - x} \approx \frac{e^{-np} (np)^x}{x!} \tag{2} \] 將式(1)帶入式(2),並定義單位時間的平均發生率\(\lambda = \frac{n}{T}\),可得在\((0,t)\)時間內發生的次數\(x\) \[ P(X = x) = \frac{e^{-n\frac{t}{T}} (n\frac{t}{T})^x}{x!} = \frac{e^{-\lambda t} (\lambda t)^x}{x!} \sim Po(\lambda t) \] 其中隨機程序\(X\)就是波松程序,可以視為Poisson分布的廣義結果,Poisson分布就是波松程序在\(t = 1\)時的特例。


幾何分布(Geometric distribution) \(X \sim G(p)\)

執行一連串成功機率\(p\)的白努利試驗,直到第\(1\)次成功為止的機率,為負二項分布在成功次數\(r = 1\)時的特例。有兩種可能的隨機變數

  1. 令直到第\(1\)次成功為止的執行次數\(X\) \[ f_X(x) = 1 \cdot p (1 - p)^{x - 1}, S_X = \{ 1, 2, \ldots\} \] 先排座位,前面\(x - 1\)項都是失敗,而最後一項是成功,因此只有一種可能,後入座機率。會稱為幾何分布,是因為\(f_X(x)\)具有幾何級數(geometric progression,又稱等比級數)的外型。
  2. 令直到第\(1\)次成功為止的失敗次數\(Y = X - 1\) \[ f_Y(y) = 1 \cdot p (1 - p)^y, S_Y = \{0, 1, \ldots\} \] 單純轉換變數。
    檢驗幾何分布(執行次數\(X\))是否符合PMF總和機率為1的條件,使用到等比級數。 \[ \sum_{x \in S_X} f_X(x) = \sum^n_{x = 0} p (1 - p)^{x - 1} = p + p(1 - p) + p(1 - p)^2 + \cdots = \frac{p}{1 - (1 - p)} = 1 \] 依序計算幾何分布(失敗次數\(Y\))的動差生成函數、期望值、變異數,這三個重要的參數。 \[ \begin{align*} M_Y(t) &= E[e^{tY}]\\ &= \sum^n_{y = 0} e^{ty} f_Y(y)\\ &= \sum^n_{y = 0} e^{ty} p (1 - p)^y\\ &= p\sum^n_{y = 0} ((1 - p)e^t)^y\\ &= p \left( \frac{1}{1 - (1 - p)e^t} \right), |(1 - p)e^t | < 1 \Rightarrow e^t < \frac{1}{1 - p}\\ &= \frac{p}{1 - (1 - p)e^t}, t > \ln(\frac{1}{1 - p})\\ \ln M_Y(t) & = \ln p - \ln(1 - (1 - p)e^t)\\ E[Y] &= \frac{d [\ln M_Y(t)]}{dt} \Bigg|_{t = 0}\\ &= \frac{(1 - p)e^t}{1 - (1 - p)e^t} \Big|_{t = 0}\\ &= \frac{1 - p}{1 - 1 + p}\\ &= \frac{1 - p}{p}\\ \mathrm{Var}(Y) &= \frac{d^2 [\ln M_Y(t)]}{dt^2} \Bigg|_{t = 0}\\ &= \frac{[(1 - p)e^t] [1 - (1 - p)e^t] - [(1 - p)e^t] [-(1 - p) e^t]}{(1 - (1 - p)e^t)^2} \Big|_{t = 0}\\ &= \frac{(1 - p)p + (1 - p)^2}{p^2}\\ &= \frac{1 - p}{p^2}\\ \end{align*} \] 由於失敗次數\(Y\)加上成功次數\(1\)等於執行次數\(X\),記為\(X = Y + 1\),因此 \[ \begin{align*} M_X(t) &= E[e^{tX}]\\ &= E[e^{t(Y + 1)}]\\ &= M_Y(t) e^t\\ E[X] &= E[Y] + 1\\ \mathrm{Var}(X) &= \mathrm{Var}(Y) \end{align*} \]

負二項分布(Negative binomial distribution) \(X \sim NB(p)\)

執行一連串成功機率\(p\)的白努利試驗,直到第\(r\)次成功為止的機率。有兩種可能的隨機變數

  1. 令直到第\(r\)次成功為止的執行次數\(X\) \[ f_X(x) = C^{x - 1}_{r - 1} \cdot p^r (1 - p)^{x - r}, S_X = \{ r, r+1, \ldots\} \] 先排座位,前面\(x - 1\)項中有\(r - 1\)項是成功,而最後一項是成功,因此只有$ C^{x - 1}_{r - 1}$種可能,後入座機率。
  2. 令直到第\(1\)次成功為止的失敗次數\(Y = X - r\) \[ f_Y(y) = C^{y + r - 1}_{r - 1} \cdot p^r (1 - p)^y, S_Y = \{0, 1, \ldots\} \] 單純轉換變數。
    檢驗負二項分布(執行次數\(X\))是否符合PMF總和機率為1的條件,使用到ch1 排列組合中微積分的二項式級數。 \[ \begin{align*} \sum_{x \in S_X} f_X(x) &= \sum^n_{x = r} C^{x - 1}_{r - 1} \cdot p^r (1 - p)^{x - r}\\ &= C^{r - 1}_{r - 1} p^r + C^{r}_{r - 1} p^r (1 - p) + C^{r + 1}_{r - 1} p^r (1 - p)^2 + \cdots\\ &= p^r + rp^r(1 - p) + \frac{r(r + 1)}{2} p^r (1 - p)^2 + \cdots\\ &= p^r \left[ 1 + r(1 - p) + \frac{r(r + 1)}{2} (1 - p)^2 + \cdots \right]\\ &= p^r \left[ 1 + [-r][-(1 - p)] + \frac{[-r][-r - 1]}{2!} [-(1 - p)]^2 + \cdots \right]\\ &= p^r [1 - (1 - p)]^{-r}\\ &= p^r p^{-r} = 1 \end{align*} \] 此分布會被稱為"負"二項的原因,是因為存在\([1 - (1 - p)]^{-r}\)的"負"次方的二項式級數。
    依序計算負二項分布(失敗次數\(Y\))的動差生成函數、期望值、變異數,這三個重要的參數。 \[ \begin{align*} M_Y(t) &= E[e^{tY}]\\ &= \sum^n_{y = 0} e^{ty} f_Y(y)\\ &= \sum^n_{y = 0} e^{ty} C^{y + r - 1}_{r - 1} \cdot p^r (1 - p)^y\\ &= \sum^n_{y = 0} C^{-r}_y \cdot p^r [(-1) \cdot (1 - p) \cdot e^t]^y \quad\because C^{-r}_y = (-1)^y C^{y + r - 1}_{r - 1}\\ &= p^r \sum^n_{y = 0} C^{-r}_y p^r [-(1 - p) e^t]^y\\ &= p^r (1 - (1 - p) e^t)^{-r} \quad\because (1 + x)^k = \sum^\infty_{n = 0} C^k_n x^n, |x| < 1\\ &= \left( \frac{p}{1 - (1 - p)e^t} \right)^r , t > \ln(\frac{1}{1 - p})\\ \ln M_Y(t) & = r\ln p - r \ln(1 - (1 - p)e^t)\\ E[Y] &= \frac{d [\ln M_Y(t)]}{dt} \Bigg|_{t = 0}\\ &= r \left( \frac{(1 - p)e^t}{1 - (1 - p)e^t} \right) \Big|_{t = 0}\\ &= r \left( \frac{1 - p}{1 - (1 - p)} \right)\\ &= r \left( \frac{1 - p}{p} \right)\\ \mathrm{Var}(Y) &= \frac{d^2 [\ln M_Y(t)]}{dt^2} \Bigg|_{t = 0}\\ &= r \left( \frac{[(1 - p)e^t] [1 - (1 - p)e^t] - [(1 - p)e^t] [-(1 - p) e^t]}{(1 - (1 - p)e^t)^2} \right) \Big|_{t = 0}\\ &= r \left( \frac{(1 - p)p + (1 - p)^2}{p^2} \right)\\ &= r \left( \frac{1 - p}{p^2} \right)\\ \end{align*} \] 由於失敗次數\(Y\)加上成功次數\(1\)等於執行次數\(X\),記為\(X = Y + r\),因此 \[ \begin{align*} M_X(t) &= E[e^{tX}]\\ &= E[e^{t(Y + r)}]\\ &= M_Y(t) e^{rt}\\ E[X] &= E[Y] + r\\ \mathrm{Var}(X) &= \mathrm{Var}(Y) \end{align*} \] 最後探討模型之間的關係,若\(n\)個幾何分布的隨機變數獨立且同分布(iid),則隨機變數相加為負二項分布。 \[ X_1, X_2, \ldots, X_r, \text{ where } X_i \sim G(p) \overset{\text{iid}}{\longrightarrow} X = X_1 + X_2 + \cdots + X_n \sim NB(r, p) \]

多項式分布(Multinomial distribution) \(\mathbf{X} \sim MN(n, p_1, p_2, \ldots, p_k)\)

ch5 白努利試驗(Bernoulli Trial)其中一項定義為"結果只有2種",若將其推廣結果為\(k\)種,則稱為多項試驗(multinomial trials)。執行\(n\)次多項試驗,成功的機率個別為\(p_1, p_2, \ldots p_k\),令隨便向量\(\mathbf{X} = [X_1, X_2, \ldots, X_k]\)為個別隨機變數成功的次數,則多項式分布的PMF為 \[ P(X_1 = x_1, X_2, = x_2, \ldots, X_k = x_k) = \frac{n!}{x_1!x_2! \cdots x_k!} \cdot p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k} \] 先排座位,根據ch1 排列組合中不盡相異物的排列數,再入座機率。

依序計算多項式分布的結合動差生成函數、單變數的期望值、單變數的變異數,這三個重要的參數。 \[ \begin{align*} M_{\mathbf{X}}(t_1, t_2, \ldots, t_k) &= E[e^{t_1 X_1} \cdot e^{t_2 X_2} \cdots e^{t_k X_k}]\\ &= \sum_{x_1 \in X_1} \sum_{x_2 \in X_2} \cdots \sum_{x_1 \in X_k} e^{t_1 x_1} \cdot e^{t_2 x_2} \cdots e^{t_k x_k} \left( \frac{n!}{x_1!x_2! \cdots x_k!} \cdot p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k} \right)\\ &= \sum_{x_1 \in X_1} \sum_{x_2 \in X_2} \left( \frac{n!}{x_1!x_2! \cdots x_k!} \right) [(p_1 e^{t_1})^{x_1}] [(p_2 e^{t_2})^{x_2}] \cdots [(p_k e^{t_k})^{x_k}]\\ &= (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n\\ E[X_1] &= \frac{\partial}{\partial t_1} (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)}\\ &= (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n \cdot p_1 e^{t_1} \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)}\\ &= n(p_1 + p_2 + \cdots + p_k)^{n - 1} p_1\\ &= np_1\\ E[X_1^2] &= \frac{\partial^2}{\partial t_1^2} (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)}\\ &= n(n - 1) (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^{n - 2}(p_1 e^{t_1})(p_1 e^{t_1})\\ &\quad\;+ n(p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^{n - 1} \cdot p_1 e^{t_1} \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)}\\ &= n(n - 1)p_1^2 + np_1\\ \mathrm{Var}(X_1) &= E[X_1^2] - E[X_1]^2\\ &= ( n(n - 1)p_1^2 + np_1) - (np_1)^2\\ &= np_1 (1 - p_1) \end{align*} \] 觀察上式中\(E[X_1], \mathrm{Var}(X_1)\)與二項分布的期望值與變異數相同,此為多項試驗退化為白努利試驗的結果,取決於觀測者不同的觀察角度,舉例來說同一個骰子觀測者A觀察骰子有6種可能結果,屬於多項試驗,而觀測者B只在乎骰子點數一點有無出現次數,結果從6種退化成只有2種,屬於白努利試驗。

最後計算共變異數與相關係數。 \[ \begin{align*} \mathrm{Cov}(X_1 X_2) &= E[X_1, X_2] - E[X_1] E[X_2]\\ &= \frac{\partial^2}{\partial t_1 t_2} (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)} -(np_1)(np_2)\\ &= n(n - 1)p_1 p_2 -(np_1)(np_2)\\ &= -np_1 p_2\\ \rho_{X_1, X_2} &= \frac{\mathrm{Cov}(X_1 X_2)}{\sigma_{X_1} \sigma_{X_2}}\\ &= \frac{-np_1 p_2}{ \sqrt{np_1 (1 - p_1)} \sqrt{np_2 (1 - p_2)} }\\ &= -\sqrt{ \frac{p_1 p_2}{(1 - p_1)(1 - p_2)} } \end{align*} \] 由原關係\(X_1 + X_2 = n\)可看出當\(X_1\)增加,則在\(n\)固定之下,\(X_2\)必減少,因此呈現負相關,共變數與相關係數皆為負值。


ch6 連續型機率變數模型

綱要

  • 均勻分布
  • 高斯/常態分布
  • 求解任意高斯函數區間機率 - 先標準化再查表
  • 指數分布 (等待1次事件的時間、兩次事件發生的間隔)
  • gamma分布 (等待n次事件的時間)
  • 卡方分布 (標準常態分佈的平方)
  • 無記憶性有離散型的幾何分布、連續型的指數分布
  • 二維結合高斯分布的MPDF、CPDF、JMGF
  • n維結合高斯分布線性組合仍是n維結合高斯分布且獨立與不相關等價

均勻分布(Uniform distribution) \(X \sim U[a, b]\)

隨機變數\(X\)的PDF為 \[ f_X(x) = \begin{cases} \frac{1}{b - a} , & a \leq x \leq b\\ 0, &\text{elsewhere} \end{cases} \] 依序計算均勻分布的動差生成函數、期望值、變異數,這三個重要的參數。 \[ \begin{align*} M_X(t) &= E[e^{tX}]\\ &= \int^b_a e^{tx} f_X(x)dx\\ &= \int^b_a e^{tx} \left( \frac{1}{b - a} \right)dx\\ &= \frac{1}{b - a} \frac{1}{t} (e^{tb} - e^{ta})\\ E[X] &= \int^b_a x f_X(x)dx\\ &= \int^b_a x \left( \frac{1}{b - a} \right) dx\\ &= \frac{1}{2} \left( \frac{1}{b - a} \right) (b^2 - a^2)\\ &= \frac{a + b}{2} \qquad\ldots\text{midpoint}\\ \mathrm{Var}(X) &= E[X^2] - (E[X])^2\\ &= \int^b_a x^2 \left( \frac{1}{b - a} \right) dx - \frac{a + b}{2}\\ &= \frac{b^2 + ab + a^2}{3} - \frac{a + b}{2}\\ &= \frac{(a - b)^2}{12} \qquad\ldots\frac{(\text{interval})^2}{12} \end{align*} \] 任意隨機變數\(X\)的CDF\(F_X(x)\)為連續函數,則經過ch4 單->單變數變換(連續型)法1 - 累積函數法,隨機變數\(Y\)必為均勻分布。 \[ \begin{align*} F_Y(y) &= P(Y \leq y)\\ &= P(F_X(x) \leq y)\\ &= P(X \leq F^{-1}_X(y))\\ &= F_X(F^{-1}_X(y))\\ &= y\\ f_Y(y) &= \frac{d}{dy}F_Y(y) = 1, 0 \leq y \leq 1 \sim U[0, 1] \end{align*} \] 在應用分面,計算機生成的均勻分布\(Y \sim U[0, 1]\),經過適當的變數變換\(X = F^{-1}(Y)\)後,就可以生成任意機率分布的CDF \(F(x)\)


高斯/常態分布(Normal/Gaussian distribution) \(X \sim N(\mu, \sigma^2)\)

對白努利試驗而言,當\(n \to \infty, p \to 0, \lambda \triangleq np\)時二項分布可以近似於Poisson分布,而另一種近似的函數就是高斯分布,根據De Moivre-Laplace定理,當\(n p (1 - p) \gg 1\)時,則是事件發生率為 \[ C^n_x p^x (1 - p)^{n - x} \approx \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}, \mu \triangleq np, \sigma \triangleq \sqrt{np(1 - p)} \] 因此定義高斯/常態分佈為隨機變數\(X\)的PDF \[ f_X(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \] 其中\(\mu\)稱為位置參數,為眾數(機率最大)、中位數(剛好把機率分半)、平均數;\(\sigma\)稱為形狀參數,為標準差,決定PDF的胖瘦。

檢驗上式是否符合PDF總和機率為1的條件,積分時做變數變換將指數上面的東西"打包"成一單變數,並使用到極座標的積分技巧 \[ \begin{align*} \int^\infty_{-\infty} f_X(x) dx &= \int^\infty_{-\infty} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}} dx\\ & \text{set } u = \frac{x - \mu}{\sqrt{2}\sigma}, du = \frac{dx}{\sqrt{2} \sigma}, dx = \sqrt{2} \sigma du\\ &= \int^\infty_{-\infty} \frac{1}{\sqrt{2\pi} \sigma} e^{-u^2} (\sqrt{2} \sigma du)\\ &= \frac{1}{\sqrt{\pi}} \int^\infty_{-\infty} e^{-u^2}du\\ &= \frac{1}{\sqrt{\pi}} \sqrt{\int^\infty_{-\infty} e^{-u^2}du \cdot \int^\infty_{-\infty} e^{-w^2}dw}\\ &= \frac{1}{\sqrt{\pi}} \sqrt{\int^{2\pi}_0 \int^\infty_0 e^{-r^2} rdrd\theta}\\ &= \frac{1}{\sqrt{\pi}} \cdot \sqrt{\pi}\\ &= 1 \end{align*} \] 依序計算高斯分布的動差生成函數、期望值、變異數,這三個重要的參數。 \[ \begin{align*} M_X(t) &= E[e^{tX}]\\ &= \int^\infty_{-\infty} e^{tx} f_X(x)\\ &= \int^\infty_{-\infty} e^{tx} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}} dx\\ &= \int^\infty_{-\infty} e^{ \frac{-1}{2\sigma^2}\{-2\sigma^2 tx\} } \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{1}{2\sigma^2} \{ (x^2 -2\mu x + \mu^2 \}} dx\\ &= \int^\infty_{-\infty} \frac{1}{\sqrt{2\pi} \sigma} e^{ \frac{-1}{2 \sigma^2} \{ x^2 - 2(\mu + \sigma^2 t)x \} } \cdot e^{ \frac{-1}{2 \sigma^2} (\mu^2)} dx\\ &= \frac{1}{\sqrt{2\pi}\sigma} \int^\infty_{-\infty} e^{ \frac{-1}{2 \sigma^2} \{ x - (\mu + \sigma^2 t)\}^2 } dx \cdot e^{\mu t + \frac{1}{2} \sigma^2 t^2}\\ &= e^{\mu t + \frac{1}{2} \sigma^2 t^2}\\ \ln M_X(t) & = \mu t + \frac{1}{2} \sigma^2 t^2\\ E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\ &= \mu + \sigma^2 t \Big|_{t = 0}\\ &= \mu\\ \mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\ &= \sigma^2 \Big|_{t = 0}\\ &= \sigma^2 \end{align*} \] 最後探討模型之間的關係,若\(n\)個獨立的高斯分布相加還是高斯分布。 \[ X_1, X_2, \ldots, X_n, X_i \sim N(\mu_i, \sigma_i^2) \overset{\text{independent}}{\longrightarrow} X = X_1 + X_2 + \cdots X_n\sim N(\sum^n_{i = 1} \mu_i, \sum^n_{i = 1} \sigma_i^2) \] 現實中許多隨機現象\(X\)本身雖不具有常態分布,但經過ch4 變數變換單變數轉換,對其取對數\(Y = \ln(X)\)後,就會表現出常態分布的性質,稱為對數常態分布(Log-Normal distribution)


高斯/常態分布的其他性質

高斯轉換\(X \sim N(\mu, \sigma^2)\)經過線性運算\(Y = aX + b\)依然是高斯分布\(N(a\mu + b, a^2 \sigma^2)\) \[ \begin{align*} M_Y(t) &= E[e^{tY}]\\ &= E[e^{t(aX + b)}]\\ &= e^{tb} E[e^{(at) X}]\\ &= e^{tb} M_X(at)\\ &= e^{tb} e^{\mu (at) + \frac{1}{2} \sigma^2 (at)^2}\\ &= e^{(a\mu + b) + \frac{1}{2} (a^2 \sigma^2) t^2} \end{align*} \] 因此就可定義高斯分布的標準化 \[ Z = \frac{X - \mu}{\sigma} \] 將任意高斯經過標準化後化為\(Z \sim N(0, 1)\),而\(Z \sim N(0, 1)\)稱為標準常態分布或是Z分布,其CDF稱為phi function \[ \Phi(z) = f_X(Z \geq x) = \int^\infty_{x} \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}dz \] phi function的性質為對y軸對稱(\(\mu = 0\)),因此\(\Phi(-z) = 1 - \Phi(z), \Phi(0) = \frac{1}{2}\),而phi function的補事件就是Q function \(Q(z) = 1 - \Phi(z)\),積分範圍為標準常態分佈的尾端機率(tail probability),在通訊領域會大量用到。

欲計算任意高斯分布\(X \sim N(\mu, \sigma^2)\)的區間機率\(P(a < x < b)\),首先做標準化後化為標準常態分布,再來查Phi function的表。 \[ \begin{align*} P(a < x < b) &= P\left(\frac{a - \mu}{\sigma} < \underbrace{\frac{x - \mu}{\sigma}}_{Z \sim N(0, 1)} < \frac{b - \mu}{\sigma} \right)\\ &= \Phi(\frac{b - \mu}{\sigma}) - \Phi(\frac{a - \mu}{\sigma}) \end{align*} \] 若phi function算出來是負的,則使用對稱性質\(\Phi(-z) = 1 - \Phi(z)\),將其轉換為正的phi function才可以查到表。


指數分布(Exponential distribution)\(X \sim E(\lambda)\)

波松程序(Poisson process) - 與時間有關提及,對波松程序而言,在\((0,t)\)秒時間內發生的次數\(x\)呈現波松分布 \[ P(X = x) = \frac{e^{-\lambda t} (\lambda t)^x}{x!} \sim Po(\lambda t), \lambda : \text{mean occurrence rate} \]
首先令隨機變數\(T\)為兩件事情的間隔時間,由於連續型隨機變數單點機率無意義,所以先求其CDF,為\((0,t)\)時間內至少一次事件發生的機率\(P(T \leq t)\),使用補事件改為\(1 - P(T > t)\),也就是說在\((0,t)\)時間內沒有任何事件發生,也就是發生的次數\(x = 0\)的波松分布,並對CDF微分可得PDF。 \[ \begin{align*} F_T(t) &= P(T \leq t)\\ &= 1 - P(T > t)\\ &= 1 - P(\text{nothing happens in } (0, t))\\ &= 1 - P(X = 0), X \sim Po(\lambda t)\\ &= 1- \frac{e^{-\lambda t} (\lambda t)^0}{0!}\\ &= 1 - e^{-\lambda t}\\ f_T(t) &= \frac{d F_T(t)}{dt} = \lambda e^{-\lambda t} \end{align*} \] 因此定義指數分布,其隨機變數\(X\)的PDF遵循 \[ f_X(x) = \lambda e^{-\lambda x}, x > 0, \lambda > 0 \] 其中隨機變數\(X\)代表等待一次需要花的時間,而\(\lambda\)為事件的平均發生率(mean occurrence rate,單位是"次/時間"),由於單位時間內發生的次數\(Y\)\(E[Y] = \lambda\),因此兩次事件發生的時間間隔即為其倒數\(E[X] = \frac{1}{E[X]} = \frac{1}{\lambda}\)

依序計算指數分布的動差生成函數、期望值、變異數,這三個重要的參數。 \[ \begin{align*} M_X(t) &= E[e^{tX}]\\ &= \int^\infty_{-\infty} e^{tx} f_X(x)\\ &= \int^\infty_0 e^{tx} \cdot \lambda e^{-\lambda x} dx\\ &= \lambda \int^\infty_0 e^{(t - \lambda)x} dx, t - \lambda < 0\\ &= \frac{\lambda}{\lambda - t}, t < \lambda\\ \ln M_X(t) & = \ln \lambda - \ln(\lambda - t)\\ E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\ &= 0 - \frac{-1}{\lambda - t} \Big|_{t = 0}\\ &= \frac{1}{\lambda}\\ \mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\ &= \frac{0 - 1(-1)}{(\lambda - t)^2} \Big|_{t = 0}\\ &= \frac{1}{\lambda^2} \end{align*} \] 指數分布可視為gamma分布在\(\alpha = 1, \beta = \frac{1}{\lambda}\)時的特例 \[ Gamma(1,\frac{1}{\lambda}) = \frac{x^{1 - 1} e^{-\frac{x}{1/\lambda}} }{ \Gamma(1) \cdot (\frac{1}{\lambda})^1 } = \lambda e^{-\lambda x} = E(\lambda) \] 同理動差生成函數、期望值、變異數 \[ \begin{align*} M_X(t) &= \frac{1}{(1 - \beta t)^\alpha} = \frac{1}{(1 - \frac{1}{\lambda} t)^1} = \frac{\lambda}{\lambda - t}\\ E[X] &= \alpha \beta = 1 \cdot \frac{1}{\lambda} = \frac{1}{\lambda}\\ \mathrm{Var}(X) &= \alpha \beta^2 = 1 \cdot \left( \frac{1}{\lambda} \right)^2 = \frac{1}{\lambda^2} \end{align*} \]


gamma分布 \(X \sim Gamma(\alpha, \beta)\)

gamma分布,其隨機變數\(X\)的PDF遵循 \[ f_X(x) = \frac{x^{\alpha - 1} e^{-\frac{x}{\beta}} }{ \Gamma(\alpha) \cdot \beta^\alpha }, x \geq 0, \alpha > 0, \beta > 0 \]

gamma函數的定義與性質 \[ \begin{align*} & \Gamma(x) = \int^\infty_0 t^{x - 1} e^{-t} dt\\ & \Gamma(x + 1) = \Gamma(x),\; \Gamma(1) = \Gamma(2) = 1,\; \Gamma(\frac{1}{2}) = \sqrt{\pi}\\ & \Gamma(n + 1) = n!, n \in \mathbb{N} \end{align*} \]

其中\(\alpha\)稱為形狀(shape)參數、\(\frac{1}{\beta} = \lambda\)稱為尺度(scale)參數。意義在於等待\(\alpha\)次事件發生的時間,為指數函數的廣義推廣,因此就可探討模型之間的關係,\(\alpha\)個獨立且同分布(iid)的指數分布相加後會是gamma分布 \[ X_1, X_2, \ldots, X_\alpha, X_i \sim E(\lambda) \overset{\text{iid}}{\longrightarrow} X = X_1 + X_2 + \cdots X_n\sim Gamma(\alpha, \frac{1}{\lambda}) \] 依序計算gamma分布的動差生成函數、期望值、變異數,這三個重要的參數。 \[ \begin{align*}M_X(t) &= E[e^{tX}]\\ &= \int^\infty_{-\infty} e^{tx} f_X(x)\\ &= \int^\infty_0 e^{tx} \cdot \frac{x^{\alpha - 1} e^{-\frac{x}{\beta}} }{ \Gamma(\alpha) \cdot \beta^\alpha } dx\\ &= \frac{1}{\Gamma(\alpha) \beta^\alpha} \int^\infty_0 x^{\alpha - 1} e^{-\left( \frac{1}{\beta} - t\right)x} dx\\ &= \frac{1}{\Gamma(\alpha) \beta^\alpha} \int^\infty_0 \frac{z^{\alpha - 1}}{\left( \frac{1}{\beta} - t \right)^{\alpha - 1}} e^{-z} dz \cdot \frac{1}{\frac{1}{\beta} - t}\\ &= \frac{1}{\Gamma(\alpha) \beta^\alpha} \cdot \frac{1}{\left( \frac{1}{\beta} - t \right)^\alpha} \cdot \Gamma(\alpha)\\ &= \frac{1}{(1 - \beta t)^\alpha}, t < \frac{1}{\beta}\\ \ln M_X(t) & = -\alpha \ln(1 - \beta t)\\ E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\ &= -\alpha\frac{-\beta}{1 - \beta t} \Big|_{t = 0}\\ &= \alpha \beta\\ \mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\ &= \frac{0 - (\alpha \beta)(-\beta)}{(1 - \beta t)^2} \Big|_{t = 0}\\ &= \alpha \beta^2 \end{align*} \]


卡方分布(chi-square distribution) \(X \sim \chi^2(n)\)

卡方分布,其隨機變數\(X\)的PDF遵循 \[ f_X(x) = \frac{x^{\frac{n}{2} - 1} e^{-\frac{x}{2}} }{ \Gamma(\frac{n}{2}) \cdot 2^{\frac{n}{2}} }, x \geq 0, n \in \mathbb{N} \] 記為\(X \sim \chi^2(n)\),其中\(n\)稱為自由度(degree of freedom),\(n \in \mathbb{N}\),卡方分布可視為gamma分布在\(\alpha = \frac{n}{2}, \beta = 2\)時的特例。

探討模型之間的關係,\(n\)個標準常態分布的平方相加後,會是卡方分布 \[ Z_1, Z_2, \ldots, Z_n, Z_i \sim N(0, 1) \longrightarrow X = Z_1^2 + Z_2^2 + \cdots Z_n^2 \sim \chi^2(n) \] 使用ch4 單->單變數變換(連續型)法2 - 分割區間法證明自由度是1的卡方分布。 \[ \begin{align*} & \text{goal : find } Z = X^2, \text{where } X \sim N(0, 1)\\ & Z_1 : Z \leq 0\\ & X = Z^2 \to Z = - \sqrt{x}\\ & f_{X_1}(y) = f_Z(z = - \sqrt{x}) \Bigg| \frac{d(- \sqrt{x})}{dy} \Bigg| = \frac{1}{\sqrt{2\pi}} e^{-\frac{(-\sqrt{x})^2}{2}} \cdot \frac{1}{2\sqrt{x}}\\ &\qquad\;\ = \frac{1}{2 \sqrt{2\pi} \sqrt{x}} e^{-\frac{x}{2}}, x \geq 0\\ & Z_1 : Z \geq 0\\ & X = Z^2 \to Z = \sqrt{x}\\ & f_{X_2}(y) = f_Z(z = \sqrt{y}) \frac{d(- \sqrt{x})}{dx} = \frac{1}{\sqrt{2\pi}} e^{\frac{(-\sqrt{y})^2}{2}} \cdot \frac{1}{2\sqrt{x}}\\ &\qquad\;\ = \frac{1}{2 \sqrt{2\pi} \sqrt{x}} e^{-\frac{x}{2}}, x \geq 0\\ & f_X(x) = f_{X_1}(x) + f_{X_2}(x) = \frac{1}{\sqrt{2\pi} \sqrt{x}} e^{-\frac{x}{2}} = \frac{x^{\frac{1}{2} - 1} e^{-\frac{x}{2}} }{ \Gamma(\frac{1}{2}) \cdot 2^{\frac{1}{2}} }, x \geq 0, X \sim \chi^2(1) \end{align*} \]


波松程序的解題流程

綜合上述觀念,波松程序解題流程第一步是由題意求得平均時間的發生率\(\lambda\) (次數/時間),再來求以下3個

  1. 次數(離散) - 在時間\((t, t + T)\)內事件發生次數 \(X \sim Po(\lambda T)\)
  2. 時間(連續) - 等待\(1\)次事件發生的時間(兩次事件發生的間隔) \(T \sim E(\lambda)\)
  3. 時間(連續) - 等待\(n\)次事件發生的時間 \(T \sim Gamma(n, \frac{1}{\lambda})\)

無記憶性(memoryless)

無記憶性代表過去發生的事件與現在無關,定義為 \[ P(X \geq s + t \mid X \geq s ) = P(X \geq t) \] 舉例來說客戶等待\(s\)秒的前提下,還需要多等\(t\)秒的機率,與之前是否等待\(s\)秒無關。 \[ \begin{align*} \frac{P(X \geq s + t)}{P( X \geq s)} &= \frac{\sum^\infty_{x = s + t + 1} p(1 - p)^{x - 1}}{\sum^\infty_{x = s + 1} p(1 - p)^{x - 1}} = \frac{(1 - p)^{s + t}}{(1 - p)^s} = (1 - p)^t = P(X \geq t)\\ \frac{P(X \geq s + t)}{P( X \geq s)} &= \frac{\int^\infty_{s + t} \lambda e^{-\lambda x }dx}{\int^\infty_s \lambda e^{-\lambda x }dx } = \frac{e^{-\lambda(s + t)}}{e^{-\lambda s}} = e^{-\lambda t} = P(X \geq t) \end{align*} \] 根據上述定義可證明離散型的幾何分布\(X \sim G(p)\)無記憶性,因為前\(r\)次失敗都不影響下次可能會失敗或是成功的機率,因為每次試驗都是獨立的白努利試驗;而連續型的指數分布\(X \sim E(\lambda)\)無記憶性,因為事件的平均發生率(mean occurrence rate) \(\lambda\)是常數,而不是時間的函數,故不隨時間改變。


失敗率(failure rate)

\[ R(x) \triangleq \lim_{\Delta \to 0} \frac{P(x \leq X \leq x + \Delta x \mid X \geq x)}{\Delta x} \] 在時間點\(x\),物品仍然存活的條件之下,在故障發生在下一刻\(x + \Delta x\)的條件機率,也就是單位時間的事件發生率 \[ \begin{align*} R(x) &\triangleq \lim_{\Delta \to 0} \frac{P(x \leq X \leq x + \Delta x \mid X \geq x)}{\Delta x}\\ &= \lim_{\Delta \to 0} \frac{1}{\Delta x} \frac{P(x \leq X \leq x + \Delta x)}{P(X \geq x)}\\ &= \lim_{\Delta \to 0} \frac{1}{\Delta x} \frac{f(x) \Delta x}{1 - P(X \leq x)}\\ &= \frac{f(x)}{1 - F(x)} = \frac{f(x)}{\overline{F}(x)} \end{align*} \] 失敗率為PDF除以CDF的補事件
將指數函數帶入上式計算失敗率 \[ R(x) = \frac{f(x)}{\overline{F}(x)} = \frac{\lambda e^{-\lambda x}}{1 - (1 - e^{-\lambda x})} = \lambda = \text{const.} \] 代表物件今天故障與明天故障的機率是相同的,所以前面才會推得指數分布是無記憶性。


結合高斯分布

二維結合高斯分布\(S = X, Y \sim BN(\mu_1, \sigma_1^2, \mu_2, \sigma_2^2, \rho)\)的PDF為 \[ f_{X,Y}(x, y) = \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2\rho \left(\frac{x - \mu_1}{\sigma_1} \right) \left(\frac{y- \mu_2}{\sigma_2} \right) + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right) \] 欲計算二維結合高斯分布的邊際機率密度函數(MPDF) \(f_X(x), f_Y(y)\),由於計算量太大,需要半背半推,依序與\(X\)無關的常數提出來、補上數字使其變成完全平方式,接下來與常態分布相關的常數放在外面,最後後面那項的指數積分剛好與分母消掉得到答案。 \[ \begin{align*} f_Y(y) &= \int^\infty_{-\infty} \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2\rho \left(\frac{x - \mu_1}{\sigma_1} \right) \left(\frac{y- \mu_2}{\sigma_2} \right) + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right) dx\\ &= \frac{\exp\left( -\frac{1}{2(1 - \rho^2)}\left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right)}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \int^\infty_{-\infty} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2 \left(\frac{x - \mu_1}{\sigma_1} \right) \rho \left(\frac{y- \mu_2}{\sigma_2} \right) + \rho^2 \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right) dx \cdot \exp\left(\frac{1}{2(1 - \rho^2)} \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \rho^2 \right)\\ &= \frac{1}{\sqrt{2\pi} \sigma_2} \exp\left(-\frac{1}{2} \left( \frac{y - \mu_2}{\sigma_2} \right)^2 \right) \end{align*} \] 因此可推得二維高斯分布的邊際機率密度函數就是一維高斯分布\(Y \sim N(\mu_2, \sigma_2)\),同理\(f_X(x)\)

欲計算二維結合高斯分布的條件機率密度函數(Conditional PDF) \(f(x \mid y)\)、條件期望值\(E[X \mid Y]\)、條件變異數\(\mathrm{Var}(X \mid Y)\) \[ \begin{align*} f(x \mid y) &= \frac{f_{X, Y}(x, y)}{f_Y(y)}\\ &= \frac{\frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2\rho \left(\frac{x - \mu_1}{\sigma_1} \right) \left(\frac{y- \mu_2}{\sigma_2} \right) + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right)}{\frac{1}{\sqrt{2\pi} \sigma_2} \exp\left(-\frac{1}{2} \left( \frac{y - \mu_2}{\sigma_2} \right)^2 \right)}\\ &= \cdots\\ &= \frac{1}{\sqrt{2\pi} \sigma_1 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)\sigma_1^2} \left[ x - \left(\mu_1 + \rho \frac{\sigma_1}{\sigma_2}(y - \mu_2 )\right) \right]^2 \right)\\ &\therefore \text{rv's } X \mid Y \sim N\left( \underbrace{\mu_1 + \rho \frac{\sigma_1}{\sigma_2}(y - \mu_2 )}_{= E[X \mid Y]},\quad \underbrace{\sigma_2^2 (1 - \rho^2)}_{= \mathrm{Var}(X \mid Y)} \right) \end{align*} \] 二維結合高斯分布的結合動差形成函數(JMGF)(證明省略,不會考)為 \[ M_{X, Y}(t_1, t_2) = \exp\left( \mu_X t_1 + \mu_Y t_2 + \frac{1}{2}(\sigma_X^2 t^2 + 2\rho \sigma_X \sigma_Y t_1 t_2 + \sigma_Y^2 t^2) \right) \] 給定隨機向量\(\mathbf{X} = [X_1, X_2, \ldots, X_n]^T\),屬於n維結合高斯分布,若隨機向量\(\mathbf{Y}\)\(\mathbf{X}\)的線性組合\(\mathbf{Y} = \mathbf{Ax} + \mathbf{b}\),則\(\mathbf{Y}\)也為結合高斯分布(證明省略),並且其平均值\(\mathbf{\mu}_Y\)與變異數\(\mathbf{C}_Y\) \[ \begin{align*} \mathbf{\mu}_Y &= E[\mathbf{Y}]\\ &= E[\mathbf{Ax} + \mathbf{b}]\\ &= \mathbf{A} E[\mathbf{X}] + \mathbf{b}\\ &= \mathbf{A} \mathbf{\mu}_X + \mathbf{b}\\ \mathbf{C}_Y &= E[(\mathbf{Y} - \mathbf{\mu}_Y) (\mathbf{Y} - \mathbf{\mu}_Y)]\\ &= E[\mathbf{A} (\mathbf{X} - \mathbf{\mu}_X) (\mathbf{X} - \mathbf{\mu}_X) \mathbf{A}^T]\\ &= \mathbf{A} E[(\mathbf{X} - \mathbf{\mu}_X) (\mathbf{X} - \mathbf{\mu}_X)] \mathbf{A}^T\\ &= \mathbf{A} \mathbf{C}_X \mathbf{A}^T \end{align*} \] 參照ch3 獨立 ⇒ 不相關,but不相關 !⇒ 獨立,但有兩個例外(獨立與不相關等價),一是二位元傳輸、二是結合高斯分布,二維結合高斯分布的證明如下 - 給定二維結合高斯分布的隨機變數\(X, Y\)不相關,因此相關係數\(\rho = 0\) \[ \begin{align*} f_{X, Y}(x, y) &= \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2\rho \left(\frac{x - \mu_1}{\sigma_1} \right) \left(\frac{y- \mu_2}{\sigma_2} \right) + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right)\\ &= \frac{1}{2\pi \sigma_1 \sigma_2} \exp\left( -\frac{1}{2} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right)\\ &= \left( \frac{1}{\sqrt{2\pi} \sigma_1} \exp\left(-\frac{1}{2} \left( \frac{x - \mu_1}{\sigma_1} \right)^2 \right) \right) \cdot \left( \frac{1}{\sqrt{2\pi} \sigma_2} \exp\left(-\frac{1}{2} \left( \frac{y - \mu_2}{\sigma_2} \right)^2 \right) \right)\\ &= f_X(x) \cdot f_Y(y) \end{align*} \]


ch7 機率不等式、取樣、極限定理

綱要

  • 馬可夫不等式 - 單尾端的機率有上限(平均值除以\(a\))
  • 柴比雪夫不等式 - 雙尾端的機率有上限(變異數除以\(\epsilon\)的平方)
  • 樣本平均數、樣本變異數、大數法則、中央極限定理

馬可夫不等式(Markov's inequality)

若隨機變數\(X\)符合2個條件 - 值域大於0 \(S_X = \{ x \leq 0 \}\)、平均值\(\mu\)存在,則 \[ P(X \geq a) \leq \frac{\mu}{a} \] 代表大於\(a\)單尾端的機率有上限,此上限為平均值除以\(a\)
證明 \[ \begin{align*} \mu &\triangleq \int^\infty_0 x \cdot f_X(x) dx\\ &= \int^a_0 x f_X(x)dx + \int^\infty_a x f_X(x)dx\\ &\geq \int^\infty_a x f_X(x)dx \quad \because \int^a_0 x f_X(x)dx \geq 0\\ &\geq a \int^\infty_a f_X(x)dx \quad x \in (a, \infty)\\ &= a P(X \geq a) \end{align*} \]


柴比雪夫不等式(Chebyshev's inequality)

若隨機變數\(X\)符合2個條件 - 平均值\(\mu\)存在、變異值\(\sigma^2\)存在,則 \[ P( \mid X - \mu \mid \geq \epsilon ) \leq \frac{\sigma^2}{\epsilon^2} \] 代表向左右延伸\(\epsilon\)以外雙尾端的機率有上限,此上限為變異數除以\(\epsilon\)的平方。根據補空間概念,上式可推得\(\epsilon\)以內中心區域的機率有下限為\(P( \mid X - \mu \mid \leq \epsilon ) \geq 1 - \frac{\sigma^2}{\epsilon^2}\) \[ \begin{align*} \sigma^2 &\triangleq \int^\infty_{-\infty} (x - \mu)^2 \cdot f_X(x) dx\\ &= \int^{\mu - \epsilon}_{-\infty} (x - \mu)^2 \cdot f_X(x) dx + \int^{\mu + \epsilon}_{\mu - \epsilon} (x - \mu)^2 \cdot f_X(x) dx + \int^\infty_{\mu + \epsilon} (x - \mu)^2 \cdot f_X(x) dx\\ &\geq \int^{\mu - \epsilon}_{-\infty} (x - \mu)^2 \cdot f_X(x) dx + \int^\infty_{\mu + \epsilon} (x - \mu)^2 \cdot f_X(x) dx \quad \because \int^{\mu + \epsilon}_{\mu - \epsilon} (x - \mu)^2 \cdot f_X(x) dx \geq 0\\ &\geq \epsilon^2 \int^{\mu - \epsilon}_{-\infty} f_X(x) dx + \epsilon^2 \int^\infty_{\mu + \epsilon} f_X(x) dx \quad \because X < \mu - \epsilon \to X - \mu < -\epsilon \to (X - \mu)^2 > \epsilon^2\\ &= \epsilon^2 P( \mid X - \mu \mid \geq \epsilon ) \end{align*} \]


樣本平均數、樣本變異數、大數法則

簡單隨機抽樣(simple random sampling)是指從母體任意抽取\(n\)個單位作為樣本\(X_1, X_2, \ldots, X_n\),每個簡單樣本獨立且同分布(idd),其分布等同母體分布。

樣本平均數 \[ E[\overline{X}] = E[\frac{1}{n} (X_1 + X_2 + \ldots + X_n)] = \frac{1}{n}(n\mu)= \mu \] 樣本變異數 \[ \mathrm{Var}(\overline{X}) = \mathrm{Var}(\frac{1}{n} (X_1 + X_2 + \ldots + X_n)) = \frac{1}{n}(\mathrm{Var}(X_1) + \cdots + \mathrm{Var}(X_n)) = \frac{1}{n^2} (n\sigma^2) = \frac{\sigma^2}{n} \] 當測量越精確,\(n \to \infty\),樣本變異數\(\mathrm{Var}(\overline{X}) = \lim_{n \to \infty} \frac{\sigma^2}{n} = 0\),代表每次實驗都會是平均值\(\mu\)樣本平均數趨近於母體的平均值,稱為大數法則(large number rule)


中央極限定理

任意母體\(X(\mu, \sigma^2)\)取出來的簡單樣本\(X_1, X_2, \ldots, X_n\),做樣本平均數 \[ \overline{X}_n = \frac{1}{n} (X_1 + X_2 + \cdots X_n) \sim X(\mu, \sigma^2) \] 再做標準化 \[ \overline{Z}_n = \frac{\overline{X}_n - \mu}{\frac{\sigma}{\sqrt{n}}} \sim X'(0, 1) \] \(n\)趨近無限大會是標準常態分佈 \[ \overline{Z}_n \overset{n \to \infty}{\longrightarrow} N(0, 1) \] 考題有2種,若\(X_1, X_2, \ldots, X_n\)取自母體\(X(\mu, \sigma^2)\)的一組簡單樣本

  1. 平均型 \[ \lim_{n \to \infty} \overline{X}_n = \lim_{n \to \infty} \left( \frac{1}{n} (X_1 + X_2 + \cdots X_n) \right) \sim N(\mu, \frac{\sigma^2}{n}) \]
  2. 總和型 \[ \lim_{n \to \infty} S_n = \lim_{n \to \infty} (X_1 + X_2 + \cdots X_n) \sim N(n\mu, n\sigma^2) \] 由於呈現高斯分布,所以利用ch6 高斯/常態分布的其他性質求解高斯函數區間機率 - 先標準化再查表。