# 考研筆記 - 機率 (偉文高成)
###### tags: `考研` `機率` `數學`
###### 撰寫時間 : 2022/09/12 ~ 2022/10/28
## 機率模型的考前背誦表
|機率模型|PMF $f_X(x)$|MGF $m_X(t)$|$E[X]$|$\mathrm{Var}(X)$|模型關係|
|:-:|:-:|:-:|:-:|:-:|:-:|
|白努利分布 $X \sim B(1, p)$|$p^x (1 - p)^{1 - x}$|$1 - p + p e^t$|$p$|$p(1 - p)$|X|
| 二項分布 $X \sim B(n, p)$|$C^n_x p^x (1 - p)^{n - x}$|$(1 - p + p e^t)^n$|$np$|$np(1 - p)$|$\Sigma B(1, p) = B(n, p)$、當$n \to \infty, p \to 0$時二項分布近似成波松分布|
|波松分布 $X \sim Po(\lambda), \lambda \triangleq np$|$\frac{e^{-\lambda} \lambda^x}{x!}$|$e^{\lambda (e^t - 1)}$|$\lambda$|$\lambda$|$Po(\lambda_1) + Po(\lambda_2) = Po(\lambda_1 + \lambda_2)$|
|幾何分布 $X \sim G(p)$|$1 \cdot p (1 - p)^{x - 1}$|$\frac{p e^t}{1 - (1 - p)e^t}$|$\frac{1}{p}$|$\frac{1 - p}{p^2}$|n次白努利試驗第1次成功的機率|
|負二項分布 $X \sim NB(p)$|$C^{x - 1}_{r - 1} \cdot p^r (1 - p)^{x - r}$|$\left( \frac{p e^t}{1 - (1 - p)e^t} \right)^r$|$r \left( \frac{1}{p} \right)$|$r \left( \frac{1 - p}{p^2} \right)$|$\Sigma G(p) = NB(r, p)$|
|均勻分布 $X \sim U[a, b]$|$\frac{1}{b - a}$|$\frac{1}{b - a} \frac{1}{t} (e^{tb} - e^{ta})$|$\frac{a + b}{2}$|$\frac{(\text{interval})^2}{12}$|設任意機率模型的CDF為轉換函數則轉換後為$U \sim [0,1]$|
|高斯分布 $X \sim N(\mu, \sigma^2)$|$\frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}$|$e^{\mu t + \frac{1}{2} \sigma^2 t^2}$|$\mu$|$\sigma^2$|$\Sigma N(\mu_i, \sigma_i^2) = N(\sum^n_{i = 1} \mu_i, \sum^n_{i = 1} \sigma_i^2)$|
|指數分布 $X \sim E(\lambda)$|$\lambda e^{-\lambda x}$|$\frac{\lambda}{\lambda - t}$|$\frac{1}{\lambda}$|$\frac{1}{\lambda^2}$|X|
|gamma分布 $X \sim Gamma(\alpha, \beta)$|$\frac{x^{\alpha - 1} e^{-\frac{x}{\beta}} }{ \Gamma(\alpha) \cdot \beta^\alpha }$|$\frac{1}{(1 - \beta t)^\alpha}$|$\alpha \beta$|$\alpha \beta^2$|$\Sigma E(\lambda) = Gamma (\alpha, \frac{1}{\lambda})$|
---
## ch1 機率導論
### 綱要
- 機率空間由樣本空間、事件的集合、機率測度三部分組合
- 3大公理與相關定理的證明
- 獨立且乘法原則、互斥或加法原則
- 重複取/不重複取的排列與組合
- 多項式展開 - 二項式公式、二項式級數
- 條件機率 - 樣本空間改變
- 獨立事件與燈泡問題
- 全機率定理與貝式定理
---
### 集合定義與運算
1. 集合有2種表示式,一種是列舉式,把所有元素都列舉出來;另一種是描述式,描述所有集合內的共同的特性,記為$A = \{x \in \mathbb{N} \mid 1 < x < 10\}$。
2. 宇集(universe),為討論問題領域中,所有合乎選擇條件的元素所形成的集合,記為$S$或是$\Omega$。
3. $n(A)$代表集合$A$中元素(element)的個數。
4. 集合有相減的運算,即為差集(difference),$A - B = A \cap \overline{B}$,但集合沒有相加的運算。
5. 冪集(power set),記為$2^A \triangleq \{ X \mid X \subseteq A \}$,代表包含於集合$A$中所有子集合$X$所形成的集合,其中包括集合$A$本身與空集合$\phi$。而欲計算冪集元素的個數,可以使用"獨立且"乘法原則,在原集合$A$中每一個元素分為可取和不取的兩種情形,因此$n(2^A) = 2^{n(A)}$。
---
### 隨機試驗與機率空間
1. 隨機試驗有兩個比較重要的定義 - 在相同條件下可以重複進行,隨機試驗的結果事前不可預知。
2. 機率空間(probability space)$(\Omega, F, P)$為人類定義出來,用於描述機率問題的,分為3個部分
- 第一項$\Omega$為樣本空間(sample space),一隨機試驗所有可能發生結果組成的集合。
- 第二項$F$為樣本空間的冪集(power set),集合內的元素為事件(event)$A$,屬於樣本空間的子集合$A \subseteq S$
- 第三項$P$為機率測度(probability measure),一個從集合$F$映至實數域$R$的函數,$P : F \to R$。每個事件都被此函數賦予一個0和1之間的機率值。
---
### 機率的三大公理(Kolmogorov axioms)
一隨機試驗的樣本空間$S$,$A$為$S$中的任一事件,因此所有事件的集合即為樣本空間的冪集$F$,定義機率測度$P : F \to R$為樣本空間的冪集映射至實數的實係數函數,並滿足以下三大機率公理
1. $P(S) = 1$,機率總和為一。
2. $P(A) \in \mathbb{R}, P(A) \geq 0, \forall A \in F$,任一事件的機率為非負實數。
3. 若事件$A_n, n = 1,2,3,\ldots$彼此互斥(mutually exclusive),即事件交集為空集合$A_i \cap A_j = \phi, i \neq j$,則滿足加法原理$P(\underset{n}{\cup} A_n) = \sum_n P(A_n)$。
根據三大機率公理就可以證明出很多機率的定理,大部分的證明幾乎都是用到是第三點公理。例如機率的排容原理$P(A \cup B) = P(A) + P(B) - P(A \cup B)$的證明
1. 列出互斥
$$
(A \cap B) \cap (\overline{A} \cap B) \cap (A \cap \overline{B}) = \phi
$$
2. 列出或
$$
(A \cap B) \cup (\overline{A} \cap B) \cup (A \cap \overline{B}) = A \cup B
$$
3. 使用加法原則
$$
\begin{align*}
& \;\quad P((A \cap B) \cup (\overline{A} \cap B) \cup (A \cap \overline{B})) = P(A \cup B)\\
&= P(A \cap B) + P(\overline{A} \cap B) + P(A \cap \overline{B})\\
&= \{ P(A \cap B) + P(A \cap \overline{B}) \} + \{ P(A \cap B) + P(\overline{A} \cap B) \} - P(A \cap B)\\
&= P(A) + P(B) - P(A \cup B)
\end{align*}
$$
---
### 計數原理有4個技巧
1. **(獨立且)乘法原則**<br>
若兩事件$A$和$B$,為獨立事件$P(A \cap B) = P(A)P(B)$,$A$有$n$個元素,$B$有$m$個元素,則由$A$且$B$中各取一個元素,共有$n \times m$種結果。
2. **(互斥或)加法原則**<br>
若兩事件$A$和$B$,為互斥事件$A \cap B = \phi$,$A$有$n$個元素,$B有$$m$個元素,則由$A$或$B$中取一個元素,共有$n + m$種結果。
3. **樹狀圖**<br>
適用於一試驗重複執行或是多試驗循序執行。
4. **排列與組合**<br>
當隨機試驗可能的結果太多,則採用此技巧。分為可重複取或是不可重複取;有論次序的排列與沒有論次序的組合。
---
### 排列組合
- **排列 - 重複取** - $n$物取$r$個重複排列有$n^r$種情形。
- **排列 - 不重複取** - $n$物取$r$個不重複排列有$P^n_r = n(n - 1)\cdots (n - r + 1) = \frac{n!}{(n - r)!}$種情形。
- **排列 - 不盡相異物的排列數** - 有$n$件物品含有$k$種不同種類,分別個數為$n_1, n_2, \ldots, n_k$,則$n_1 + n_2 + \cdots n_k = n$。若將$n$件物品排列,則其排列數為$\frac{n!}{n_1! n_2! \cdots n_k!}$。
- **多項式展開** <br>
1. 二項式公式
$$
(x + y)^n = \sum^n_{k = 0} \frac{n!}{k!(n - k)!} x^k y^{n-k}
$$
可以視為有$k$顆紅球$x$與$n - k$顆藍球$y$做不盡相異物的排列數。
2. 同理可擴展至多項式公式
$$
(x_1 + x_2 + \cdots + x_k)^n = \sum_{0 \leq n_i \leq n} \frac{n!}{n_1!n_2!\cdots n_k!} x_1^{n_1} x_2^{n_2} \cdots x_k^{n_k}
$$
3. 微積分的二項式級數(binomial coefficients)與排列組合無關,是利用馬克勞林級數(以0展開的泰勒級數)證明。
$$
\begin{align*}
(1 + x)^k &= \sum^\infty_{n = 0} \frac{f^{(n)} (0)}{n!} x^n\\
&= \frac{f(0)}{0!} + \frac{f'(0)}{1!}x + \frac{f''(0)}{2!}x^2 + \frac{f'''(0)}{3!}x^3 + \cdots\\
&= 1 + kx + \frac{k(k - 1)}{2!}x^2 + \frac{k(k - 1)(k - 2)}{3!}x^3 + \cdots\\
&= \sum^\infty_{n = 0} \underbrace{\frac{k(k - 1) \cdots (k - n + 1)}{n!}}_{\text{bimonial coefficients}} x^n , |x| < 1\\
&=\sum^\infty_{n = 0} \begin{pmatrix}k\\ n\end{pmatrix} x^n\\
\end{align*}
$$
- **組合 - 不重複取** - $n$物取$r$個不重複組合有$C^n_r = \frac{1}{r!}P^n_r = \frac{n!}{(n - r)!r!}$種情形,就是將不重複取的排列$P^n_r$除上重複計算的排列數$r!$,重要的組合公式有巴斯卡定理$C^n_k = C^{n - 1}_{k - 1} + C^{n - 1}_k$。
- **組合 - 分組、分堆** - 若組別不同(論次序)則可以視為排列,若組別相同(不論次序)則可以視為組合。
- **組合 - 重複取** - $n$物取$r$個重複組合有$H^n_r = C^{n + r - 1}_r = \frac{(n + r - 1)!}{(n - 1)!r!}$種情形,直觀可以理解有$r$個相同的圈圈要分給$n$個人,就是把原本$r$個相同的圈圈加上$n - 1$條分隔線,做**不盡相異物的排列數**。
---
### 條件機率
1. 若事件$A, B$為樣本空間$S$的部分集合,且$P(B) > 0$,在事件$B$已發生的條件之下,事件$A$發生的條件機率定義為
$$
P(A \mid B) = \frac{P(A \cap B)}{P(B)}
$$
其意義等同於縮小原本樣本空間$S$變成$B$,再從新的樣本空間$B$中找$A \cap B$的事件。
2. 將上式移向得
$$
P(A \cap B) = P(A \mid B)P(B),\; P(A \cap B) = P(B \mid A)P(A)
$$
可知欲求$A, B$交集的機率就是將條件機率乘上原本條件機率分母的樣本空間。
3. 條件機率$P(A \mid B)$跟原來的機率$P(A)$無法比較,因為樣本空間已經改變,除了以下特例
$$
A \subseteq B \Rightarrow P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{P(A)}{P(B)} \geq P(A), \because P(B) > 0
$$
4. 條件機率依然滿足機率的三大公理,只是樣本空間改變而已。
---
### 獨立事件
對於兩機率不為0的事件$A,B$而言
$$
\begin{align*}
& \text{events } A \text{ and } B \text{ are independent}\\
\Leftrightarrow\; & P(A \mid B) = P(A) \tag{1}\\
\Leftrightarrow\; & P(B \mid A) = P(B) \tag{2}\\
\Leftrightarrow\; & P(A \cap B) = P(A)P(B) \tag{3}
\end{align*}
$$
式(1)與式(2)代表條件無用 - 在事件$B$發生有無的前提都與事件A會發生的機率無關;式(3)為[ch1 計數原理有4個技巧](#計數原理有4個技巧)乘法原理,代表$A,B$交集機率等於個別機率相乘,可以由式(1)、式(2)移項推導$P(A \mid B) = P(A) \Rightarrow \frac{P(A \cap B)}{P(B)} = P(A)$。
> $A$與$B$互斥 $\Leftrightarrow A \cap B = \phi \Leftrightarrow P(A \cap B) = P(\phi) = 0$
定理為
$$
\begin{align*}
& \text{events } A \text{ and } B \text{ are independent}\\
\Leftrightarrow\; & \text{events } A \text{ and } \overline{B} \text{ are independent} \tag{4}\\
\Leftrightarrow\; & \text{events } \overline{A} \text{ and } B \text{ are independent} \tag{5}\\
\Leftrightarrow\; & \text{events } \overline{A} \text{ and } \overline{B} \text{ are independent} \tag{6}\\
\end{align*}
$$
式(6)證明$p \Rightarrow q$如下,使用"夾擊法"的證明技巧
$$
\begin{align*}
& \text{events } A \text{ and } B \text{ are independent} \Rightarrow\; P(A \cap B) = P(A)P(B)\\
\because\; & P(A) = P(A \cap B) + P(A \cap \overline{B})\\
\therefore\; & P(A \cap \overline{B}) = P(A) - \underbrace{P(A \cap B)}_{= P(A)P(B)} = P(A)(1 - P(B)) = P(A \cap \overline{B}) = P(A)P(\overline{B})\\
& P(A \cap \overline{B}) = P(A)P(\overline{B}) \Rightarrow \text{events } A \text{ and } \overline{B} \text{ are independent}\\
\end{align*}
$$
需要注意3個以上的事件獨立,不只要兩個事件成對獨立$P(A \cap B) = P(A)P(B), \ldots$,更要保證三個事件彼此也是獨立$P(A \cap B \cap C) = P(A)P(B)P(C)$,同理推廣到$n$個事件互為獨立的條件,由此可知獨立事件的條件是分嚴格。
<br><br>
獨立事件的應用為燈泡開關的迴路問題,若串聯元件$A,B$彼此獨立,則導通機率為$P(A \cap B) = P(A)P(B)$;若並聯元件$A,B$彼此獨立,則導通機率為$P(A \cup B) = P(A) + P(B) - P(A \cap B) = P(A) + P(B) - P(A)P(B)$。
---
### 全機率定理
事件集$\{ E_1, E_2, \ldots, E_n \}$,若集合中任二個事件為互斥$E_i \cap E_j = \phi$,且$E_1 \cup E_2 \cup \ldots \cup E_n = S$樣本空間,稱為分割(partition)或是互斥無遺漏集合。對任意事件$A$恆有
$$
\begin{align*}
P(A) &= P(A \cap E_1) + P(A \cap E_2) + \cdots + P(A \cap E_n)\\
&= P(A \mid E_1)P(E_1) + P(A \mid E_2)P(E_2) + \cdots + P(A \mid E_n)P(E_n)
\end{align*}
$$
白話來說分割就是把樣本空間拆成一塊塊拼圖,全機率定理就是把拼圖一塊塊拼出來,再將其轉成個別條件機率,在實際情況中事件的全貌$P(A)$不容易取得,需要靠條件機率的一塊塊拼圖$P(A \mid E_i)P(E_i)$得知事情全貌。
---
### 貝氏定理
適用於題目給$P(A \mid E_i)$,求$P(E_k \mid A)$,事件和條件對調的問題。若$\{ E_1, E_2, \ldots, E_n \}$為樣本空間$S$的一組分割,則任意機率大於0的事件$A$恆有
$$
P(E_i \mid A) = \frac{P(E_i \cap A)}{P(A)} = \frac{P(A \mid E_i) P(E_i)}{\sum^n_{j = 1} P(A \mid E_j)P(E_j)}
$$
分子使用條件機率推得,分母使用全機率定理推得,一般貝氏定理都是使用樹狀圖分析求得。
---
## ch2 隨機變數
### 綱要
- 隨機變數是將"抽象"的樣本空間映射到"具體"、可執行加減乘除運算的實數系的"函數"
- 隨機變數根據值域類型分為離散型、連續型、混合型
- 離散型隨機變數的PMF與CDF、連續型隨機變數的PDF與CDF
- 離散型與連續型的多隨機變數
- 條件機率函數與獨立隨機變數
---
### 隨機變數
隨機變數不具有隨機性,也不是一個變數,隨機變數$X$是函數,把定義域上"抽象"的樣本空間$S$中每一個樣本點$\omega$,映射到值域上"具體"、可執行加減乘除運算的實數系$\mathbb{R}$上,記為$X : S \to S_X, S_X = \{ X(\omega) \mid \omega \in S, X \in \mathbb{R}\}$。隨機變數是一個劃時代的概念,從古典機率僅能執行集合運算,透過隨機變數將抽象的集合映射到實數系,到近代機率可以執行加減乘除、微分、積分運算。需要注意原機率空間$\{S, E, P( \cdot)\}$透過隨機變數$X$映射到新的機率空間$\{S_X, E_X, P_X( \cdot)\}$依然滿足機率的三大公理。
<br><br>
根據隨機變數值域$S_X$的種類又可分為3種
1. 若$S_X$集合元素有有限個或是無限但可數個,則稱為離散型隨機變數。
2. 若$S_X$集合元素有無限不可數,則稱為連續型隨機變數。
3. 若$S_X$集合元素一部分可數,另一部分不可數,則稱為混合型隨機變數。
---
### 離散型隨機變數
1. **機率質量函數(PMF, probability mass function)**<br>
PMF在$x = x_0$的值為單點機率
$$
f_X(x = x_0) = P_X(X = x_0)
$$
並且PMF滿足以下2個性質
1. $0 \leq f_X(x) \leq 1$,PMF在0和1的區間。
2. $\sum_X f_X(x) = 1$,所有$x$點的PMF總和為1。
> PMF常使用單位脈衝來表示,假設有樣本點$x_1, x_2, \ldots$,則PMF $f_X(x) = \sum c_n \delta(x - x_i)$。
2. **累積分布函數(CDF, cumulative distribution function)**<br>
設離散型隨機變數$X$的PMF為$f_X(x)$,則CDF則是把$x_0$點以前(包括$x_0$該點)的機率"累積"起來。
$$
F_X(x_0) = P_X(X \leq x_0) = \sum_{s \leq x_0} f_X(s)
$$
離散型隨機變數的CDF具有以下7個性質
1. $0 \leq F_X(x) \leq 1$,由於所有$x$點的PMF總和為1,所以CDF最大值只會是1。
2. $F_X(\infty) = P(x \leq \infty) = 1$為必然事件;$F_X(-\infty) = P(x \leq -\infty) = 0$為不可能事件。
3. $x_1 < x_2 \rightarrow F_X(x_1) \leq F_X(x_2)$,非遞減的階梯函數。
4. $P(X = x_0) = f_X(x_0) = F_X(x) - \lim_{\epsilon \to 0} F_X(x - \epsilon)$,欲求該點機率值,等於CDF的函數值減去左極限值。
5. $P(X > x_0) = 1 - F_X(x_0)$,若原機率難求,可利用補事件的概念來求。
6. $P(a < X \leq b) = F_X(b) - F_X(a)$,需要注意$X$的範圍下限是開區間,上限是閉區間,可用CDF的定義$F_X(x_0) = P_X(X \leq x_0)$去證明。
7. 若離散型隨機變數的值域有樣本點$x_1, x_2, \ldots$,則$F_X(x_i) = \lim_{h \to 0} F_X(x_i + h), \forall i = 1, 2,\ldots$,代表離散型CDF右極限值等於函數值,屬於右連續函數。
---
### 連續型隨機變數
1. **機率密度函數(PDF, probability density function)**<br>
給定連續型隨機變數$X$,且$S_X$是其值域,$E$為$S_X$的任一部分集合,則機率密度函數$f_X(x)$滿足
$$
P_X(E) = \int_{x \in E} f_X(x) dx
$$
PDF具有以下性質
1. $f_X(x) \geq 0$,PDF在0以上,曲線高度可以大於1,因為不像離散型隨機變數一樣,連續型隨機變數的單點機率沒有意義。
2. $\int^\infty_{-\infty} f_X(x)dx = 1$,所有$x$點積分起來的PDF總和為1。
3. $P(x = x_0) = \int^{x_0}_{x_0} f(x)dx = 0$,單點機率為0,無任何意義。
4. **PDF本身不是機率,需要積分才有機率的意義**,連續型隨機變數最基本的單位為$P(x_0 < X \leq x_0 + dx) = f_X(x_0)dx$。
5. 由於單點機率無意義,故機率上下限小於和小於等於,大於和大於等於同義,$P(a < X <b) = P(a \leq X <b) = P(a < X \leq b) = P(a \leq X \leq b) = \int^b_a f_X(x)dx$。
2. **累積分布函數(CDF, cumulative distribution function)**<br>
設連續型隨機變數$X$的PDF為$f_X(x)$,則CDF則是把$x_0$點以前的PDF"積分"起來。
$$
F_X(x_0) = P_X(X \leq x_0) = \int^x_{-\infty} f_X(t)dt
$$
連續型隨機變數的CDF具有以下5個性質
1. $0 \leq F_X(x) \leq 1$,PDF $f_X(x)$與$x$軸所圍出來的區域面積最大為1。
2. $F_X(\infty) = P(x \leq \infty) = 1$為必然事件;$F_X(-\infty) = P(x \leq -\infty) = 0$為不可能事件。
3. $x_1 < x_2 \rightarrow F_X(x_1) \leq F_X(x_2)$,非遞減的連續函數。
4. $P(a < X \leq b) = F_X(b) - F_X(a)$
5. $\frac{dF_X(x)}{dx} = f_X(x)$,由[微積分基本定理(一)](https://www.youtube.com/watch?v=mIh469HPpXs)可得對CDF微分為PDF。
---
### 離散型多隨機變數
在解題上,第一步是畫出**結合機率分析表**。
1. **結合機率質量函數(joint PMF, joint probability mass function)**<br>
若有2個離散型的隨機變數$X,Y$,則JPMF在$x=x_0, y= y_0$的值為單點機率
$$
f_{X, Y}(x = x_0, y = y_0) = P_X(X = x_0, Y = y_0)
$$
JPMF類似PMF滿足以下2個性質
1. $0 \leq f_{X,Y}(x, y) \leq 1$,JPMF在0和1的區間。
2. $\sum_X \sum_Y f_{X,Y}(x, y) = 1$,所有JPMF上二維單點機率總和為1。
2. **邊際機率質量函數(marginal PMF, marginal probability mass function)**<br>
將不要的變數全部相加,將兩個隨機變數退化為一個隨機變數。
$$
f_X(x) = \sum_Y f_{X, Y}(x, y)\\
f_Y(y) = \sum_X f_{X, Y}(x, y)
$$
JPMF類似PMF滿足以下2個性質
1. $0 \leq f_X(x), f_Y(y) \leq 1$,MPMF在0和1的區間。
2. $\sum_X f_X(x) = \sum_Y f_Y(y) = 1$,退化後的MPMF即為一維的PMF,機率總和為1。
3. **結合累積分布函數(joint CDF, joint cumulative distribution function)**
若有2個離散型的隨機變數$X,Y$,則JCMF $F_{X,Y}(x_0, y_0)$就是把二維點$(x_0, y_0)$以下的面積加起來,做機率累積
$$
F_{X, Y}(x_0,y_0) = P_X(X \leq x_0, Y \leq y_0)
$$
JCDF具有以下4個性質
1. $0 \leq F_{X,Y}(x,y) \leq 1$,PDF所圍出來的區域面積最大為1。
2. $F_{X,Y}(\infty, \infty) = P(x \leq \infty, y \leq \infty) = 1$為必然事件;$F_{X,Y}(-\infty, -\infty) = P(x \leq -\infty, y -\leq \infty) = 1$為不可能事件。
3. $F_{X,Y}(-\infty, y) = 0, F_{X,Y}(x, -\infty) = 0$,帶回定義可以發現,$x,y$有一邊機率是0,為不可能事件。
4. $F_{X,Y}(x, \infty) = F_X(x), F_{X,Y}(\infty, y) = F_Y(y)$,代表其中一個隨機變數都加完,退化為一個變數的CDF,稱為邊際累積分布函數(marginal CDF, marginal cumulative distribution function)。
---
### 連續型多隨機變數
在解題上,第一步是畫出值域$S_{X,Y}$圖。
1. **結合機率密度函數(joint PDF, joint probability density function)**<br>
給定連續型隨機變數$X, Y$,且$S$是其值域,$E$為$S$的任一部分集合,則機率密度函數$f_{X,Y}(x, y)$滿足
$$
P(E) = \int\int_{(x, y) \in E} f_{X, Y}(x, y) dxdy
$$
PDF具有以下性質
1. $f_{X,Y}(x, y) \geq 0$,JPDF在0以上,曲線高度可以大於1,因為不像離散型隨機變數一樣,連續型隨機變數的單點機率沒有意義。
2. $\int^\infty_{-\infty}\int^\infty_{-\infty} f_{X,Y}(x, y)dxdy = 1$,所有$x,y$點雙重積分起來的JPDF總和為1。
3. $P(x = x_0, y = y_0) = \int^{x_0}_{x_0}\int^{y_0}_{y_0} f(x)dxdy = 0$,單點機率為0,無任何意義。
4. **JPDF本身不是機率,需要積分才有機率的意義**,連續型隨機變數最基本的單位為$P(x_0 < X \leq x_0 + dx, y_0 < Y \leq y_0 + dy) = f_{X.Y}(x_0, y_0)dxdy$。
2. **邊際機率密度函數(marginal PDF, marginal probability density function)**<br>
將不要的變數全部積分起來,將兩個隨機變數退化為一個隨機變數。
$$
f_X(x) = \int^\infty_{-\infty} f_{X, Y}(x, y) dy\\
f_Y(y) = \int^\infty_{-\infty} f_{X, Y}(x, y) dx
$$
JPDF類似PDF滿足以下2個性質
1. $f_X(x), f_Y(y) \geq 0$,PDF在0以上,曲線高度可以大於1,因為不像離散型隨機變數一樣,連續型隨機變數的單點機率沒有意義。
2. $\int^\infty_{-\infty} f_X(x)dx = \int^\infty_{-\infty} f_Y(y)dy = 1$,退化後的MPMF即為一維的PMF,機率總和為1。
3. **結合累積分布函數(joint CDF, joint cumulative distribution function)**<br>
設連續型隨機變數$X,Y$的JPDF為$f_{X,Y}(x, y)$,則JCDF則是把$(x_0, y_0)$點以前的JPDF"積分"起來。
$$
F_{X,Y}(x_0, y_0) = P(X \leq x_0, Y \leq y_0) = \int^x_{-\infty} \int^y_{-\infty} f_{X,Y}(s, t)dtds
$$
連續型隨機變數的JCDF具有以下6個性質
1. $0 \leq F_{X,Y}(x,y) \leq 1$,JPDF所圍出來的區域面積最大為1。
2. $F_{X,Y}(\infty, \infty) = P(x \leq \infty, y \leq \infty) = 1$為必然事件;$F_{X,Y}(-\infty, -\infty) = P(x \leq -\infty, y -\leq \infty) = 1$為不可能事件。
3. $F_{X,Y}(-\infty, y) = 0, F_{X,Y}(x, -\infty) = 0$,帶回定義可以發現,$x,y$有一邊機率是0,為不可能事件。
4. $F_{X,Y}(x, \infty) = F_X(x), F_{X,Y}(\infty, y) = F_Y(y)$,代表其中一個隨機變數都積分完,退化為一個變數的CDF,稱為邊際累積分布函數(marginal CDF, marginal cumulative distribution function)。
5. $\frac{\partial F_{X, Y}(x, y)}{\partial x \partial y} = f_{X, Y}(x, y)$,由[微積分基本定理(一)](https://www.youtube.com/watch?v=mIh469HPpXs)可得對JCDF微分為JPDF。
6. 可畫圖證明,記憶口訣是正正(起點、起點)得正、負負(終點、終點)得負
$$
\begin{align*}
P(a < X \leq b, c < Y \leq d)
&= \int^b_a \int^d_c f_{X, Y}(x, y)dydx\\
&= F_{X, Y}(b,d) - F_{X, Y}(b,c) - F_{X, Y}(a,d) + F_{X, Y}(a,c)
\end{align*}
$$
---
### 隨機向量
$n$個隨機變數,寫成向量的形式$X = (X_1, X_2, \ldots, X_n)^T$,稱為隨機向量,若皆是連續型隨機變數,同理可定義JPDF、MPDF、JCDF、MCDF。
---
### 條件機率函數
若隨機變數$X,Y$的結合機率函數$f_{X, Y}(x, y)$、邊際機率函數$f_X(x), f_Y(y)$則
- 離散型條件機率密度函數(conditional PMF)
$$
P_{X \mid Y}(x \mid y) = P(X = x \mid Y = y) = \frac{P(X = x, Y = y)}{P(Y = y)} = \frac{f_{X, Y}(x, y)}{f_Y(y)}
$$
- 連續型條件機率機率函數(conditional PDF)
$$
\begin{align*}
& f_{X \mid Y}(x \mid y) = \frac{f_{X, Y}(x, y)}{f_Y(y)}\\
& P[x < X \leq x + dx \mid y < Y \leq y + dy]\\
&\quad= \frac{P[x < X \leq x + dx, y < Y \leq y + dy]}{P[y < Y \leq y + dy]}\\
&\quad= \frac{f_{X,Y}(x, y)dxdy}{f_{Y}(y)dy}\\
&\quad= f_{X \mid Y}(x \mid y)dx
\end{align*}
$$
---
### 獨立隨機變數
給定隨機變數$X_1, X_2, \ldots, X_n$, joint PDF $f(X_1, X_2, \ldots, X_n)$, marginal PDF $f(X_1), f(X_2), \ldots, f(X_n)$, joint CDF $F(X_1, X_2, \ldots, X_n)$, marginal CDF$F(X_1), F(X_2), \ldots, F(X_n)$
$$
\begin{align*}
& \text{rv's } X_1, X_2, \ldots, X_n \text{ are independent}\\
\Leftrightarrow\;& f(X_1, X_2, \ldots, X_n) = f(X_1)f(X_2) \cdots f(X_n)\\
\Leftrightarrow\;& F(X_1, X_2, \ldots, X_n) = F(X_1)F(X_2) \cdots F(X_n)
\end{align*}
$$
$n$個隨機變數獨立的定義為個別PDF(CDF)相乘等於聯合的PDF(CDF),而[ch1 獨立事件](#獨立事件)中$n$個事件獨立的定義不僅需要$n$個事件成對獨立,還需要兩兩事件成對獨立、三三事件成對獨立等,條件較為"嚴格"。欲快速判斷隨機變數$X, Y$是否互為獨立,首先判斷$X$與$Y$的值域有無關聯,再來看joint PDF是否可以分離變數$f_{X, Y}(x, y) \overset{?}{=} g(x)h(y)$。
---
## ch3 期望值、變異數
### 綱要
- 一階(原點)動差 - 期望值、二階中心動差 - 變異數
- 動差形成函數(MGF)、特徵函數(CF)、機率質量/密度函數(PMF/PDF)三者關係
- 機率的比較隨機變數$X, Y$之間相關性的共變數與相關係數
- 獨立 ⇒ 不相關,but不相關 !⇒ 獨立
- 條件期望值
---
### 期望值(=平均數)
給定隨機變數$X$與其PMF/PDF$f_X(x)$,則$g(x)$的期望值為
$$
E[g(x)] \triangleq \begin{cases}
\sum_{x \in S_X} g(x) f_X(x)\\
\int^\infty_{-\infty} g(x) f_X(x)dx
\end{cases}
$$
由上式可知,期望值就是加權平均,這個權重就是機率分布函數。
---
### 變異數
給定隨機變數$X$,其PMF/PDF $f_X(x)$,則$X$的變異數為
$$
\mathrm{Var}(X) \triangleq E\{(X - \mu_X)^2\}
= \begin{cases}
\sum_{x \in S_x}(x- \mu_X)^2 f_X(x)\\
\int^\infty_{-\infty} (x - \mu_X)^2 f_X(x)dx
\end{cases}
$$
變異數為將所有數值與平均值的誤差做平方再取期望值,稱為**均方誤差(MSE - mean square
error)**,當隨機變數的PMF/PDF較鬆散時,變異數大;反之PMF/PDF較密集時,變異數小。進一步推導變異數
$$
\begin{align*}
E\{(X - \mu_X)^2\} &= E\{X^2 - 2X\mu_X + \mu_x^2 \}\\
&= E[X^2] - 2E[X] \cdot \mu_X + \mu_X^2\\
&= E[X^2] - \mu_X^2
\end{align*}
$$
可以得到變異數較方便計算的公式 - **二階動差 - (一階動差)^2^**。
<br><br>
由於變異數$E\{(X - \mu_X)^2\} > 0$,因此定義標準差為變異數的開根號$\sigma_X \triangleq \sqrt{\mathrm{Var}(X)}$。
---
### 動差形成函數(MGF)與特徵函數(CF)
如[2022上一段日記 03/14(一)](https://hackmd.io/@HsuChiChen/2022-log-2#03/14(一))的動差形成函數與特徵函數,需要注意動差形成函數有收斂範圍(ROC),而特徵函數則沒有。另外機率質量/密度函數$f_X(x)$、特徵函數$\Phi(\omega)$、動差生成函數$M_X(s)$這三者中只要知道任一項,即可求其他兩項(可被唯一決定)。
$$
\begin{align*}
\mathscr{L}^{-1} &\downarrow\uparrow \mathscr{L}\\
&f_X(x) \to m_n = \int^\infty_{-\infty} x^n f_X(x)dx\\
\mathscr{F} &\downarrow\uparrow \mathscr{F}^{-1}\\
&\Phi(\omega) \to m_n = (-j)^n\frac{d^n\Phi}{d\omega^n}\Bigg|_{\omega = 0}\\
\omega = \frac{s}{j} &\downarrow\uparrow s = j\omega\\
&M_X(s) \to m_n = \frac{d^nM(s)}{ds^n}\Bigg|_{s = 0}
\end{align*}
$$
其中Laplace Transform與Fourier Transform與工數的定義上差了一個負號,但這兩種定義是等效的。
$$
\begin{align*}
M_X(s) &= \mathscr{L}\{f_X(x)\} = \int^\infty_{-\infty} e^{sx} f_X(x)dx\\
\Phi(\omega) &= \mathscr{F}\{f_X(x)\} = \int^\infty_{-\infty} e^{j\omega x} f_X(x)dx
\end{align*}
$$
---
### 期望值與變異數的性質
期望值屬於一階(原點)動差,因此具有線性運算的性質,即$E[g(X) + h(Y)] = E[g(X)] + E[h(Y)]$,但是期望值的乘法不能拆開,只有在**隨機變數$X,Y$是獨立**的條件下$E[g(X) \cdot h(Y)] = E[g(X)] \cdot E[h(Y)]$。
<br><br>
[線性代數篇 ch6 範數(norm)](https://hackmd.io/@HsuChiChen/linear_algebra#範數norm)介紹線性代數版的柯西不等式,也有個機率版的柯西不等式,證明為令新的隨機變數$Z = Y - \lambda X, \forall \lambda \in R$,並計算$E[Z^2]$
$$
E[XY]^2 \leq E[X^2]E[Y^2]
$$
當$P[Y = \alpha X] = 1$時,"="才會成立。
<br><br>
變異數為二階中心動差,與期望值不同,不具有線性運算,而變異數的其他性質為
$$
\mathrm{Var}(aX + b) = a^2\mathrm{Var}(X)
$$
---
### 共變數(=協方差)(covariance)
給定隨機變數$X, Y$與平均值$\mu_X, \mu_Y$,則共變數
$$
\mathrm{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] = \sigma_{XY}
$$
其意義在於**比較隨機變數$X, Y$之間的相關性**,$\mathrm{Cov}(X, Y) > 0$代表正相關、$\mathrm{Cov}(X, Y) < 0$代表負相關、$\mathrm{Cov}(X, Y) = 0$代表不相關。<br>
進一步推導
$$
\begin{align*}
\mathrm{Cov}(X, Y) &= E[(X - \mu_X)(Y - \mu_Y)]\\
&= E[XY - \mu_X Y - \mu_Y X + \mu_X \mu_Y]\\
&= E[XY] - \mu_X E[Y] - \mu_Y E[X] + \mu_X \mu_Y\\
&= E[XY] - \mu_X\mu_Y
\end{align*}
$$
可以得到共變數較方便計算的公式。<br>
與變異數做比較
$$
\begin{align*}
\mathrm{Var}(X) &\triangleq E\{(X - \mu_X)(X - \mu_X)\}\\
&= E[X^2] - \mu_X^2\\
&= \mathrm{Cov}(X, X) = \sigma_X^2 \geq 0
\end{align*}
$$
可以發現變異數就是自己跟自己的共變數,代表比較自己跟自己的關係。
---
### 相關係數(correlation coefficients)
共變數可以判斷兩隨機變數$X, Y$的相關性,但**只能定性,不能定量,需要除以各自隨機變數的標準差**,得到定量的相關係數。
$$
\rho_{XY} \triangleq \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{E[XY] - \mu_X \mu_Y}{\sqrt{E[X^2] - \mu_X^2} \sqrt{E[Y^2] - \mu_Y^2}}
$$
性質 - 相關係數指介於-1到1之間,即$-1 \leq \rho_{XY} \leq 1$。
$$
\begin{align*}
& \text{set } U = X - \mu_X, V = Y - \mu_Y\\
& E[UV]^2 \leq E[U^2] E[V^2] \quad \ldots \text{Cauchy–Schwarz inequality}\\
\Rightarrow\;& \mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \mathrm{Var}(Y)\\
\Rightarrow\;& \left( \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y} \right)^2 = \rho_{XY}^2 \leq 1\\
\Rightarrow\;& -1 \leq \rho_{XY} \leq 1
\end{align*}
$$
---
### 獨立 ⇒ 不相關,but不相關 !⇒ 獨立
$$
\begin{align*}
& X, Y \text{ are uncorrelated}\\
\Leftrightarrow\;& \mathrm{Cov}(X, Y) = 0\\
\Leftrightarrow\;& \rho_{XY} = 0\\
\Leftrightarrow\;& E[XY] = E[X]E[Y]\\
& X, Y \text{ are independent}\\
\Leftrightarrow\;& f_{X,Y}(x, y) = f_X(x) f_Y(y)\\
\Leftrightarrow\;& F_{X,Y}(x, y) = F_X(x) F_Y(y)\\
\Leftrightarrow\;& E[g(X) h(Y)] = E[g(X)]E[h(Y)]
\end{align*}
$$
由獨立與不相關等效的第3的定義可知,獨立是任意$g(X),h(Y)$的$n$階動差都可拆開,等效於$M(s_1,s_2) = M_X(s_1) \cdot M_Y(s_2)$,而不相關是僅有一階動差能拆開$E[XY] = E[X]E[Y]$,因此**獨立可以推得不相關,但不相關無法推得獨立**。
<br><br>
但有兩個例外(獨立與不相關等價)
1. 二位元傳輸 - 隨機變數$X,Y$,其值域為$S_X = \{0, 1\} = S_Y$
2. 高斯分布 - 隨機變數$X,Y \sim$ joint Gaussian distribution
---
### 共變數矩陣(covariance matrix)
將共變數推廣至$n$個隨機變數。給定隨機向量$\mathbf{X}$與平均值向量$\mathbf{\mu}_X$
$$
\mathbf{X} = \begin{bmatrix} X_1\\ X_2\\ \vdots\\ X_n\end{bmatrix},
\mathbf{\mu}_X = \begin{bmatrix} \mu_1\\ \mu_2\\ \vdots\\ \mu_n\end{bmatrix}
$$
共變數矩陣
$$
\begin{align*}
\mathrm{Cov}(\mathbf{X}) &\triangleq E[(\mathbf{X} - \mathbf{\mu}_X)(\mathbf{X} - \mathbf{\mu}_X)^T]\\
&= E[\mathbf{X} \mathbf{X}^T] - \mathbf{\mu}_X \mathbf{\mu}_X^T\\
&= \begin{bmatrix}
\sigma_{X_1}^2 & \sigma_{X_1 X_2} & \cdots & \sigma_{X_1 X_n}\\
\sigma_{X_2 X_1} & \sigma_{X_2}^2 & \cdots & \sigma_{X_2 X_n}\\
\vdots & \vdots &\ddots & \vdots\\
\sigma_{X_n X_1} & \sigma_{X_n X_2} & \cdots & \sigma_{X_n}^2\\
\end{bmatrix}
\end{align*}
$$
共變數矩陣有兩個重要的特性
1. 實對稱 $\sigma_{X_1 X_2} = \sigma_{X_2 X_1}, \ldots$
2. 半正定 $v^T C v = E[v^Txx^Tv] = E[(v^T x)^2] \geq 0$
---
### 條件期望值
給定隨機變數$X, Y$與其PMF/PDF $f_{X, Y}(x, y)$
$$
E[g(X) \mid y] \triangleq \begin{cases}
\sum_{x \in S_X} g(x) f(x \mid y)\\
\int^\infty_{-\infty} g(x) f(x \mid y)dx
\end{cases}\\
E[g(Y) \mid x] \triangleq \begin{cases}
\sum_{y \in S_Y} g(y) f(y \mid x)\\
\int^\infty_{-\infty} g(y) f(y \mid x)dx
\end{cases}
$$
其中$E[g(X) \mid y]$為取$g(x)$這個函數的期望值,故先把這個函數拿進來;而期望值是作加權平均,這個權重在此就是條件機率函數$f(x \mid y)$,並對要做期望值的函數做相加/積分,也就是$x$的函數。
<br><br>
可以觀察上式**條件期望值就是條件$y$的函數**,當條件$y$改變時,樣本空間改變,因此機率分布,也就是$x$的範圍改變,最終期望值跟著改變。
<br><br>
$$
E[E[g(X) \mid Y]] = E[g(X)]
$$
口訣為條件期望值做兩次,則條件可以拿掉。證明如下
$$
\begin{align*}
E[g(X) \mid Y] &= \int^\infty_{-\infty} g(x) f(x \mid y)dx\\
&= \int^\infty_{-\infty} g(x) \frac{f_{X,Y}(x, y)}{f_Y(y)} dx\\
&= W(y) \quad \text{a funtion of } y\\
E[E[g(X) \mid Y]] &= E[W(y)]\\
&= \int^\infty_{-\infty} W(y) f_Y(y)dy\\
&= \int^\infty_{-\infty} \left[ \int^\infty_{-\infty} g(x) \frac{f_{X,Y}(x, y)}{f_Y(y) } dx \right] f_Y(y)dy\\
& \int^\infty_{-\infty}\int^\infty_{-\infty} g(x) f_{X, Y}(x, y) dxdy\\
&= E[g(X)]
\end{align*}
$$
---
## ch4 變數變換
### 綱要
- 單->單變數變換(連續型)的累積函數法、分割區間法
- 雙->單變數變換(連續型)的累積函數法、公式法、動差法
- 雙->雙變數變換(連續型)的雙變數轉換法
- 聯合/邊際動差形成函數(JMGF/MMGF)與聯合/邊際特徵函數(JCF/MCF)
- 隨機變數獨立的等價條件
- 極值分布
---
### 變數變換
變數變換為機率的轉移,將舊的隨機變數$X$對應到新的隨機變數$Y$,把那些機率合併起來,轉為$Y$的機率。
$$
S_X \overset{g(X) = Y}{\longrightarrow} S_Y
$$
---
### 單->單變數變換(連續型)法1 - 累積函數法
題目給定新的隨機變數$Y = g(X)$,欲求其PDF $f_Y(y)$。由於連續型的PDF不具有機率的意義,故先求CDF,透過反函數求得與$X$的關係,最後再微分得PDF。
$$
\begin{align*}
F_Y(y) &\triangleq P(Y \leq y) = P(g(X) \leq y)\\
&= \begin{cases}
P(X \leq g^{-1}(y)) & g(x) \text{ is increment function}\\
P(X \geq g^{-1}(y)) & g(x) \text{ is decreasing function}
\end{cases}\\
&= \begin{cases}
\int^{g^{-1}(y))}_{-\infty} f_X(x)dx\\
\int^\infty_{g^{-1}(y))} f_X(x)dx
\end{cases}\\
f_Y(y) &= \frac{d}{dy}F_Y(y), y \in S_Y
\end{align*}
$$
---
### 單->單變數變換(連續型)法2 - 分割區間法
法1無法計算,為理論證明,法2偏向一般的計算考題 - 給定題目為非單調函數,解題步驟有以下3步
1. 繪製$Y = g(X)$,將圖形切割成數段單調函數區間$Z_i$。
2. 在每一單調區間$Z_i$,計算$f_{Y_i}(y)$,需要注意遞減函數需要加上絕對值,避免產生負號。
$$
f_{Y_i}(y) |dy| = f_X(x)dx \Rightarrow f_{Y_i}(y) = f_X(x) \Bigg| \frac{dx}{dy} \Bigg| = f_X(g_i^{-1}(y)) \Bigg| \frac{d(g_i^{-1}(y))}{dy} \Bigg|
$$
3. 將分段的$f_{Y_i}(y)$相加,需要注意"相同值域"的$f_{Y_i}(y)$才能相加。
$$
f_Y(y) = \sum^n_{i = 1} f_{Y_i}(y), y \in S_Y
$$
---
### 雙->單變數變換$Z = g(X, Y)$(離散型)
題目較連續型簡單,也較少,直接求$Z$的單點機率即可,繪製$S_X, S_Y, g(X, Y) = z$值域圖,決定值域$S_Z$與累積區域$R$,最後進行累加
$$
P_Z(z) = P(Z = z) = P(g(X, Y) = z) = \sum_x \sum_y f_{X,Y}(x, y), z \in R
$$
---
### 雙->單變數變換$Z = g(X, Y)$(連續型)法1 - 累積函數法
繪製$S_X, S_Y, g(X, Y) = z$值域圖,決定值域$S_Z$與累積區域$R$,最後進行積分
$$
\begin{align*}
F_Z(z) &\triangleq P(Z \leq z)\\
&= P(g(X, Y) \leq z)\\
&= \int\int_R f_{X,Y}(x, y)dxdy\\
f_Z(z) &= \frac{dF_Z(z)}{dz}, z \in S_Z
\end{align*}
$$
---
### 雙->單變數變換$Z = g(X, Y)$(連續型)法2 - 公式法
以下3步為公式記憶的方式
1. 首先觀察$f_Z(z)$單位$1 / m$與$f_{X, Y}(x, y)$單位$1 / m^2$不合,因此在不失一般性之下對$y$做積分。
2. 將$x$換成$y, z$的函數,即$x = g(y, z)$。
3. 由於第二步$x$做變數變換,因此需要乘上面積元素間的倍率,也就是Jacobian matrix $\big| \frac{\partial x}{\partial z} \big|$。
$$
\begin{align*}
& Z = X + Y & f_Z(z) = \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z - y, y)dy\\
& Z = X - Y & f_Z(z) = \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z + y, y)dy\\
& Z = XY & f_Z(z) = \int^\infty_{-\infty} \frac{1}{|y|} \cdot f_{X, Y}(x = \frac{z}{y}, y)dy\\
& Z = \frac{X}{Y} & f_Z(z) = \int^\infty_{-\infty} |y| \cdot f_{X, Y}(x = zy, y)dy\\
\end{align*}
$$
需要注意第4個公式要積分在分母的變數,計算上較容易。
4. 要善用步階函數$H( \cdot )$來處理$S_X, S_Y$值域問題。
只證明公式法第1點,其他證明略省
$$
\begin{align*}
F_Z(z) &= P(Z \leq z)\\
&= P(X + Y \leq z)\\
&= \int\int_R f_{X, Y}(x, y)dxdy\\
&= \int^\infty_{-\infty}\int^{Z - Y}_{-\infty} f_{X, Y}(x, y)dxdy\\
f_Z(z) &= \frac{dF_Z(z)}{dz}\\
&= \int^\infty_{-\infty} \frac{d}{dz} \Big( \int^{Z - Y}_{-\infty} f_{X, Y}(x, y)dx \Big) dy\\
&= \int^\infty_{-\infty} \Big| \frac{\partial (z - y)}{\partial z} \Big| f_{X, Y}(x = z - y, y)dy\\
&= \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z - y, y)dy
\end{align*}
$$
---
### 雙->單變數變換$Z = g(X, Y)$(連續型)法3 - 動差法
給定隨機變數$X,Y$彼此獨立,而$Z = X + Y$,若PDF分別為$f_X(z), f_Y(z)$,MGF分別為$M_X(s), M_Y(s)$,CF分別為$\phi_X(\omega), \phi_Y(\omega)$,則
1. $f_Z(z) = f_X(z) * f_Y(z)$
2. $M_Z(s) = M_X(s) \cdot M_Y(s)$
3. $\phi_Z(\omega) = \phi_X(\omega) \cdot \phi_Y(\omega)$
第1點證明從法2 - 公式法出發
$$
\begin{align*}
Z = X + Y, \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z - y, y)dy &= \int^\infty_{-\infty} 1 \cdot f_{X}(z - y) f_Y(y)dy\\
&= f_X(z) * f_Z(z)\\
Z = X - Y, \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z + y, y)dy &= \int^\infty_{-\infty} 1 \cdot f_{X}(z + y) f_Y(y)dy\\
&= f_X(-z) * f_Z(-z)
\end{align*}
$$
第2點證明複習[ch3 獨立 ⇒ 不相關,but不相關 !⇒ 獨立](#獨立-⇒-不相關,but不相關-!⇒-獨立)兩隨機變數獨立的等價條件$E[g(X) h(Y)] = E[g(X)]E[h(Y)]$
$$
M_Z(s) = E[e^{s(X + Y)}] = E[e^{sX} \cdot e^{sY)}] = E[e^{sX}] \cdot E[e^{sY)}] = M_X(s) \cdot M_Y(s)
$$
特徵函數同理動差生成函數的推法
$$
\phi_Z(\omega) = E[e^{j\omega(X + Y)}] = E[e^{j\omega X} \cdot e^{j\omega Y}] = E[e^{j\omega X}] \cdot E[e^{j\omega Y}] = \phi_X(\omega) \cdot \phi_Y(\omega)
$$
由Laplace Transform與Fourier Transform的性質互推這3點的性質
$$
M_Z(s) = \mathscr{F}\{ f_Z(z) \} = \mathscr{F}\{ f_X(z) * f_Y(z) \} = \mathscr{F}\{ f_X(z) \} \cdot \mathscr{F}\{ f_Y(z) \} = M_X(s) \cdot M_Y(s)\\
\phi_Z(\omega) = \mathscr{L}\{ f_Z(z) \} = \mathscr{L}\{ f_X(z) * f_Y(z) \} = \mathscr{L}\{ f_X(z) \} \cdot \mathscr{L}\{ f_Y(z) \} = \phi_X(\omega) \cdot \phi_Y(\omega)
$$
---
### 雙->雙變數變換$U = g(X, Y), V = h(X, Y)$(連續型)
1. 將$U = g(x, y), V = h(x, y)$求取反函數$X = \phi(u, v), Y = \xi(u, v)$這4個條件決定值域$S_U, S_V$。
2. $f_{U,V} (u, v) = f_{X, Y}(x = \phi(u, v), y = \xi(u, v)) |J|$,做變數變換時需要乘上Jacobian。<br>
考慮積分一小塊JPDF才具有機率的意義,避免遞減函數讓面積產生負號,故加上絕對值
$$
f_{X,Y}|dxdy| \leftrightarrow f_{U, V}(u, v)|dudv|
$$
其中微小面積$|dxdy|$與$|dudv|$之間的比值稱為Jacobian
$$
dxdy = |J|dudv, |J| = |\frac{\partial(x, y)}{\partial(u, v)}| = | \begin{vmatrix}
\frac{\partial x}{\partial u} & \frac{\partial x}{\partial v}\\
\frac{\partial y}{\partial u} & \frac{\partial y}{\partial v}
\end{vmatrix}|
$$
---
### 聯合/邊際動差形成函數(JMGF/MMGF)與聯合/邊際特徵函數(JCF/MCF)
[ch3 動差形成函數(MGF)與特徵函數(CF)](#動差形成函數MGF與特徵函數CF)定義動差形成函數與特徵函數,給定隨機變數$X,Y$的JPDF $f_{X, Y}(x, y)$,在此定義聯合動差形成函數(JMGF)
$$
M(s_1, s_2) = E[e^{s_1 X + s_2 Y}] = \int^\infty_{-\infty} \int^\infty_{-\infty} e^{s_1 x} e^{s_2 y} f_{X, Y}(x, y) dxdy
$$
上式即為$2$維的Laplace Transform。若令$s_1 = 0$或是$s_2 = 0$,則JMGF會退化為單變數的邊際動差形成函數(MMGF)
$$
M_X(s_1) = M(s_1, 0) = E[e^{s_1 X + 0}] = \int^\infty_{-\infty} \int^\infty_{-\infty} e^{s_1 x} f_{X, Y}(x, y) dxdy = \int^\infty_{-\infty} e^{s_1 x} f_X (x) dx
$$
欲計算$X$與$Y$各階聯合動差
$$
E[X^m Y^n] = \frac{ \partial^{m + n} }{\partial_{s_1}^m \partial_{s_2}^n} M(s_1, s_2) \Big|_{s_1 = s_2 = 0}
$$
<br>
同理可定義聯合特徵函數(JCF)
$$
\phi(\omega_1, \omega_2) = E[e^{j\omega_1 X + j\omega_2 Y}] = \int^\infty_{-\infty} \int^\infty_{-\infty} e^{j\omega_1 x} e^{j\omega_2 y} f_{X, Y}(x, y) dxdy
$$
上式即為$2$維的Fourier Transform。若令$\omega_1 = 0$或是$\omega_2 = 0$,則JCF會退化為單變數的邊際特徵函數(MCF)
$$
\phi(\omega_1) = \phi(\omega_1, 0) = E[e^{j\omega_1 X + 0}] = \int^\infty_{-\infty} \int^\infty_{-\infty} e^{j\omega_1 x} f_{X, Y}(x, y) dxdy = \int^\infty_{-\infty} e^{j\omega_1 x} f_X (x) dx
$$
欲計算$X$與$Y$各階聯合動差
$$
E[X^m Y^n] = (-j)^{m + n} \frac{ \partial^{m + n} }{\partial_{\omega_1}^m \partial_{\omega_2}^n} \phi(\omega_1, \omega_2) \Big|_{\omega_1 = \omega_2 = 0}
$$
---
### 隨機變數獨立的等價條件
可擴充[ch3 獨立 ⇒ 不相關,but不相關 !⇒ 獨立](#獨立-⇒-不相關,but不相關-!⇒-獨立)中隨機變數獨立的等價條件
$$
\begin{align*}
& X, Y \text{ are independent}\\
\Leftrightarrow\;& f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y) &\text{JPDF = MPDF · MPDF}\\
\Leftrightarrow\;& F_{X,Y}(x, y) = F_X(x) \cdot F_Y(y) &\text{JCDF = MCDF · MCDF}\\
\Leftrightarrow\;& E[g(X) \cdot h(Y)] = E[g(X)] \cdot E[h(Y)]\\
\Leftrightarrow\;& f_{X \mid Y}(x \mid y) = f_X(x)\\
\Leftrightarrow\;& f_{X \mid Y}(x \mid y) = f_Y(y)\\
\Leftrightarrow\;& M(s_1, s_2) = M_X(s_1) \cdot M_Y(s_2) &\text{JMGF = MMGF · MMGF}\\
\Leftrightarrow\;& \phi(\omega_1, \omega_2) = \phi_X(\omega_1) \cdot \phi_Y(\omega_2) &\text{JCF = MCF · MCF}
\end{align*}
$$
式(3)證明$p \Rightarrow q$,同理式(6)、式(7)
$$
\begin{align*}
E[g(X) \cdot h(Y)] &\triangleq \int^\infty_{-\infty}\int^\infty_{-\infty} g(x)h(y)f_{X, Y}(x, y) dxdy\\
&= \int^\infty_{-\infty}\int^\infty_{-\infty} g(x)h(y)f_X(x) \cdot f_Y(y) dxdy\\
&= \int^\infty_{-\infty} g(x)f_X(x)dx \cdot \int^\infty_{-\infty} h(y)f_Y(y)dx\\
&= E[g(X)] \cdot E[h(Y)]
\end{align*}
$$
式(4)證明$p \Rightarrow q$,同理式(5)
$$
\begin{align*}
f_{X \mid Y}(x \mid y) &\triangleq \frac{f_{X, Y}(x, y)}{f_Y(y)}\\
&= \frac{f_X(x) \cdot f_Y(y)}{f_Y(y)}\\
&= f_X(x)
\end{align*}
$$
---
### 極值分布
給定$n$個隨機變數$X_1, X_2, \ldots, X_n$獨立且其PDF為$f_1(x_1), \ldots, f_n(x_n)$、CDF為$F_1(x_1), \ldots, F_n(x)$。給定新的隨機變數為
$$
Y = \max(X_1, X_2, \ldots, X_n), Z = \min(X_1, X_2, \ldots, X_n)
$$
求$f_Y(y), f_Z(z)$。
<br><br>
解題步驟為先求CDF,並利用隨機變數獨立的性質將JCDF拆分為MCDF。
$$
\begin{align*}
F_Z(z) &= P(Z \leq z)\\
&= P(\min(X_1, \ldots, X_n) \leq z)\\
&= 1 - P(\min(X_1, \ldots, X_n) > z)\\
&= 1 - P(X_1 > z, X_2 > z, \ldots, X_n > z)\\
&= 1 - P(X_1 > z) \cdot P(X_2 > z) \cdots P(X_n > z)\\
&= 1 - (\int^\infty_{z} f_1(x_1)dx_1) \cdot(\int^\infty_{z} f_2(x_2)dx_2) \cdots (\int^\infty_{z} f_n(x_n)dx_n)\\
\end{align*}
$$
再來連續型對CDF微分就是PDF、離散型CDF相減就是PMF。
$$
\begin{align*}
P_Z(z) &= F_Z(z) - F_Z(z - 1)\\
f_Y(z) &= \frac{dF_Z(z)}{dz}
\end{align*}
$$
---
## ch5 離散型機率變數模型
### 綱要
- 白努利分布 (1次白努利試驗)
- 二項分布 (n次白努利試驗)
- 波松分布 (二項分布的特例使$n \to \infty, p \to 0, np \triangleq \lambda$)
- 波松程序 (波松分布的廣義結果)
- 幾何分布 (第1次成功為止)
- 負二項分布 (第r次成功為止)
- 多項式分布 (k個結果的多項試驗)
---
### 白努利試驗(Bernoulli Trial)
[ch1 隨機試驗與機率空間](#隨機試驗與機率空間)中定義的隨機試驗,滿足3個條件
1. 結果只有2種
2. 每次試驗彼此獨立
3. 每次試驗機率相同
舉例來說丟銅板、取後放回的隨機取球。
---
### 白努利分布(Bernoulli Distribution)/兩點分布(Two-point Distribution) $X \sim B(1, p)$
執行$1$次白努利試驗,成功的機率為$p$,令隨便變數$X$為成功的次數,則白努利分布的PMF為
$$
f_X(x) = p^x (1 - p)^{1 - x}, S_X = \{0, 1\}
$$
白努利分布即為執行一次白努利試驗,也就是二項分布在$n = 1$的特例,記為$X \sim B(1, p)$。
<br><br>
依序計算白努利分布的動差生成函數、期望值、變異數,這三個重要的參數。
$$
\begin{align*}
m_x(t) &= E[e^{tX}]\\
&= e^{t(0)} P(X = 0) + e^{t(1)} P(X = 1)\\
&= 1 \cdot (1 - p) + p \cdot e^t\\
&= 1 - p + p e^t\\
E[X] &= 1 \cdot P(X = 1) + 0 \cdot P(X = 0)\\
&= p\\
E[X^n] &= 1^n \cdot P(X = 1) + 0^n \cdot P(X = 0)\\
&= p\\
\mathrm{Var}(X) &= E[X^2] - (E[X])^2\\
&= p - p^2\\
&= p(1 - p)
\end{align*}
$$
---
### 二項分布(binomial distribution) $X \sim B(n, p)$
執行$n$次白努利試驗,成功的機率為$p$,令隨機變數$X$為成功的次數,則二項分布的PMF為
$$
f_X(x) = C^n_x p^x (1 - p)^{n - x}, S_X = \{0, 1, 2, \ldots, n\}
$$
首先先排座位,挑選$x$次成功次數,即為$C^n_x$,再入座機率。
<br><br>
檢驗上式是否符合PMF總和機率為1的條件,使用到[ch1 排列組合](#排列組合)中的二項式展開。
$$
\sum_{x \in S_X} f_X(x) = \sum^n_{x = 0} C^n_x p^x (1 - p)^{n - x} = (p + 1 - p)^n = 1
$$
依序計算白努利分布的動差生成函數、期望值、變異數([期望值、變異數另一種算法 - MGF取ln再微分](https://math.stackexchange.com/questions/1453841/the-derivatives-of-the-logarithm-of-a-moment-generating-function)),這三個重要的參數。
$$
\begin{align*}
M_X(t) &= E[e^{tX}]\\
&= \sum^n_{x = 0} e^{tx} f_X(x)\\
&= \sum^n_{x = 0} e^{tx} C^n_x p^x (1 - p)^{n - x}\\
&= \sum^n_{x = 0} C^n_x (p e^t)^x (1 - p)^{n - x}\\
&= (1 - p + p e^t)^n \quad \because (x + y)^n = \sum^n_{k = 0} C^n_k x^k y^{n-k}\\
\ln M_X(t) & = n \ln(1 - p + p e^t)\\
E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\
&= n \cdot \frac{pe^t}{1 - p + p e^t} \Bigg|_{t = 0}\\
&= np\\
\mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\
&= np \cdot \frac{e^t(1 - p + p e^t) - (e^t)(p e^t)}{(1 - p + p e^t)^2} \Bigg|_{t = 0}\\
&= np(1 - p)
\end{align*}
$$
最後探討模型之間的關係
1. 若$n$個白努利分布的隨機變數獨立且同分布(iid),則隨機變數相加為二項分布。
$$
X_1, X_2, \ldots, X_n, \text{ where } X_i \sim B(1, p) \overset{\text{iid}}{\longrightarrow} X = X_1 + X_2 + \cdots + X_n \sim B(n, p)
$$
由二項定義為執行$n$次白努利試驗,白努利分布為執行$1$次白努利試驗。
2. 獨立的二項分布相加還是二項分布。
$$
X_1 \sim B(n_1, p), X_2 \sim B(n_2, p) \overset{\text{independent}}{\longrightarrow} X = X_1 + X_2 \sim B(n_1 + n_2, p)
$$
可視為前$n_1$次白努利試驗,加上後$n_2$次白努利試驗。
---
### 波松分布(Poisson distribution) $X \sim Po(\lambda), \lambda \triangleq np$
當二項分布白努利試驗次數趨近無限大$n \to \infty$(一般$n \geq 30$),成功機率$p \to 0$(一般$p \leq 10$),而期望值$E[X] = np \triangleq \lambda$趨於定值
$$
\begin{align*}
f_X(x) &= C^n_x p^x (1 - p)^{n - x}\\
&= \frac{n!}{x! (n - x)!} \left( \frac{\lambda}{n} \right)^x (1 - \frac{\lambda}{n})^{n- x}\\
&= \frac{\lambda^x}{x!} \left( \frac{n \cdot (n - 1) \cdots (n - k + 1)}{n \cdot n \cdots n} \right) \left( 1 - \frac{\lambda}{n} \right)^n \left( 1 - \frac{\lambda}{n} \right)^{-k}
\end{align*}
$$
將三式的$n \to \infty$後分別為
$$
\begin{align*}
& \lim_{n \to \infty} \left( \frac{n \cdot (n - 1) \cdots (n - k + 1)}{n \cdot n \cdots n} \right) = 1 \cdot 1 \cdots 1 = 1\\
& \lim_{n \to \infty} \left( 1 - \frac{\lambda}{n} \right)^n = \lim_{n \to \infty} \left( 1 + \frac{(-\lambda)}{n} \right)^n = e^{-\lambda}\\
& \lim_{n \to \infty} \left( 1 - \frac{\lambda}{n} \right)^{-k} = (1)^{-k} = 1
\end{align*}
$$
最後得波松分布的PMF為
$$
f_X(x) = \frac{e^{-\lambda} \lambda^x}{x!}, S_X(x) = \{0, 1, 2, \ldots, n\}, \lambda \triangleq np
$$
舉例來說,在通訊傳輸,一次傳輸的bit十分巨大$n = 100k$,且錯誤率極小$p = 10^{-6}$,透過波松分布就可近似二項分布。
$$
C^n_x p^x (1 - p)^{n - x} \approx \frac{e^{-\lambda} \lambda^x}{x!}, \lambda \triangleq np
$$
檢驗上式是否符合PMF總和機率為1的條件,使用到微積分自然對數的泰勒展開式。
$$
\sum_{x \in S_X} f_X(x) = \sum^n_{x = 0} \frac{e^{-\lambda} \lambda^x}{x!} = e^{-\lambda} \sum^n_{x = 0} \frac{\lambda^x}{x!} = e^{-\lambda} \cdot e^\lambda = 1
$$
依序計算波松分布的動差生成函數、期望值、變異數,這三個重要的參數。
$$
\begin{align*}
M_X(t) &= E[e^{tX}]\\
&= \sum^n_{x = 0} e^{tx} f_X(x)\\
&= \sum^n_{x = 0} e^{tx} \frac{e^{-\lambda} \lambda^x}{x!}\\
&= e^{-\lambda} \sum^n_{x = 0} \frac{(\lambda e^{t})^x}{x!}\\
&= e^{-\lambda} e^{\lambda e^t} \quad \because e^k = \sum^n_{n = 0} \frac{k^n}{n!}\\
&= e^{\lambda (e^t - 1)}\\
\ln M_X(t) & = \lambda (e^t - 1)\\
E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\
&= \lambda e^t \Big|_{t = 0}\\
&= \lambda\\
\mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\
&= \lambda e^t \Big|_{t = 0}\\
&= \lambda
\end{align*}
$$
最後探討模型之間的關係,獨立的波松分布相加還是波松分布。
$$
X_1 \sim Po(\lambda_1), X_2 \sim Po(\lambda_2) \overset{\text{independent}}{\longrightarrow} X = X_1 + X_2 \sim Po(\lambda_1 + \lambda_2)
$$
由於波松分布是二項分布的特例,因此"繼承"二項分布的模型之間的關係。
---
### 波松程序(Poisson process) - 與時間有關
![](https://i.imgur.com/Lsznqpb.jpg)<br>
已知在$(0, T)$區間時間內共發生$n$個事件,則在$(t_1, t_2)$區間的$t$時間內發生$x$個點($x < n$)的機率為何?<br>
假設隨機程序為stationary,代表機率與絕對時間無關,只與相對時間長短有關,$1$個點落在$(t_1, t_2)$內的機率為
$$
p = \frac{t}{T} \tag{1}
$$
則$x$個點落在$t$的機率則為二項分布,假設將時間切割很細,切成每一小區段機率$p$很低的白努利分布,因此$n \gg 1, T \gg t$,二項分布可近似於Poisson分布
$$
C^n_x p^x (1 - p)^{n - x} \approx \frac{e^{-np} (np)^x}{x!} \tag{2}
$$
將式(1)帶入式(2),並定義單位時間的平均發生率$\lambda = \frac{n}{T}$,可得在$(0,t)$時間內發生的次數$x$
$$
P(X = x) = \frac{e^{-n\frac{t}{T}} (n\frac{t}{T})^x}{x!} = \frac{e^{-\lambda t} (\lambda t)^x}{x!} \sim Po(\lambda t)
$$
其中隨機程序$X$就是波松程序,可以視為Poisson分布的廣義結果,Poisson分布就是波松程序在$t = 1$時的特例。
---
### 幾何分布(Geometric distribution) $X \sim G(p)$
執行一連串成功機率$p$的白努利試驗,**直到第$1$次成功為止的機率**,為負二項分布在成功次數$r = 1$時的特例。有兩種可能的隨機變數
1. **令直到第$1$次成功為止的執行次數$X$**
$$
f_X(x) = 1 \cdot p (1 - p)^{x - 1}, S_X = \{ 1, 2, \ldots\}
$$
先排座位,前面$x - 1$項都是失敗,而最後一項是成功,因此只有一種可能,後入座機率。會稱為幾何分布,是因為$f_X(x)$具有幾何級數(geometric progression,又稱等比級數)的外型。
2. **令直到第$1$次成功為止的失敗次數$Y = X - 1$**
$$
f_Y(y) = 1 \cdot p (1 - p)^y, S_Y = \{0, 1, \ldots\}
$$
單純轉換變數。<br>
檢驗幾何分布(執行次數$X$)是否符合PMF總和機率為1的條件,使用到等比級數。
$$
\sum_{x \in S_X} f_X(x) = \sum^n_{x = 0} p (1 - p)^{x - 1} = p + p(1 - p) + p(1 - p)^2 + \cdots = \frac{p}{1 - (1 - p)} = 1
$$
依序計算幾何分布(失敗次數$Y$)的動差生成函數、期望值、變異數,這三個重要的參數。
$$
\begin{align*}
M_Y(t) &= E[e^{tY}]\\
&= \sum^n_{y = 0} e^{ty} f_Y(y)\\
&= \sum^n_{y = 0} e^{ty} p (1 - p)^y\\
&= p\sum^n_{y = 0} ((1 - p)e^t)^y\\
&= p \left( \frac{1}{1 - (1 - p)e^t} \right), |(1 - p)e^t | < 1 \Rightarrow e^t < \frac{1}{1 - p}\\
&= \frac{p}{1 - (1 - p)e^t}, t > \ln(\frac{1}{1 - p})\\
\ln M_Y(t) & = \ln p - \ln(1 - (1 - p)e^t)\\
E[Y] &= \frac{d [\ln M_Y(t)]}{dt} \Bigg|_{t = 0}\\
&= \frac{(1 - p)e^t}{1 - (1 - p)e^t} \Big|_{t = 0}\\
&= \frac{1 - p}{1 - 1 + p}\\
&= \frac{1 - p}{p}\\
\mathrm{Var}(Y) &= \frac{d^2 [\ln M_Y(t)]}{dt^2} \Bigg|_{t = 0}\\
&= \frac{[(1 - p)e^t] [1 - (1 - p)e^t] - [(1 - p)e^t] [-(1 - p) e^t]}{(1 - (1 - p)e^t)^2} \Big|_{t = 0}\\
&= \frac{(1 - p)p + (1 - p)^2}{p^2}\\
&= \frac{1 - p}{p^2}\\
\end{align*}
$$
由於失敗次數$Y$加上成功次數$1$等於執行次數$X$,記為$X = Y + 1$,因此
$$
\begin{align*}
M_X(t) &= E[e^{tX}]\\
&= E[e^{t(Y + 1)}]\\
&= M_Y(t) e^t\\
E[X] &= E[Y] + 1\\
\mathrm{Var}(X) &= \mathrm{Var}(Y)
\end{align*}
$$
---
### 負二項分布(Negative binomial distribution) $X \sim NB(p)$
執行一連串成功機率$p$的白努利試驗,**直到第$r$次成功為止的機率**。有兩種可能的隨機變數
1. **令直到第$r$次成功為止的執行次數$X$**
$$
f_X(x) = C^{x - 1}_{r - 1} \cdot p^r (1 - p)^{x - r}, S_X = \{ r, r+1, \ldots\}
$$
先排座位,前面$x - 1$項中有$r - 1$項是成功,而最後一項是成功,因此只有$ C^{x - 1}_{r - 1}$種可能,後入座機率。
2. **令直到第$1$次成功為止的失敗次數$Y = X - r$**
$$
f_Y(y) = C^{y + r - 1}_{r - 1} \cdot p^r (1 - p)^y, S_Y = \{0, 1, \ldots\}
$$
單純轉換變數。<br>
檢驗負二項分布(執行次數$X$)是否符合PMF總和機率為1的條件,使用到[ch1 排列組合](#排列組合)中微積分的二項式級數。
$$
\begin{align*}
\sum_{x \in S_X} f_X(x) &= \sum^n_{x = r} C^{x - 1}_{r - 1} \cdot p^r (1 - p)^{x - r}\\
&= C^{r - 1}_{r - 1} p^r + C^{r}_{r - 1} p^r (1 - p) + C^{r + 1}_{r - 1} p^r (1 - p)^2 + \cdots\\
&= p^r + rp^r(1 - p) + \frac{r(r + 1)}{2} p^r (1 - p)^2 + \cdots\\
&= p^r \left[ 1 + r(1 - p) + \frac{r(r + 1)}{2} (1 - p)^2 + \cdots \right]\\
&= p^r \left[ 1 + [-r][-(1 - p)] + \frac{[-r][-r - 1]}{2!} [-(1 - p)]^2 + \cdots \right]\\
&= p^r [1 - (1 - p)]^{-r}\\
&= p^r p^{-r} = 1
\end{align*}
$$
此分布會被稱為"負"二項的原因,是因為存在$[1 - (1 - p)]^{-r}$的"負"次方的二項式級數。<br>
依序計算負二項分布(失敗次數$Y$)的動差生成函數、期望值、變異數,這三個重要的參數。
$$
\begin{align*}
M_Y(t) &= E[e^{tY}]\\
&= \sum^n_{y = 0} e^{ty} f_Y(y)\\
&= \sum^n_{y = 0} e^{ty} C^{y + r - 1}_{r - 1} \cdot p^r (1 - p)^y\\
&= \sum^n_{y = 0} C^{-r}_y \cdot p^r [(-1) \cdot (1 - p) \cdot e^t]^y \quad\because C^{-r}_y = (-1)^y C^{y + r - 1}_{r - 1}\\
&= p^r \sum^n_{y = 0} C^{-r}_y p^r [-(1 - p) e^t]^y\\
&= p^r (1 - (1 - p) e^t)^{-r} \quad\because (1 + x)^k = \sum^\infty_{n = 0} C^k_n x^n, |x| < 1\\
&= \left( \frac{p}{1 - (1 - p)e^t} \right)^r , t > \ln(\frac{1}{1 - p})\\
\ln M_Y(t) & = r\ln p - r \ln(1 - (1 - p)e^t)\\
E[Y] &= \frac{d [\ln M_Y(t)]}{dt} \Bigg|_{t = 0}\\
&= r \left( \frac{(1 - p)e^t}{1 - (1 - p)e^t} \right) \Big|_{t = 0}\\
&= r \left( \frac{1 - p}{1 - (1 - p)} \right)\\
&= r \left( \frac{1 - p}{p} \right)\\
\mathrm{Var}(Y) &= \frac{d^2 [\ln M_Y(t)]}{dt^2} \Bigg|_{t = 0}\\
&= r \left( \frac{[(1 - p)e^t] [1 - (1 - p)e^t] - [(1 - p)e^t] [-(1 - p) e^t]}{(1 - (1 - p)e^t)^2} \right) \Big|_{t = 0}\\
&= r \left( \frac{(1 - p)p + (1 - p)^2}{p^2} \right)\\
&= r \left( \frac{1 - p}{p^2} \right)\\
\end{align*}
$$
由於失敗次數$Y$加上成功次數$1$等於執行次數$X$,記為$X = Y + r$,因此
$$
\begin{align*}
M_X(t) &= E[e^{tX}]\\
&= E[e^{t(Y + r)}]\\
&= M_Y(t) e^{rt}\\
E[X] &= E[Y] + r\\
\mathrm{Var}(X) &= \mathrm{Var}(Y)
\end{align*}
$$
最後探討模型之間的關係,若$n$個幾何分布的隨機變數獨立且同分布(iid),則隨機變數相加為負二項分布。
$$
X_1, X_2, \ldots, X_r, \text{ where } X_i \sim G(p) \overset{\text{iid}}{\longrightarrow} X = X_1 + X_2 + \cdots + X_n \sim NB(r, p)
$$
---
### 多項式分布(Multinomial distribution) $\mathbf{X} \sim MN(n, p_1, p_2, \ldots, p_k)$
[ch5 白努利試驗(Bernoulli Trial)](#白努利試驗Bernoulli-Trial)其中一項定義為"結果只有2種",若將其推廣結果為$k$種,則稱為多項試驗(multinomial trials)。執行$n$次多項試驗,成功的機率個別為$p_1, p_2, \ldots p_k$,令隨便向量$\mathbf{X} = [X_1, X_2, \ldots, X_k]$為個別隨機變數成功的次數,則多項式分布的PMF為
$$
P(X_1 = x_1, X_2, = x_2, \ldots, X_k = x_k) = \frac{n!}{x_1!x_2! \cdots x_k!} \cdot p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}
$$
先排座位,根據[ch1 排列組合](#排列組合)中不盡相異物的排列數,再入座機率。
<br><br>
依序計算多項式分布的結合動差生成函數、單變數的期望值、單變數的變異數,這三個重要的參數。
$$
\begin{align*}
M_{\mathbf{X}}(t_1, t_2, \ldots, t_k) &= E[e^{t_1 X_1} \cdot e^{t_2 X_2} \cdots e^{t_k X_k}]\\
&= \sum_{x_1 \in X_1} \sum_{x_2 \in X_2} \cdots \sum_{x_1 \in X_k} e^{t_1 x_1} \cdot e^{t_2 x_2} \cdots e^{t_k x_k} \left( \frac{n!}{x_1!x_2! \cdots x_k!} \cdot p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k} \right)\\
&= \sum_{x_1 \in X_1} \sum_{x_2 \in X_2} \left( \frac{n!}{x_1!x_2! \cdots x_k!} \right) [(p_1 e^{t_1})^{x_1}] [(p_2 e^{t_2})^{x_2}] \cdots [(p_k e^{t_k})^{x_k}]\\
&= (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n\\
E[X_1] &= \frac{\partial}{\partial t_1} (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)}\\
&= (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n \cdot p_1 e^{t_1} \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)}\\
&= n(p_1 + p_2 + \cdots + p_k)^{n - 1} p_1\\
&= np_1\\
E[X_1^2] &= \frac{\partial^2}{\partial t_1^2} (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)}\\
&= n(n - 1) (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^{n - 2}(p_1 e^{t_1})(p_1 e^{t_1})\\
&\quad\;+ n(p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^{n - 1} \cdot p_1 e^{t_1} \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)}\\
&= n(n - 1)p_1^2 + np_1\\
\mathrm{Var}(X_1) &= E[X_1^2] - E[X_1]^2\\
&= ( n(n - 1)p_1^2 + np_1) - (np_1)^2\\
&= np_1 (1 - p_1)
\end{align*}
$$
觀察上式中$E[X_1], \mathrm{Var}(X_1)$與二項分布的期望值與變異數相同,此為**多項試驗退化為白努利試驗的結果,取決於觀測者不同的觀察角度**,舉例來說同一個骰子觀測者A觀察骰子有6種可能結果,屬於多項試驗,而觀測者B只在乎骰子點數一點有無出現次數,結果從6種退化成只有2種,屬於白努利試驗。
<br><br>
最後計算共變異數與相關係數。
$$
\begin{align*}
\mathrm{Cov}(X_1 X_2) &= E[X_1, X_2] - E[X_1] E[X_2]\\
&= \frac{\partial^2}{\partial t_1 t_2} (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)} -(np_1)(np_2)\\
&= n(n - 1)p_1 p_2 -(np_1)(np_2)\\
&= -np_1 p_2\\
\rho_{X_1, X_2} &= \frac{\mathrm{Cov}(X_1 X_2)}{\sigma_{X_1} \sigma_{X_2}}\\
&= \frac{-np_1 p_2}{ \sqrt{np_1 (1 - p_1)} \sqrt{np_2 (1 - p_2)} }\\
&= -\sqrt{ \frac{p_1 p_2}{(1 - p_1)(1 - p_2)} }
\end{align*}
$$
由原關係$X_1 + X_2 = n$可看出當$X_1$增加,則在$n$固定之下,$X_2$必減少,因此呈現負相關,共變數與相關係數皆為負值。
---
## ch6 連續型機率變數模型
### 綱要
- 均勻分布
- 高斯/常態分布
- 求解任意高斯函數區間機率 - 先標準化再查表
- 指數分布 (等待1次事件的時間、兩次事件發生的間隔)
- gamma分布 (等待n次事件的時間)
- 卡方分布 (標準常態分佈的平方)
- 無記憶性有離散型的幾何分布、連續型的指數分布
- 二維結合高斯分布的MPDF、CPDF、JMGF
- n維結合高斯分布線性組合仍是n維結合高斯分布且獨立與不相關等價
---
### 均勻分布(Uniform distribution) $X \sim U[a, b]$
隨機變數$X$的PDF為
$$
f_X(x) = \begin{cases}
\frac{1}{b - a} , & a \leq x \leq b\\
0, &\text{elsewhere}
\end{cases}
$$
依序計算均勻分布的動差生成函數、期望值、變異數,這三個重要的參數。
$$
\begin{align*}
M_X(t) &= E[e^{tX}]\\
&= \int^b_a e^{tx} f_X(x)dx\\
&= \int^b_a e^{tx} \left( \frac{1}{b - a} \right)dx\\
&= \frac{1}{b - a} \frac{1}{t} (e^{tb} - e^{ta})\\
E[X] &= \int^b_a x f_X(x)dx\\
&= \int^b_a x \left( \frac{1}{b - a} \right) dx\\
&= \frac{1}{2} \left( \frac{1}{b - a} \right) (b^2 - a^2)\\
&= \frac{a + b}{2} \qquad\ldots\text{midpoint}\\
\mathrm{Var}(X) &= E[X^2] - (E[X])^2\\
&= \int^b_a x^2 \left( \frac{1}{b - a} \right) dx - \frac{a + b}{2}\\
&= \frac{b^2 + ab + a^2}{3} - \frac{a + b}{2}\\
&= \frac{(a - b)^2}{12} \qquad\ldots\frac{(\text{interval})^2}{12}
\end{align*}
$$
任意隨機變數$X$的CDF$F_X(x)$為連續函數,則經過[ch4 單->單變數變換(連續型)法1 - 累積函數法](#單-gt單變數變換連續型法1---累積函數法),隨機變數$Y$必為均勻分布。
$$
\begin{align*}
F_Y(y) &= P(Y \leq y)\\
&= P(F_X(x) \leq y)\\
&= P(X \leq F^{-1}_X(y))\\
&= F_X(F^{-1}_X(y))\\
&= y\\
f_Y(y) &= \frac{d}{dy}F_Y(y) = 1, 0 \leq y \leq 1 \sim U[0, 1]
\end{align*}
$$
在應用分面,計算機生成的均勻分布$Y \sim U[0, 1]$,經過適當的變數變換$X = F^{-1}(Y)$後,就可以生成任意機率分布的CDF $F(x)$。
---
### 高斯/常態分布(Normal/Gaussian distribution) $X \sim N(\mu, \sigma^2)$
對白努利試驗而言,當$n \to \infty, p \to 0, \lambda \triangleq np$時二項分布可以近似於Poisson分布,而另一種近似的函數就是高斯分布,根據De Moivre-Laplace定理,當$n p (1 - p) \gg 1$時,則是事件發生率為
$$
C^n_x p^x (1 - p)^{n - x} \approx \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}, \mu \triangleq np, \sigma \triangleq \sqrt{np(1 - p)}
$$
因此定義高斯/常態分佈為隨機變數$X$的PDF
$$
f_X(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$
其中$\mu$稱為位置參數,為眾數(機率最大)、中位數(剛好把機率分半)、平均數;$\sigma$稱為形狀參數,為標準差,決定PDF的胖瘦。
<br><br>
檢驗上式是否符合PDF總和機率為1的條件,積分時做變數變換將指數上面的東西"打包"成一單變數,並使用到[極座標的積分技巧](https://www.youtube.com/watch?v=JD5R5_DFpkY)。
$$
\begin{align*}
\int^\infty_{-\infty} f_X(x) dx &= \int^\infty_{-\infty} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}} dx\\
& \text{set } u = \frac{x - \mu}{\sqrt{2}\sigma}, du = \frac{dx}{\sqrt{2} \sigma}, dx = \sqrt{2} \sigma du\\
&= \int^\infty_{-\infty} \frac{1}{\sqrt{2\pi} \sigma} e^{-u^2} (\sqrt{2} \sigma du)\\
&= \frac{1}{\sqrt{\pi}} \int^\infty_{-\infty} e^{-u^2}du\\
&= \frac{1}{\sqrt{\pi}} \sqrt{\int^\infty_{-\infty} e^{-u^2}du \cdot \int^\infty_{-\infty} e^{-w^2}dw}\\
&= \frac{1}{\sqrt{\pi}} \sqrt{\int^{2\pi}_0 \int^\infty_0 e^{-r^2} rdrd\theta}\\
&= \frac{1}{\sqrt{\pi}} \cdot \sqrt{\pi}\\
&= 1
\end{align*}
$$
依序計算高斯分布的動差生成函數、期望值、變異數,這三個重要的參數。
$$
\begin{align*}
M_X(t) &= E[e^{tX}]\\
&= \int^\infty_{-\infty} e^{tx} f_X(x)\\
&= \int^\infty_{-\infty} e^{tx} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}} dx\\
&= \int^\infty_{-\infty} e^{ \frac{-1}{2\sigma^2}\{-2\sigma^2 tx\} } \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{1}{2\sigma^2} \{ (x^2 -2\mu x + \mu^2 \}} dx\\
&= \int^\infty_{-\infty} \frac{1}{\sqrt{2\pi} \sigma} e^{ \frac{-1}{2 \sigma^2} \{ x^2 - 2(\mu + \sigma^2 t)x \} } \cdot e^{ \frac{-1}{2 \sigma^2} (\mu^2)} dx\\
&= \frac{1}{\sqrt{2\pi}\sigma} \int^\infty_{-\infty} e^{ \frac{-1}{2 \sigma^2} \{ x - (\mu + \sigma^2 t)\}^2 } dx \cdot e^{\mu t + \frac{1}{2} \sigma^2 t^2}\\
&= e^{\mu t + \frac{1}{2} \sigma^2 t^2}\\
\ln M_X(t) & = \mu t + \frac{1}{2} \sigma^2 t^2\\
E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\
&= \mu + \sigma^2 t \Big|_{t = 0}\\
&= \mu\\
\mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\
&= \sigma^2 \Big|_{t = 0}\\
&= \sigma^2
\end{align*}
$$
最後探討模型之間的關係,若$n$個獨立的高斯分布相加還是高斯分布。
$$
X_1, X_2, \ldots, X_n, X_i \sim N(\mu_i, \sigma_i^2) \overset{\text{independent}}{\longrightarrow} X = X_1 + X_2 + \cdots X_n\sim N(\sum^n_{i = 1} \mu_i, \sum^n_{i = 1} \sigma_i^2)
$$
現實中許多隨機現象$X$本身雖不具有常態分布,但經過[ch4 變數變換](#ch4-變數變換)單變數轉換,對其取對數$Y = \ln(X)$後,就會表現出常態分布的性質,稱為對數常態分布(Log-Normal distribution)
---
### 高斯/常態分布的其他性質
高斯轉換$X \sim N(\mu, \sigma^2)$經過線性運算$Y = aX + b$依然是高斯分布$N(a\mu + b, a^2 \sigma^2)$。
$$
\begin{align*}
M_Y(t) &= E[e^{tY}]\\
&= E[e^{t(aX + b)}]\\
&= e^{tb} E[e^{(at) X}]\\
&= e^{tb} M_X(at)\\
&= e^{tb} e^{\mu (at) + \frac{1}{2} \sigma^2 (at)^2}\\
&= e^{(a\mu + b) + \frac{1}{2} (a^2 \sigma^2) t^2}
\end{align*}
$$
因此就可定義高斯分布的標準化
$$
Z = \frac{X - \mu}{\sigma}
$$
將任意高斯經過標準化後化為$Z \sim N(0, 1)$,而$Z \sim N(0, 1)$稱為標準常態分布或是Z分布,其CDF稱為phi function
$$
\Phi(z) = f_X(Z \geq x) = \int^\infty_{x} \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}dz
$$
phi function的性質為對y軸對稱($\mu = 0$),因此$\Phi(-z) = 1 - \Phi(z), \Phi(0) = \frac{1}{2}$,而phi function的補事件就是Q function $Q(z) = 1 - \Phi(z)$,積分範圍為標準常態分佈的尾端機率(tail probability),在通訊領域會大量用到。
<br><br>
欲計算任意高斯分布$X \sim N(\mu, \sigma^2)$的區間機率$P(a < x < b)$,首先做標準化後化為標準常態分布,再來查Phi function的表。
$$
\begin{align*}
P(a < x < b) &= P\left(\frac{a - \mu}{\sigma} < \underbrace{\frac{x - \mu}{\sigma}}_{Z \sim N(0, 1)} < \frac{b - \mu}{\sigma} \right)\\
&= \Phi(\frac{b - \mu}{\sigma}) - \Phi(\frac{a - \mu}{\sigma})
\end{align*}
$$
若phi function算出來是負的,則使用對稱性質$\Phi(-z) = 1 - \Phi(z)$,將其轉換為正的phi function才可以查到表。
---
### 指數分布(Exponential distribution)$X \sim E(\lambda)$
[波松程序(Poisson process) - 與時間有關](#波松程序Poisson-process---與時間有關)提及,對波松程序而言,在$(0,t)$秒時間內發生的次數$x$呈現波松分布
$$
P(X = x) = \frac{e^{-\lambda t} (\lambda t)^x}{x!} \sim Po(\lambda t), \lambda : \text{mean occurrence rate}
$$
![](https://raw.githubusercontent.com/HsuChiChen/image_hosting_service/main/2022/11/20221109_194116-3.jpg)<br>
首先令隨機變數$T$為兩件事情的間隔時間,由於連續型隨機變數單點機率無意義,所以先求其CDF,為**在$(0,t)$時間內至少一次事件發生的機率**$P(T \leq t)$,使用補事件改為$1 - P(T > t)$,也就是說在$(0,t)$時間內沒有任何事件發生,也就是發生的次數$x = 0$的波松分布,並對CDF微分可得PDF。
$$
\begin{align*}
F_T(t) &= P(T \leq t)\\
&= 1 - P(T > t)\\
&= 1 - P(\text{nothing happens in } (0, t))\\
&= 1 - P(X = 0), X \sim Po(\lambda t)\\
&= 1- \frac{e^{-\lambda t} (\lambda t)^0}{0!}\\
&= 1 - e^{-\lambda t}\\
f_T(t) &= \frac{d F_T(t)}{dt} = \lambda e^{-\lambda t}
\end{align*}
$$
因此定義指數分布,其隨機變數$X$的PDF遵循
$$
f_X(x) = \lambda e^{-\lambda x}, x > 0, \lambda > 0
$$
其中隨機變數$X$代表等待一次需要花的時間,而$\lambda$為事件的平均發生率(mean occurrence rate,單位是"次/時間"),由於單位時間內發生的次數$Y$為$E[Y] = \lambda$,因此兩次事件發生的時間間隔即為其倒數$E[X] = \frac{1}{E[X]} = \frac{1}{\lambda}$。
<br><br>
依序計算指數分布的動差生成函數、期望值、變異數,這三個重要的參數。
$$
\begin{align*}
M_X(t) &= E[e^{tX}]\\
&= \int^\infty_{-\infty} e^{tx} f_X(x)\\
&= \int^\infty_0 e^{tx} \cdot \lambda e^{-\lambda x} dx\\
&= \lambda \int^\infty_0 e^{(t - \lambda)x} dx, t - \lambda < 0\\
&= \frac{\lambda}{\lambda - t}, t < \lambda\\
\ln M_X(t) & = \ln \lambda - \ln(\lambda - t)\\
E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\
&= 0 - \frac{-1}{\lambda - t} \Big|_{t = 0}\\
&= \frac{1}{\lambda}\\
\mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\
&= \frac{0 - 1(-1)}{(\lambda - t)^2} \Big|_{t = 0}\\
&= \frac{1}{\lambda^2}
\end{align*}
$$
指數分布可視為gamma分布在$\alpha = 1, \beta = \frac{1}{\lambda}$時的特例
$$
Gamma(1,\frac{1}{\lambda}) = \frac{x^{1 - 1} e^{-\frac{x}{1/\lambda}} }{ \Gamma(1) \cdot (\frac{1}{\lambda})^1 } = \lambda e^{-\lambda x} = E(\lambda)
$$
同理動差生成函數、期望值、變異數
$$
\begin{align*}
M_X(t) &= \frac{1}{(1 - \beta t)^\alpha} = \frac{1}{(1 - \frac{1}{\lambda} t)^1} = \frac{\lambda}{\lambda - t}\\
E[X] &= \alpha \beta = 1 \cdot \frac{1}{\lambda} = \frac{1}{\lambda}\\
\mathrm{Var}(X) &= \alpha \beta^2 = 1 \cdot \left( \frac{1}{\lambda} \right)^2 = \frac{1}{\lambda^2}
\end{align*}
$$
---
### gamma分布 $X \sim Gamma(\alpha, \beta)$
gamma分布,其隨機變數$X$的PDF遵循
$$
f_X(x) = \frac{x^{\alpha - 1} e^{-\frac{x}{\beta}} }{ \Gamma(\alpha) \cdot \beta^\alpha }, x \geq 0, \alpha > 0, \beta > 0
$$
> [gamma函數](https://www.youtube.com/watch?v=JD5R5_DFpkY)的定義與性質
$$
\begin{align*}
& \Gamma(x) = \int^\infty_0 t^{x - 1} e^{-t} dt\\
& \Gamma(x + 1) = \Gamma(x),\; \Gamma(1) = \Gamma(2) = 1,\; \Gamma(\frac{1}{2}) = \sqrt{\pi}\\
& \Gamma(n + 1) = n!, n \in \mathbb{N}
\end{align*}
$$
其中$\alpha$稱為形狀(shape)參數、$\frac{1}{\beta} = \lambda$稱為尺度(scale)參數。意義在於**等待$\alpha$次事件發生的時間**,為指數函數的廣義推廣,因此就可探討模型之間的關係,**若$\alpha$個獨立且同分布(iid)的指數分布相加後會是gamma分布**。
$$
X_1, X_2, \ldots, X_\alpha, X_i \sim E(\lambda) \overset{\text{iid}}{\longrightarrow} X = X_1 + X_2 + \cdots X_n\sim Gamma(\alpha, \frac{1}{\lambda})
$$
依序計算gamma分布的動差生成函數、期望值、變異數,這三個重要的參數。
$$
\begin{align*}M_X(t) &= E[e^{tX}]\\
&= \int^\infty_{-\infty} e^{tx} f_X(x)\\
&= \int^\infty_0 e^{tx} \cdot \frac{x^{\alpha - 1} e^{-\frac{x}{\beta}} }{ \Gamma(\alpha) \cdot \beta^\alpha } dx\\
&= \frac{1}{\Gamma(\alpha) \beta^\alpha} \int^\infty_0 x^{\alpha - 1} e^{-\left( \frac{1}{\beta} - t\right)x} dx\\
&= \frac{1}{\Gamma(\alpha) \beta^\alpha} \int^\infty_0 \frac{z^{\alpha - 1}}{\left( \frac{1}{\beta} - t \right)^{\alpha - 1}} e^{-z} dz \cdot \frac{1}{\frac{1}{\beta} - t}\\
&= \frac{1}{\Gamma(\alpha) \beta^\alpha} \cdot \frac{1}{\left( \frac{1}{\beta} - t \right)^\alpha} \cdot \Gamma(\alpha)\\
&= \frac{1}{(1 - \beta t)^\alpha}, t < \frac{1}{\beta}\\
\ln M_X(t) & = -\alpha \ln(1 - \beta t)\\
E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\
&= -\alpha\frac{-\beta}{1 - \beta t} \Big|_{t = 0}\\
&= \alpha \beta\\
\mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\
&= \frac{0 - (\alpha \beta)(-\beta)}{(1 - \beta t)^2} \Big|_{t = 0}\\
&= \alpha \beta^2
\end{align*}
$$
---
### 卡方分布(chi-square distribution) $X \sim \chi^2(n)$
卡方分布,其隨機變數$X$的PDF遵循
$$
f_X(x) = \frac{x^{\frac{n}{2} - 1} e^{-\frac{x}{2}} }{ \Gamma(\frac{n}{2}) \cdot 2^{\frac{n}{2}} }, x \geq 0, n \in \mathbb{N}
$$
記為$X \sim \chi^2(n)$,其中$n$稱為自由度(degree of freedom),$n \in \mathbb{N}$,卡方分布可視為gamma分布在$\alpha = \frac{n}{2}, \beta = 2$時的特例。
<br><br>
探討模型之間的關係,**$n$個標準常態分布的平方相加後,會是卡方分布**。
$$
Z_1, Z_2, \ldots, Z_n, Z_i \sim N(0, 1) \longrightarrow X = Z_1^2 + Z_2^2 + \cdots Z_n^2 \sim \chi^2(n)
$$
使用[ch4 單->單變數變換(連續型)法2 - 分割區間法](#單-gt單變數變換連續型法2---分割區間法)證明自由度是1的卡方分布。
$$
\begin{align*}
& \text{goal : find } Z = X^2, \text{where } X \sim N(0, 1)\\
& Z_1 : Z \leq 0\\
& X = Z^2 \to Z = - \sqrt{x}\\
& f_{X_1}(y) = f_Z(z = - \sqrt{x}) \Bigg| \frac{d(- \sqrt{x})}{dy} \Bigg| = \frac{1}{\sqrt{2\pi}} e^{-\frac{(-\sqrt{x})^2}{2}} \cdot \frac{1}{2\sqrt{x}}\\
&\qquad\;\ = \frac{1}{2 \sqrt{2\pi} \sqrt{x}} e^{-\frac{x}{2}}, x \geq 0\\
& Z_1 : Z \geq 0\\
& X = Z^2 \to Z = \sqrt{x}\\
& f_{X_2}(y) = f_Z(z = \sqrt{y}) \frac{d(- \sqrt{x})}{dx} = \frac{1}{\sqrt{2\pi}} e^{\frac{(-\sqrt{y})^2}{2}} \cdot \frac{1}{2\sqrt{x}}\\
&\qquad\;\ = \frac{1}{2 \sqrt{2\pi} \sqrt{x}} e^{-\frac{x}{2}}, x \geq 0\\
& f_X(x) = f_{X_1}(x) + f_{X_2}(x) = \frac{1}{\sqrt{2\pi} \sqrt{x}} e^{-\frac{x}{2}} = \frac{x^{\frac{1}{2} - 1} e^{-\frac{x}{2}} }{ \Gamma(\frac{1}{2}) \cdot 2^{\frac{1}{2}} }, x \geq 0, X \sim \chi^2(1)
\end{align*}
$$
---
### 波松程序的解題流程
綜合上述觀念,波松程序解題流程第一步是由題意求得平均時間的發生率$\lambda$ (次數/時間),再來求以下3個
1. 次數(離散) - 在時間$(t, t + T)$內事件發生次數 $X \sim Po(\lambda T)$
2. 時間(連續) - 等待$1$次事件發生的時間(兩次事件發生的間隔) $T \sim E(\lambda)$
3. 時間(連續) - 等待$n$次事件發生的時間 $T \sim Gamma(n, \frac{1}{\lambda})$
---
### 無記憶性(memoryless)
無記憶性代表過去發生的事件與現在無關,定義為
$$
P(X \geq s + t \mid X \geq s ) = P(X \geq t)
$$
舉例來說客戶等待$s$秒的前提下,還需要多等$t$秒的機率,與之前是否等待$s$秒無關。
$$
\begin{align*}
\frac{P(X \geq s + t)}{P( X \geq s)} &= \frac{\sum^\infty_{x = s + t + 1} p(1 - p)^{x - 1}}{\sum^\infty_{x = s + 1} p(1 - p)^{x - 1}} = \frac{(1 - p)^{s + t}}{(1 - p)^s} = (1 - p)^t = P(X \geq t)\\
\frac{P(X \geq s + t)}{P( X \geq s)} &= \frac{\int^\infty_{s + t} \lambda e^{-\lambda x }dx}{\int^\infty_s \lambda e^{-\lambda x }dx } = \frac{e^{-\lambda(s + t)}}{e^{-\lambda s}} = e^{-\lambda t} = P(X \geq t)
\end{align*}
$$
根據上述定義可證明離散型的幾何分布$X \sim G(p)$無記憶性,因為前$r$次失敗都不影響下次可能會失敗或是成功的機率,因為每次試驗都是獨立的白努利試驗;而連續型的指數分布$X \sim E(\lambda)$無記憶性,因為事件的平均發生率(mean occurrence rate) $\lambda$是常數,而不是時間的函數,故不隨時間改變。
---
### 失敗率(failure rate)
$$
R(x) \triangleq \lim_{\Delta \to 0} \frac{P(x \leq X \leq x + \Delta x \mid X \geq x)}{\Delta x}
$$
在時間點$x$,物品仍然存活的條件之下,在故障發生在下一刻$x + \Delta x$的條件機率,也就是單位時間的事件發生率
$$
\begin{align*}
R(x) &\triangleq \lim_{\Delta \to 0} \frac{P(x \leq X \leq x + \Delta x \mid X \geq x)}{\Delta x}\\
&= \lim_{\Delta \to 0} \frac{1}{\Delta x} \frac{P(x \leq X \leq x + \Delta x)}{P(X \geq x)}\\
&= \lim_{\Delta \to 0} \frac{1}{\Delta x} \frac{f(x) \Delta x}{1 - P(X \leq x)}\\
&= \frac{f(x)}{1 - F(x)} = \frac{f(x)}{\overline{F}(x)}
\end{align*}
$$
**失敗率為PDF除以CDF的補事件**。<br>
將指數函數帶入上式計算失敗率
$$
R(x) = \frac{f(x)}{\overline{F}(x)} = \frac{\lambda e^{-\lambda x}}{1 - (1 - e^{-\lambda x})} = \lambda = \text{const.}
$$
代表物件今天故障與明天故障的機率是相同的,所以前面才會推得指數分布是無記憶性。
---
### 結合高斯分布
二維結合高斯分布$S = X, Y \sim BN(\mu_1, \sigma_1^2, \mu_2, \sigma_2^2, \rho)$的PDF為
$$
f_{X,Y}(x, y) = \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2\rho \left(\frac{x - \mu_1}{\sigma_1} \right) \left(\frac{y- \mu_2}{\sigma_2} \right) + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right)
$$
欲計算二維結合高斯分布的**邊際機率密度函數(MPDF)** $f_X(x), f_Y(y)$,由於計算量太大,需要半背半推,依序與$X$無關的常數提出來、補上數字使其變成完全平方式,接下來與常態分布相關的常數放在外面,最後後面那項的指數積分剛好與分母消掉得到答案。
$$
\begin{align*}
f_Y(y) &= \int^\infty_{-\infty} \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2\rho \left(\frac{x - \mu_1}{\sigma_1} \right) \left(\frac{y- \mu_2}{\sigma_2} \right) + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right) dx\\
&= \frac{\exp\left( -\frac{1}{2(1 - \rho^2)}\left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right)}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \int^\infty_{-\infty} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2 \left(\frac{x - \mu_1}{\sigma_1} \right) \rho \left(\frac{y- \mu_2}{\sigma_2} \right) + \rho^2 \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right) dx \cdot \exp\left(\frac{1}{2(1 - \rho^2)} \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \rho^2 \right)\\
&= \frac{1}{\sqrt{2\pi} \sigma_2} \exp\left(-\frac{1}{2} \left( \frac{y - \mu_2}{\sigma_2} \right)^2 \right)
\end{align*}
$$
因此可推得二維高斯分布的邊際機率密度函數就是一維高斯分布$Y \sim N(\mu_2, \sigma_2)$,同理$f_X(x)$。
<br><br>
欲計算二維結合高斯分布的**條件機率密度函數(Conditional PDF) $f(x \mid y)$、條件期望值$E[X \mid Y]$、條件變異數$\mathrm{Var}(X \mid Y)$**
$$
\begin{align*}
f(x \mid y) &= \frac{f_{X, Y}(x, y)}{f_Y(y)}\\
&= \frac{\frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2\rho \left(\frac{x - \mu_1}{\sigma_1} \right) \left(\frac{y- \mu_2}{\sigma_2} \right) + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right)}{\frac{1}{\sqrt{2\pi} \sigma_2} \exp\left(-\frac{1}{2} \left( \frac{y - \mu_2}{\sigma_2} \right)^2 \right)}\\
&= \cdots\\
&= \frac{1}{\sqrt{2\pi} \sigma_1 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)\sigma_1^2} \left[ x - \left(\mu_1 + \rho \frac{\sigma_1}{\sigma_2}(y - \mu_2 )\right) \right]^2 \right)\\
&\therefore \text{rv's } X \mid Y \sim N\left( \underbrace{\mu_1 + \rho \frac{\sigma_1}{\sigma_2}(y - \mu_2 )}_{= E[X \mid Y]},\quad \underbrace{\sigma_2^2 (1 - \rho^2)}_{= \mathrm{Var}(X \mid Y)} \right)
\end{align*}
$$
二維結合高斯分布的**結合動差形成函數(JMGF)**(證明省略,不會考)為
$$
M_{X, Y}(t_1, t_2) = \exp\left( \mu_X t_1 + \mu_Y t_2 + \frac{1}{2}(\sigma_X^2 t^2 + 2\rho \sigma_X \sigma_Y t_1 t_2 + \sigma_Y^2 t^2) \right)
$$
給定隨機向量$\mathbf{X} = [X_1, X_2, \ldots, X_n]^T$,屬於n維結合高斯分布,若隨機向量$\mathbf{Y}$為$\mathbf{X}$的線性組合$\mathbf{Y} = \mathbf{Ax} + \mathbf{b}$,則$\mathbf{Y}$也為結合高斯分布(證明省略),並且其平均值$\mathbf{\mu}_Y$與變異數$\mathbf{C}_Y$為
$$
\begin{align*}
\mathbf{\mu}_Y &= E[\mathbf{Y}]\\
&= E[\mathbf{Ax} + \mathbf{b}]\\
&= \mathbf{A} E[\mathbf{X}] + \mathbf{b}\\
&= \mathbf{A} \mathbf{\mu}_X + \mathbf{b}\\
\mathbf{C}_Y &= E[(\mathbf{Y} - \mathbf{\mu}_Y) (\mathbf{Y} - \mathbf{\mu}_Y)]\\
&= E[\mathbf{A} (\mathbf{X} - \mathbf{\mu}_X) (\mathbf{X} - \mathbf{\mu}_X) \mathbf{A}^T]\\
&= \mathbf{A} E[(\mathbf{X} - \mathbf{\mu}_X) (\mathbf{X} - \mathbf{\mu}_X)] \mathbf{A}^T\\
&= \mathbf{A} \mathbf{C}_X \mathbf{A}^T
\end{align*}
$$
參照[ch3 獨立 ⇒ 不相關,but不相關 !⇒ 獨立](#獨立-⇒-不相關,but不相關-!⇒-獨立),但有兩個例外(獨立與不相關等價),一是二位元傳輸、二是結合高斯分布,二維結合高斯分布的證明如下 - 給定二維結合高斯分布的隨機變數$X, Y$不相關,因此相關係數$\rho = 0$
$$
\begin{align*}
f_{X, Y}(x, y) &= \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2\rho \left(\frac{x - \mu_1}{\sigma_1} \right) \left(\frac{y- \mu_2}{\sigma_2} \right) + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right)\\
&= \frac{1}{2\pi \sigma_1 \sigma_2} \exp\left( -\frac{1}{2} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right)\\
&= \left( \frac{1}{\sqrt{2\pi} \sigma_1} \exp\left(-\frac{1}{2} \left( \frac{x - \mu_1}{\sigma_1} \right)^2 \right) \right) \cdot \left( \frac{1}{\sqrt{2\pi} \sigma_2} \exp\left(-\frac{1}{2} \left( \frac{y - \mu_2}{\sigma_2} \right)^2 \right) \right)\\
&= f_X(x) \cdot f_Y(y)
\end{align*}
$$
---
## ch7 機率不等式、取樣、極限定理
### 綱要
- 馬可夫不等式 - 單尾端的機率有上限(平均值除以$a$)
- 柴比雪夫不等式 - 雙尾端的機率有上限(變異數除以$\epsilon$的平方)
- 樣本平均數、樣本變異數、大數法則、中央極限定理
---
### 馬可夫不等式(Markov's inequality)
若隨機變數$X$符合2個條件 - 值域大於0 $S_X = \{ x \leq 0 \}$、平均值$\mu$存在,則
$$
P(X \geq a) \leq \frac{\mu}{a}
$$
代表大於$a$,**單尾端的機率有上限**,此上限為平均值除以$a$。<br>
證明
$$
\begin{align*}
\mu &\triangleq \int^\infty_0 x \cdot f_X(x) dx\\
&= \int^a_0 x f_X(x)dx + \int^\infty_a x f_X(x)dx\\
&\geq \int^\infty_a x f_X(x)dx \quad \because \int^a_0 x f_X(x)dx \geq 0\\
&\geq a \int^\infty_a f_X(x)dx \quad x \in (a, \infty)\\
&= a P(X \geq a)
\end{align*}
$$
----
### 柴比雪夫不等式(Chebyshev's inequality)
若隨機變數$X$符合2個條件 - 平均值$\mu$存在、變異值$\sigma^2$存在,則
$$
P( \mid X - \mu \mid \geq \epsilon ) \leq \frac{\sigma^2}{\epsilon^2}
$$
代表向左右延伸$\epsilon$以外雙尾端的機率有上限,此上限為變異數除以$\epsilon$的平方。根據補空間概念,上式可推得$\epsilon$以內中心區域的機率有下限為$P( \mid X - \mu \mid \leq \epsilon ) \geq 1 - \frac{\sigma^2}{\epsilon^2}$。
$$
\begin{align*}
\sigma^2 &\triangleq \int^\infty_{-\infty} (x - \mu)^2 \cdot f_X(x) dx\\
&= \int^{\mu - \epsilon}_{-\infty} (x - \mu)^2 \cdot f_X(x) dx + \int^{\mu + \epsilon}_{\mu - \epsilon} (x - \mu)^2 \cdot f_X(x) dx + \int^\infty_{\mu + \epsilon} (x - \mu)^2 \cdot f_X(x) dx\\
&\geq \int^{\mu - \epsilon}_{-\infty} (x - \mu)^2 \cdot f_X(x) dx + \int^\infty_{\mu + \epsilon} (x - \mu)^2 \cdot f_X(x) dx \quad \because \int^{\mu + \epsilon}_{\mu - \epsilon} (x - \mu)^2 \cdot f_X(x) dx \geq 0\\
&\geq \epsilon^2 \int^{\mu - \epsilon}_{-\infty} f_X(x) dx + \epsilon^2 \int^\infty_{\mu + \epsilon} f_X(x) dx \quad \because X < \mu - \epsilon \to X - \mu < -\epsilon \to (X - \mu)^2 > \epsilon^2\\
&= \epsilon^2 P( \mid X - \mu \mid \geq \epsilon )
\end{align*}
$$
---
### 樣本平均數、樣本變異數、大數法則
簡單隨機抽樣(simple random sampling)是指從母體任意抽取$n$個單位作為樣本$X_1, X_2, \ldots, X_n$,每個簡單樣本獨立且同分布(idd),其分布等同母體分布。
<br><br>
樣本平均數
$$
E[\overline{X}] = E[\frac{1}{n} (X_1 + X_2 + \ldots + X_n)] = \frac{1}{n}(n\mu)= \mu
$$
樣本變異數
$$
\mathrm{Var}(\overline{X}) = \mathrm{Var}(\frac{1}{n} (X_1 + X_2 + \ldots + X_n)) = \frac{1}{n}(\mathrm{Var}(X_1) + \cdots + \mathrm{Var}(X_n)) = \frac{1}{n^2} (n\sigma^2) = \frac{\sigma^2}{n}
$$
當測量越精確,$n \to \infty$,樣本變異數$\mathrm{Var}(\overline{X}) = \lim_{n \to \infty} \frac{\sigma^2}{n} = 0$,代表每次實驗都會是平均值$\mu$,**樣本平均數趨近於母體的平均值,稱為大數法則(large number rule)**。
---
### 中央極限定理
任意母體$X(\mu, \sigma^2)$取出來的簡單樣本$X_1, X_2, \ldots, X_n$,做樣本平均數
$$
\overline{X}_n = \frac{1}{n} (X_1 + X_2 + \cdots X_n) \sim X(\mu, \sigma^2)
$$
再做標準化
$$
\overline{Z}_n = \frac{\overline{X}_n - \mu}{\frac{\sigma}{\sqrt{n}}} \sim X'(0, 1)
$$
當$n$趨近無限大會是標準常態分佈
$$
\overline{Z}_n \overset{n \to \infty}{\longrightarrow} N(0, 1)
$$
考題有2種,若$X_1, X_2, \ldots, X_n$取自母體$X(\mu, \sigma^2)$的一組簡單樣本
1. 平均型
$$
\lim_{n \to \infty} \overline{X}_n = \lim_{n \to \infty} \left( \frac{1}{n} (X_1 + X_2 + \cdots X_n) \right) \sim N(\mu, \frac{\sigma^2}{n})
$$
2. 總和型
$$
\lim_{n \to \infty} S_n = \lim_{n \to \infty} (X_1 + X_2 + \cdots X_n) \sim N(n\mu, n\sigma^2)
$$
由於呈現高斯分布,所以利用[ch6 高斯/常態分布的其他性質](#高斯/常態分布的其他性質)求解高斯函數區間機率 - 先標準化再查表。