考研
機率
數學
機率模型 | PMF \(f_X(x)\) | MGF \(m_X(t)\) | \(E[X]\) | \(\mathrm{Var}(X)\) | 模型關係 |
---|---|---|---|---|---|
白努利分布 \(X \sim B(1, p)\) | \(p^x (1 - p)^{1 - x}\) | \(1 - p + p e^t\) | \(p\) | \(p(1 - p)\) | X |
二項分布 \(X \sim B(n, p)\) | \(C^n_x p^x (1 - p)^{n - x}\) | \((1 - p + p e^t)^n\) | \(np\) | \(np(1 - p)\) | \(\Sigma B(1, p) = B(n, p)\)、當\(n \to \infty, p \to 0\)時二項分布近似成波松分布 |
波松分布 \(X \sim Po(\lambda), \lambda \triangleq np\) | \(\frac{e^{-\lambda} \lambda^x}{x!}\) | \(e^{\lambda (e^t - 1)}\) | \(\lambda\) | \(\lambda\) | \(Po(\lambda_1) + Po(\lambda_2) = Po(\lambda_1 + \lambda_2)\) |
幾何分布 \(X \sim G(p)\) | \(1 \cdot p (1 - p)^{x - 1}\) | \(\frac{p e^t}{1 - (1 - p)e^t}\) | \(\frac{1}{p}\) | \(\frac{1 - p}{p^2}\) | n次白努利試驗第1次成功的機率 |
負二項分布 \(X \sim NB(p)\) | \(C^{x - 1}_{r - 1} \cdot p^r (1 - p)^{x - r}\) | \(\left( \frac{p e^t}{1 - (1 - p)e^t} \right)^r\) | \(r \left( \frac{1}{p} \right)\) | \(r \left( \frac{1 - p}{p^2} \right)\) | \(\Sigma G(p) = NB(r, p)\) |
均勻分布 \(X \sim U[a, b]\) | \(\frac{1}{b - a}\) | \(\frac{1}{b - a} \frac{1}{t} (e^{tb} - e^{ta})\) | \(\frac{a + b}{2}\) | \(\frac{(\text{interval})^2}{12}\) | 設任意機率模型的CDF為轉換函數則轉換後為\(U \sim [0,1]\) |
高斯分布 \(X \sim N(\mu, \sigma^2)\) | \(\frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}\) | \(e^{\mu t + \frac{1}{2} \sigma^2 t^2}\) | \(\mu\) | \(\sigma^2\) | \(\Sigma N(\mu_i, \sigma_i^2) = N(\sum^n_{i = 1} \mu_i, \sum^n_{i = 1} \sigma_i^2)\) |
指數分布 \(X \sim E(\lambda)\) | \(\lambda e^{-\lambda x}\) | \(\frac{\lambda}{\lambda - t}\) | \(\frac{1}{\lambda}\) | \(\frac{1}{\lambda^2}\) | X |
gamma分布 \(X \sim Gamma(\alpha, \beta)\) | \(\frac{x^{\alpha - 1} e^{-\frac{x}{\beta}} }{ \Gamma(\alpha) \cdot \beta^\alpha }\) | \(\frac{1}{(1 - \beta t)^\alpha}\) | \(\alpha \beta\) | \(\alpha \beta^2\) | \(\Sigma E(\lambda) = Gamma (\alpha, \frac{1}{\lambda})\) |
一隨機試驗的樣本空間\(S\),\(A\)為\(S\)中的任一事件,因此所有事件的集合即為樣本空間的冪集\(F\),定義機率測度\(P : F \to R\)為樣本空間的冪集映射至實數的實係數函數,並滿足以下三大機率公理
根據三大機率公理就可以證明出很多機率的定理,大部分的證明幾乎都是用到是第三點公理。例如機率的排容原理\(P(A \cup B) = P(A) + P(B) - P(A \cup B)\)的證明
對於兩機率不為0的事件\(A,B\)而言 \[ \begin{align*} & \text{events } A \text{ and } B \text{ are independent}\\ \Leftrightarrow\; & P(A \mid B) = P(A) \tag{1}\\ \Leftrightarrow\; & P(B \mid A) = P(B) \tag{2}\\ \Leftrightarrow\; & P(A \cap B) = P(A)P(B) \tag{3} \end{align*} \] 式(1)與式(2)代表條件無用 - 在事件\(B\)發生有無的前提都與事件A會發生的機率無關;式(3)為ch1 計數原理有4個技巧乘法原理,代表\(A,B\)交集機率等於個別機率相乘,可以由式(1)、式(2)移項推導\(P(A \mid B) = P(A) \Rightarrow \frac{P(A \cap B)}{P(B)} = P(A)\)。
\(A\)與\(B\)互斥 \(\Leftrightarrow A \cap B = \phi \Leftrightarrow P(A \cap B) = P(\phi) = 0\)
定理為
\[
\begin{align*}
& \text{events } A \text{ and } B \text{ are independent}\\
\Leftrightarrow\; & \text{events } A \text{ and } \overline{B} \text{ are independent} \tag{4}\\
\Leftrightarrow\; & \text{events } \overline{A} \text{ and } B \text{ are independent} \tag{5}\\
\Leftrightarrow\; & \text{events } \overline{A} \text{ and } \overline{B} \text{ are independent} \tag{6}\\
\end{align*}
\]
式(6)證明\(p \Rightarrow q\)如下,使用"夾擊法"的證明技巧
\[
\begin{align*}
& \text{events } A \text{ and } B \text{ are independent} \Rightarrow\; P(A \cap B) = P(A)P(B)\\
\because\; & P(A) = P(A \cap B) + P(A \cap \overline{B})\\
\therefore\; & P(A \cap \overline{B}) = P(A) - \underbrace{P(A \cap B)}_{= P(A)P(B)} = P(A)(1 - P(B)) = P(A \cap \overline{B}) = P(A)P(\overline{B})\\
& P(A \cap \overline{B}) = P(A)P(\overline{B}) \Rightarrow \text{events } A \text{ and } \overline{B} \text{ are independent}\\
\end{align*}
\]
需要注意3個以上的事件獨立,不只要兩個事件成對獨立\(P(A \cap B) = P(A)P(B), \ldots\),更要保證三個事件彼此也是獨立\(P(A \cap B \cap C) = P(A)P(B)P(C)\),同理推廣到\(n\)個事件互為獨立的條件,由此可知獨立事件的條件是分嚴格。
獨立事件的應用為燈泡開關的迴路問題,若串聯元件\(A,B\)彼此獨立,則導通機率為\(P(A \cap B) = P(A)P(B)\);若並聯元件\(A,B\)彼此獨立,則導通機率為\(P(A \cup B) = P(A) + P(B) - P(A \cap B) = P(A) + P(B) - P(A)P(B)\)。
事件集\(\{ E_1, E_2, \ldots, E_n \}\),若集合中任二個事件為互斥\(E_i \cap E_j = \phi\),且\(E_1 \cup E_2 \cup \ldots \cup E_n = S\)樣本空間,稱為分割(partition)或是互斥無遺漏集合。對任意事件\(A\)恆有 \[ \begin{align*} P(A) &= P(A \cap E_1) + P(A \cap E_2) + \cdots + P(A \cap E_n)\\ &= P(A \mid E_1)P(E_1) + P(A \mid E_2)P(E_2) + \cdots + P(A \mid E_n)P(E_n) \end{align*} \] 白話來說分割就是把樣本空間拆成一塊塊拼圖,全機率定理就是把拼圖一塊塊拼出來,再將其轉成個別條件機率,在實際情況中事件的全貌\(P(A)\)不容易取得,需要靠條件機率的一塊塊拼圖\(P(A \mid E_i)P(E_i)\)得知事情全貌。
適用於題目給\(P(A \mid E_i)\),求\(P(E_k \mid A)\),事件和條件對調的問題。若\(\{ E_1, E_2, \ldots, E_n \}\)為樣本空間\(S\)的一組分割,則任意機率大於0的事件\(A\)恆有 \[ P(E_i \mid A) = \frac{P(E_i \cap A)}{P(A)} = \frac{P(A \mid E_i) P(E_i)}{\sum^n_{j = 1} P(A \mid E_j)P(E_j)} \] 分子使用條件機率推得,分母使用全機率定理推得,一般貝氏定理都是使用樹狀圖分析求得。
隨機變數不具有隨機性,也不是一個變數,隨機變數\(X\)是函數,把定義域上"抽象"的樣本空間\(S\)中每一個樣本點\(\omega\),映射到值域上"具體"、可執行加減乘除運算的實數系\(\mathbb{R}\)上,記為\(X : S \to S_X, S_X = \{ X(\omega) \mid \omega \in S, X \in \mathbb{R}\}\)。隨機變數是一個劃時代的概念,從古典機率僅能執行集合運算,透過隨機變數將抽象的集合映射到實數系,到近代機率可以執行加減乘除、微分、積分運算。需要注意原機率空間\(\{S, E, P( \cdot)\}\)透過隨機變數\(X\)映射到新的機率空間\(\{S_X, E_X, P_X( \cdot)\}\)依然滿足機率的三大公理。
根據隨機變數值域\(S_X\)的種類又可分為3種
PMF常使用單位脈衝來表示,假設有樣本點\(x_1, x_2, \ldots\),則PMF \(f_X(x) = \sum c_n \delta(x - x_i)\)。
機率密度函數(PDF, probability density function)
給定連續型隨機變數\(X\),且\(S_X\)是其值域,\(E\)為\(S_X\)的任一部分集合,則機率密度函數\(f_X(x)\)滿足
\[
P_X(E) = \int_{x \in E} f_X(x) dx
\]
PDF具有以下性質
累積分布函數(CDF, cumulative distribution function)
設連續型隨機變數\(X\)的PDF為\(f_X(x)\),則CDF則是把\(x_0\)點以前的PDF"積分"起來。
\[
F_X(x_0) = P_X(X \leq x_0) = \int^x_{-\infty} f_X(t)dt
\]
連續型隨機變數的CDF具有以下5個性質
在解題上,第一步是畫出結合機率分析表。
結合機率質量函數(joint PMF, joint probability mass function)
若有2個離散型的隨機變數\(X,Y\),則JPMF在\(x=x_0, y= y_0\)的值為單點機率
\[
f_{X, Y}(x = x_0, y = y_0) = P_X(X = x_0, Y = y_0)
\]
JPMF類似PMF滿足以下2個性質
邊際機率質量函數(marginal PMF, marginal probability mass function)
將不要的變數全部相加,將兩個隨機變數退化為一個隨機變數。
\[
f_X(x) = \sum_Y f_{X, Y}(x, y)\\
f_Y(y) = \sum_X f_{X, Y}(x, y)
\]
JPMF類似PMF滿足以下2個性質
結合累積分布函數(joint CDF, joint cumulative distribution function) 若有2個離散型的隨機變數\(X,Y\),則JCMF \(F_{X,Y}(x_0, y_0)\)就是把二維點\((x_0, y_0)\)以下的面積加起來,做機率累積 \[ F_{X, Y}(x_0,y_0) = P_X(X \leq x_0, Y \leq y_0) \] JCDF具有以下4個性質
在解題上,第一步是畫出值域\(S_{X,Y}\)圖。
結合機率密度函數(joint PDF, joint probability density function)
給定連續型隨機變數\(X, Y\),且\(S\)是其值域,\(E\)為\(S\)的任一部分集合,則機率密度函數\(f_{X,Y}(x, y)\)滿足
\[
P(E) = \int\int_{(x, y) \in E} f_{X, Y}(x, y) dxdy
\]
PDF具有以下性質
邊際機率密度函數(marginal PDF, marginal probability density function)
將不要的變數全部積分起來,將兩個隨機變數退化為一個隨機變數。
\[
f_X(x) = \int^\infty_{-\infty} f_{X, Y}(x, y) dy\\
f_Y(y) = \int^\infty_{-\infty} f_{X, Y}(x, y) dx
\]
JPDF類似PDF滿足以下2個性質
結合累積分布函數(joint CDF, joint cumulative distribution function)
設連續型隨機變數\(X,Y\)的JPDF為\(f_{X,Y}(x, y)\),則JCDF則是把\((x_0, y_0)\)點以前的JPDF"積分"起來。
\[
F_{X,Y}(x_0, y_0) = P(X \leq x_0, Y \leq y_0) = \int^x_{-\infty} \int^y_{-\infty} f_{X,Y}(s, t)dtds
\]
連續型隨機變數的JCDF具有以下6個性質
\(n\)個隨機變數,寫成向量的形式\(X = (X_1, X_2, \ldots, X_n)^T\),稱為隨機向量,若皆是連續型隨機變數,同理可定義JPDF、MPDF、JCDF、MCDF。
若隨機變數\(X,Y\)的結合機率函數\(f_{X, Y}(x, y)\)、邊際機率函數\(f_X(x), f_Y(y)\)則
給定隨機變數\(X_1, X_2, \ldots, X_n\), joint PDF \(f(X_1, X_2, \ldots, X_n)\), marginal PDF \(f(X_1), f(X_2), \ldots, f(X_n)\), joint CDF \(F(X_1, X_2, \ldots, X_n)\), marginal CDF\(F(X_1), F(X_2), \ldots, F(X_n)\) \[ \begin{align*} & \text{rv's } X_1, X_2, \ldots, X_n \text{ are independent}\\ \Leftrightarrow\;& f(X_1, X_2, \ldots, X_n) = f(X_1)f(X_2) \cdots f(X_n)\\ \Leftrightarrow\;& F(X_1, X_2, \ldots, X_n) = F(X_1)F(X_2) \cdots F(X_n) \end{align*} \] \(n\)個隨機變數獨立的定義為個別PDF(CDF)相乘等於聯合的PDF(CDF),而ch1 獨立事件中\(n\)個事件獨立的定義不僅需要\(n\)個事件成對獨立,還需要兩兩事件成對獨立、三三事件成對獨立等,條件較為"嚴格"。欲快速判斷隨機變數\(X, Y\)是否互為獨立,首先判斷\(X\)與\(Y\)的值域有無關聯,再來看joint PDF是否可以分離變數\(f_{X, Y}(x, y) \overset{?}{=} g(x)h(y)\)。
給定隨機變數\(X\)與其PMF/PDF\(f_X(x)\),則\(g(x)\)的期望值為 \[ E[g(x)] \triangleq \begin{cases} \sum_{x \in S_X} g(x) f_X(x)\\ \int^\infty_{-\infty} g(x) f_X(x)dx \end{cases} \] 由上式可知,期望值就是加權平均,這個權重就是機率分布函數。
給定隨機變數\(X\),其PMF/PDF \(f_X(x)\),則\(X\)的變異數為
\[
\mathrm{Var}(X) \triangleq E\{(X - \mu_X)^2\}
= \begin{cases}
\sum_{x \in S_x}(x- \mu_X)^2 f_X(x)\\
\int^\infty_{-\infty} (x - \mu_X)^2 f_X(x)dx
\end{cases}
\]
變異數為將所有數值與平均值的誤差做平方再取期望值,稱為均方誤差(MSE - mean square
error),當隨機變數的PMF/PDF較鬆散時,變異數大;反之PMF/PDF較密集時,變異數小。進一步推導變異數
\[
\begin{align*}
E\{(X - \mu_X)^2\} &= E\{X^2 - 2X\mu_X + \mu_x^2 \}\\
&= E[X^2] - 2E[X] \cdot \mu_X + \mu_X^2\\
&= E[X^2] - \mu_X^2
\end{align*}
\]
可以得到變異數較方便計算的公式 - 二階動差 - (一階動差)2。
由於變異數\(E\{(X - \mu_X)^2\} > 0\),因此定義標準差為變異數的開根號\(\sigma_X \triangleq \sqrt{\mathrm{Var}(X)}\)。
如2022上一段日記 03/14(一)的動差形成函數與特徵函數,需要注意動差形成函數有收斂範圍(ROC),而特徵函數則沒有。另外機率質量/密度函數\(f_X(x)\)、特徵函數\(\Phi(\omega)\)、動差生成函數\(M_X(s)\)這三者中只要知道任一項,即可求其他兩項(可被唯一決定)。 \[ \begin{align*} \mathscr{L}^{-1} &\downarrow\uparrow \mathscr{L}\\ &f_X(x) \to m_n = \int^\infty_{-\infty} x^n f_X(x)dx\\ \mathscr{F} &\downarrow\uparrow \mathscr{F}^{-1}\\ &\Phi(\omega) \to m_n = (-j)^n\frac{d^n\Phi}{d\omega^n}\Bigg|_{\omega = 0}\\ \omega = \frac{s}{j} &\downarrow\uparrow s = j\omega\\ &M_X(s) \to m_n = \frac{d^nM(s)}{ds^n}\Bigg|_{s = 0} \end{align*} \] 其中Laplace Transform與Fourier Transform與工數的定義上差了一個負號,但這兩種定義是等效的。 \[ \begin{align*} M_X(s) &= \mathscr{L}\{f_X(x)\} = \int^\infty_{-\infty} e^{sx} f_X(x)dx\\ \Phi(\omega) &= \mathscr{F}\{f_X(x)\} = \int^\infty_{-\infty} e^{j\omega x} f_X(x)dx \end{align*} \]
期望值屬於一階(原點)動差,因此具有線性運算的性質,即\(E[g(X) + h(Y)] = E[g(X)] + E[h(Y)]\),但是期望值的乘法不能拆開,只有在隨機變數\(X,Y\)是獨立的條件下\(E[g(X) \cdot h(Y)] = E[g(X)] \cdot E[h(Y)]\)。
線性代數篇 ch6 範數(norm)介紹線性代數版的柯西不等式,也有個機率版的柯西不等式,證明為令新的隨機變數\(Z = Y - \lambda X, \forall \lambda \in R\),並計算\(E[Z^2]\)
\[
E[XY]^2 \leq E[X^2]E[Y^2]
\]
當\(P[Y = \alpha X] = 1\)時,"="才會成立。
變異數為二階中心動差,與期望值不同,不具有線性運算,而變異數的其他性質為
\[
\mathrm{Var}(aX + b) = a^2\mathrm{Var}(X)
\]
給定隨機變數\(X, Y\)與平均值\(\mu_X, \mu_Y\),則共變數
\[
\mathrm{Cov}(X, Y) = E[(X - \mu_X)(Y - \mu_Y)] = \sigma_{XY}
\]
其意義在於比較隨機變數\(X, Y\)之間的相關性,\(\mathrm{Cov}(X, Y) > 0\)代表正相關、\(\mathrm{Cov}(X, Y) < 0\)代表負相關、\(\mathrm{Cov}(X, Y) = 0\)代表不相關。
進一步推導
\[
\begin{align*}
\mathrm{Cov}(X, Y) &= E[(X - \mu_X)(Y - \mu_Y)]\\
&= E[XY - \mu_X Y - \mu_Y X + \mu_X \mu_Y]\\
&= E[XY] - \mu_X E[Y] - \mu_Y E[X] + \mu_X \mu_Y\\
&= E[XY] - \mu_X\mu_Y
\end{align*}
\]
可以得到共變數較方便計算的公式。
與變異數做比較
\[
\begin{align*}
\mathrm{Var}(X) &\triangleq E\{(X - \mu_X)(X - \mu_X)\}\\
&= E[X^2] - \mu_X^2\\
&= \mathrm{Cov}(X, X) = \sigma_X^2 \geq 0
\end{align*}
\]
可以發現變異數就是自己跟自己的共變數,代表比較自己跟自己的關係。
共變數可以判斷兩隨機變數\(X, Y\)的相關性,但只能定性,不能定量,需要除以各自隨機變數的標準差,得到定量的相關係數。 \[ \rho_{XY} \triangleq \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{E[XY] - \mu_X \mu_Y}{\sqrt{E[X^2] - \mu_X^2} \sqrt{E[Y^2] - \mu_Y^2}} \] 性質 - 相關係數指介於-1到1之間,即\(-1 \leq \rho_{XY} \leq 1\)。 \[ \begin{align*} & \text{set } U = X - \mu_X, V = Y - \mu_Y\\ & E[UV]^2 \leq E[U^2] E[V^2] \quad \ldots \text{Cauchy–Schwarz inequality}\\ \Rightarrow\;& \mathrm{Cov}(X, Y)^2 \leq \mathrm{Var}(X) \mathrm{Var}(Y)\\ \Rightarrow\;& \left( \frac{\mathrm{Cov}(X, Y)}{\sigma_X \sigma_Y} \right)^2 = \rho_{XY}^2 \leq 1\\ \Rightarrow\;& -1 \leq \rho_{XY} \leq 1 \end{align*} \]
\[
\begin{align*}
& X, Y \text{ are uncorrelated}\\
\Leftrightarrow\;& \mathrm{Cov}(X, Y) = 0\\
\Leftrightarrow\;& \rho_{XY} = 0\\
\Leftrightarrow\;& E[XY] = E[X]E[Y]\\
& X, Y \text{ are independent}\\
\Leftrightarrow\;& f_{X,Y}(x, y) = f_X(x) f_Y(y)\\
\Leftrightarrow\;& F_{X,Y}(x, y) = F_X(x) F_Y(y)\\
\Leftrightarrow\;& E[g(X) h(Y)] = E[g(X)]E[h(Y)]
\end{align*}
\]
由獨立與不相關等效的第3的定義可知,獨立是任意\(g(X),h(Y)\)的\(n\)階動差都可拆開,等效於\(M(s_1,s_2) = M_X(s_1) \cdot M_Y(s_2)\),而不相關是僅有一階動差能拆開\(E[XY] = E[X]E[Y]\),因此獨立可以推得不相關,但不相關無法推得獨立。
但有兩個例外(獨立與不相關等價)
將共變數推廣至\(n\)個隨機變數。給定隨機向量\(\mathbf{X}\)與平均值向量\(\mathbf{\mu}_X\) \[ \mathbf{X} = \begin{bmatrix} X_1\\ X_2\\ \vdots\\ X_n\end{bmatrix}, \mathbf{\mu}_X = \begin{bmatrix} \mu_1\\ \mu_2\\ \vdots\\ \mu_n\end{bmatrix} \] 共變數矩陣 \[ \begin{align*} \mathrm{Cov}(\mathbf{X}) &\triangleq E[(\mathbf{X} - \mathbf{\mu}_X)(\mathbf{X} - \mathbf{\mu}_X)^T]\\ &= E[\mathbf{X} \mathbf{X}^T] - \mathbf{\mu}_X \mathbf{\mu}_X^T\\ &= \begin{bmatrix} \sigma_{X_1}^2 & \sigma_{X_1 X_2} & \cdots & \sigma_{X_1 X_n}\\ \sigma_{X_2 X_1} & \sigma_{X_2}^2 & \cdots & \sigma_{X_2 X_n}\\ \vdots & \vdots &\ddots & \vdots\\ \sigma_{X_n X_1} & \sigma_{X_n X_2} & \cdots & \sigma_{X_n}^2\\ \end{bmatrix} \end{align*} \] 共變數矩陣有兩個重要的特性
給定隨機變數\(X, Y\)與其PMF/PDF \(f_{X, Y}(x, y)\)
\[
E[g(X) \mid y] \triangleq \begin{cases}
\sum_{x \in S_X} g(x) f(x \mid y)\\
\int^\infty_{-\infty} g(x) f(x \mid y)dx
\end{cases}\\
E[g(Y) \mid x] \triangleq \begin{cases}
\sum_{y \in S_Y} g(y) f(y \mid x)\\
\int^\infty_{-\infty} g(y) f(y \mid x)dx
\end{cases}
\]
其中\(E[g(X) \mid y]\)為取\(g(x)\)這個函數的期望值,故先把這個函數拿進來;而期望值是作加權平均,這個權重在此就是條件機率函數\(f(x \mid y)\),並對要做期望值的函數做相加/積分,也就是\(x\)的函數。
可以觀察上式條件期望值就是條件\(y\)的函數,當條件\(y\)改變時,樣本空間改變,因此機率分布,也就是\(x\)的範圍改變,最終期望值跟著改變。
\[
E[E[g(X) \mid Y]] = E[g(X)]
\]
口訣為條件期望值做兩次,則條件可以拿掉。證明如下
\[
\begin{align*}
E[g(X) \mid Y] &= \int^\infty_{-\infty} g(x) f(x \mid y)dx\\
&= \int^\infty_{-\infty} g(x) \frac{f_{X,Y}(x, y)}{f_Y(y)} dx\\
&= W(y) \quad \text{a funtion of } y\\
E[E[g(X) \mid Y]] &= E[W(y)]\\
&= \int^\infty_{-\infty} W(y) f_Y(y)dy\\
&= \int^\infty_{-\infty} \left[ \int^\infty_{-\infty} g(x) \frac{f_{X,Y}(x, y)}{f_Y(y) } dx \right] f_Y(y)dy\\
& \int^\infty_{-\infty}\int^\infty_{-\infty} g(x) f_{X, Y}(x, y) dxdy\\
&= E[g(X)]
\end{align*}
\]
變數變換為機率的轉移,將舊的隨機變數\(X\)對應到新的隨機變數\(Y\),把那些機率合併起來,轉為\(Y\)的機率。 \[ S_X \overset{g(X) = Y}{\longrightarrow} S_Y \]
題目給定新的隨機變數\(Y = g(X)\),欲求其PDF \(f_Y(y)\)。由於連續型的PDF不具有機率的意義,故先求CDF,透過反函數求得與\(X\)的關係,最後再微分得PDF。 \[ \begin{align*} F_Y(y) &\triangleq P(Y \leq y) = P(g(X) \leq y)\\ &= \begin{cases} P(X \leq g^{-1}(y)) & g(x) \text{ is increment function}\\ P(X \geq g^{-1}(y)) & g(x) \text{ is decreasing function} \end{cases}\\ &= \begin{cases} \int^{g^{-1}(y))}_{-\infty} f_X(x)dx\\ \int^\infty_{g^{-1}(y))} f_X(x)dx \end{cases}\\ f_Y(y) &= \frac{d}{dy}F_Y(y), y \in S_Y \end{align*} \]
法1無法計算,為理論證明,法2偏向一般的計算考題 - 給定題目為非單調函數,解題步驟有以下3步
題目較連續型簡單,也較少,直接求\(Z\)的單點機率即可,繪製\(S_X, S_Y, g(X, Y) = z\)值域圖,決定值域\(S_Z\)與累積區域\(R\),最後進行累加 \[ P_Z(z) = P(Z = z) = P(g(X, Y) = z) = \sum_x \sum_y f_{X,Y}(x, y), z \in R \]
繪製\(S_X, S_Y, g(X, Y) = z\)值域圖,決定值域\(S_Z\)與累積區域\(R\),最後進行積分 \[ \begin{align*} F_Z(z) &\triangleq P(Z \leq z)\\ &= P(g(X, Y) \leq z)\\ &= \int\int_R f_{X,Y}(x, y)dxdy\\ f_Z(z) &= \frac{dF_Z(z)}{dz}, z \in S_Z \end{align*} \]
以下3步為公式記憶的方式
只證明公式法第1點,其他證明略省 \[ \begin{align*} F_Z(z) &= P(Z \leq z)\\ &= P(X + Y \leq z)\\ &= \int\int_R f_{X, Y}(x, y)dxdy\\ &= \int^\infty_{-\infty}\int^{Z - Y}_{-\infty} f_{X, Y}(x, y)dxdy\\ f_Z(z) &= \frac{dF_Z(z)}{dz}\\ &= \int^\infty_{-\infty} \frac{d}{dz} \Big( \int^{Z - Y}_{-\infty} f_{X, Y}(x, y)dx \Big) dy\\ &= \int^\infty_{-\infty} \Big| \frac{\partial (z - y)}{\partial z} \Big| f_{X, Y}(x = z - y, y)dy\\ &= \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z - y, y)dy \end{align*} \]
給定隨機變數\(X,Y\)彼此獨立,而\(Z = X + Y\),若PDF分別為\(f_X(z), f_Y(z)\),MGF分別為\(M_X(s), M_Y(s)\),CF分別為\(\phi_X(\omega), \phi_Y(\omega)\),則
第1點證明從法2 - 公式法出發 \[ \begin{align*} Z = X + Y, \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z - y, y)dy &= \int^\infty_{-\infty} 1 \cdot f_{X}(z - y) f_Y(y)dy\\ &= f_X(z) * f_Z(z)\\ Z = X - Y, \int^\infty_{-\infty} 1 \cdot f_{X, Y}(x = z + y, y)dy &= \int^\infty_{-\infty} 1 \cdot f_{X}(z + y) f_Y(y)dy\\ &= f_X(-z) * f_Z(-z) \end{align*} \] 第2點證明複習ch3 獨立 ⇒ 不相關,but不相關 !⇒ 獨立兩隨機變數獨立的等價條件\(E[g(X) h(Y)] = E[g(X)]E[h(Y)]\) \[ M_Z(s) = E[e^{s(X + Y)}] = E[e^{sX} \cdot e^{sY)}] = E[e^{sX}] \cdot E[e^{sY)}] = M_X(s) \cdot M_Y(s) \] 特徵函數同理動差生成函數的推法 \[ \phi_Z(\omega) = E[e^{j\omega(X + Y)}] = E[e^{j\omega X} \cdot e^{j\omega Y}] = E[e^{j\omega X}] \cdot E[e^{j\omega Y}] = \phi_X(\omega) \cdot \phi_Y(\omega) \] 由Laplace Transform與Fourier Transform的性質互推這3點的性質 \[ M_Z(s) = \mathscr{F}\{ f_Z(z) \} = \mathscr{F}\{ f_X(z) * f_Y(z) \} = \mathscr{F}\{ f_X(z) \} \cdot \mathscr{F}\{ f_Y(z) \} = M_X(s) \cdot M_Y(s)\\ \phi_Z(\omega) = \mathscr{L}\{ f_Z(z) \} = \mathscr{L}\{ f_X(z) * f_Y(z) \} = \mathscr{L}\{ f_X(z) \} \cdot \mathscr{L}\{ f_Y(z) \} = \phi_X(\omega) \cdot \phi_Y(\omega) \]
ch3 動差形成函數(MGF)與特徵函數(CF)定義動差形成函數與特徵函數,給定隨機變數\(X,Y\)的JPDF \(f_{X, Y}(x, y)\),在此定義聯合動差形成函數(JMGF)
\[
M(s_1, s_2) = E[e^{s_1 X + s_2 Y}] = \int^\infty_{-\infty} \int^\infty_{-\infty} e^{s_1 x} e^{s_2 y} f_{X, Y}(x, y) dxdy
\]
上式即為\(2\)維的Laplace Transform。若令\(s_1 = 0\)或是\(s_2 = 0\),則JMGF會退化為單變數的邊際動差形成函數(MMGF)
\[
M_X(s_1) = M(s_1, 0) = E[e^{s_1 X + 0}] = \int^\infty_{-\infty} \int^\infty_{-\infty} e^{s_1 x} f_{X, Y}(x, y) dxdy = \int^\infty_{-\infty} e^{s_1 x} f_X (x) dx
\]
欲計算\(X\)與\(Y\)各階聯合動差
\[
E[X^m Y^n] = \frac{ \partial^{m + n} }{\partial_{s_1}^m \partial_{s_2}^n} M(s_1, s_2) \Big|_{s_1 = s_2 = 0}
\]
同理可定義聯合特徵函數(JCF)
\[
\phi(\omega_1, \omega_2) = E[e^{j\omega_1 X + j\omega_2 Y}] = \int^\infty_{-\infty} \int^\infty_{-\infty} e^{j\omega_1 x} e^{j\omega_2 y} f_{X, Y}(x, y) dxdy
\]
上式即為\(2\)維的Fourier Transform。若令\(\omega_1 = 0\)或是\(\omega_2 = 0\),則JCF會退化為單變數的邊際特徵函數(MCF)
\[
\phi(\omega_1) = \phi(\omega_1, 0) = E[e^{j\omega_1 X + 0}] = \int^\infty_{-\infty} \int^\infty_{-\infty} e^{j\omega_1 x} f_{X, Y}(x, y) dxdy = \int^\infty_{-\infty} e^{j\omega_1 x} f_X (x) dx
\]
欲計算\(X\)與\(Y\)各階聯合動差
\[
E[X^m Y^n] = (-j)^{m + n} \frac{ \partial^{m + n} }{\partial_{\omega_1}^m \partial_{\omega_2}^n} \phi(\omega_1, \omega_2) \Big|_{\omega_1 = \omega_2 = 0}
\]
可擴充ch3 獨立 ⇒ 不相關,but不相關 !⇒ 獨立中隨機變數獨立的等價條件 \[ \begin{align*} & X, Y \text{ are independent}\\ \Leftrightarrow\;& f_{X,Y}(x, y) = f_X(x) \cdot f_Y(y) &\text{JPDF = MPDF · MPDF}\\ \Leftrightarrow\;& F_{X,Y}(x, y) = F_X(x) \cdot F_Y(y) &\text{JCDF = MCDF · MCDF}\\ \Leftrightarrow\;& E[g(X) \cdot h(Y)] = E[g(X)] \cdot E[h(Y)]\\ \Leftrightarrow\;& f_{X \mid Y}(x \mid y) = f_X(x)\\ \Leftrightarrow\;& f_{X \mid Y}(x \mid y) = f_Y(y)\\ \Leftrightarrow\;& M(s_1, s_2) = M_X(s_1) \cdot M_Y(s_2) &\text{JMGF = MMGF · MMGF}\\ \Leftrightarrow\;& \phi(\omega_1, \omega_2) = \phi_X(\omega_1) \cdot \phi_Y(\omega_2) &\text{JCF = MCF · MCF} \end{align*} \] 式(3)證明\(p \Rightarrow q\),同理式(6)、式(7) \[ \begin{align*} E[g(X) \cdot h(Y)] &\triangleq \int^\infty_{-\infty}\int^\infty_{-\infty} g(x)h(y)f_{X, Y}(x, y) dxdy\\ &= \int^\infty_{-\infty}\int^\infty_{-\infty} g(x)h(y)f_X(x) \cdot f_Y(y) dxdy\\ &= \int^\infty_{-\infty} g(x)f_X(x)dx \cdot \int^\infty_{-\infty} h(y)f_Y(y)dx\\ &= E[g(X)] \cdot E[h(Y)] \end{align*} \] 式(4)證明\(p \Rightarrow q\),同理式(5) \[ \begin{align*} f_{X \mid Y}(x \mid y) &\triangleq \frac{f_{X, Y}(x, y)}{f_Y(y)}\\ &= \frac{f_X(x) \cdot f_Y(y)}{f_Y(y)}\\ &= f_X(x) \end{align*} \]
給定\(n\)個隨機變數\(X_1, X_2, \ldots, X_n\)獨立且其PDF為\(f_1(x_1), \ldots, f_n(x_n)\)、CDF為\(F_1(x_1), \ldots, F_n(x)\)。給定新的隨機變數為
\[
Y = \max(X_1, X_2, \ldots, X_n), Z = \min(X_1, X_2, \ldots, X_n)
\]
求\(f_Y(y), f_Z(z)\)。
解題步驟為先求CDF,並利用隨機變數獨立的性質將JCDF拆分為MCDF。
\[
\begin{align*}
F_Z(z) &= P(Z \leq z)\\
&= P(\min(X_1, \ldots, X_n) \leq z)\\
&= 1 - P(\min(X_1, \ldots, X_n) > z)\\
&= 1 - P(X_1 > z, X_2 > z, \ldots, X_n > z)\\
&= 1 - P(X_1 > z) \cdot P(X_2 > z) \cdots P(X_n > z)\\
&= 1 - (\int^\infty_{z} f_1(x_1)dx_1) \cdot(\int^\infty_{z} f_2(x_2)dx_2) \cdots (\int^\infty_{z} f_n(x_n)dx_n)\\
\end{align*}
\]
再來連續型對CDF微分就是PDF、離散型CDF相減就是PMF。
\[
\begin{align*}
P_Z(z) &= F_Z(z) - F_Z(z - 1)\\
f_Y(z) &= \frac{dF_Z(z)}{dz}
\end{align*}
\]
ch1 隨機試驗與機率空間中定義的隨機試驗,滿足3個條件
舉例來說丟銅板、取後放回的隨機取球。
執行\(1\)次白努利試驗,成功的機率為\(p\),令隨便變數\(X\)為成功的次數,則白努利分布的PMF為
\[
f_X(x) = p^x (1 - p)^{1 - x}, S_X = \{0, 1\}
\]
白努利分布即為執行一次白努利試驗,也就是二項分布在\(n = 1\)的特例,記為\(X \sim B(1, p)\)。
依序計算白努利分布的動差生成函數、期望值、變異數,這三個重要的參數。
\[
\begin{align*}
m_x(t) &= E[e^{tX}]\\
&= e^{t(0)} P(X = 0) + e^{t(1)} P(X = 1)\\
&= 1 \cdot (1 - p) + p \cdot e^t\\
&= 1 - p + p e^t\\
E[X] &= 1 \cdot P(X = 1) + 0 \cdot P(X = 0)\\
&= p\\
E[X^n] &= 1^n \cdot P(X = 1) + 0^n \cdot P(X = 0)\\
&= p\\
\mathrm{Var}(X) &= E[X^2] - (E[X])^2\\
&= p - p^2\\
&= p(1 - p)
\end{align*}
\]
執行\(n\)次白努利試驗,成功的機率為\(p\),令隨機變數\(X\)為成功的次數,則二項分布的PMF為
\[
f_X(x) = C^n_x p^x (1 - p)^{n - x}, S_X = \{0, 1, 2, \ldots, n\}
\]
首先先排座位,挑選\(x\)次成功次數,即為\(C^n_x\),再入座機率。
檢驗上式是否符合PMF總和機率為1的條件,使用到ch1 排列組合中的二項式展開。
\[
\sum_{x \in S_X} f_X(x) = \sum^n_{x = 0} C^n_x p^x (1 - p)^{n - x} = (p + 1 - p)^n = 1
\]
依序計算白努利分布的動差生成函數、期望值、變異數(期望值、變異數另一種算法 - MGF取ln再微分),這三個重要的參數。
\[
\begin{align*}
M_X(t) &= E[e^{tX}]\\
&= \sum^n_{x = 0} e^{tx} f_X(x)\\
&= \sum^n_{x = 0} e^{tx} C^n_x p^x (1 - p)^{n - x}\\
&= \sum^n_{x = 0} C^n_x (p e^t)^x (1 - p)^{n - x}\\
&= (1 - p + p e^t)^n \quad \because (x + y)^n = \sum^n_{k = 0} C^n_k x^k y^{n-k}\\
\ln M_X(t) & = n \ln(1 - p + p e^t)\\
E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\
&= n \cdot \frac{pe^t}{1 - p + p e^t} \Bigg|_{t = 0}\\
&= np\\
\mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\
&= np \cdot \frac{e^t(1 - p + p e^t) - (e^t)(p e^t)}{(1 - p + p e^t)^2} \Bigg|_{t = 0}\\
&= np(1 - p)
\end{align*}
\]
最後探討模型之間的關係
當二項分布白努利試驗次數趨近無限大\(n \to \infty\)(一般\(n \geq 30\)),成功機率\(p \to 0\)(一般\(p \leq 10\)),而期望值\(E[X] = np \triangleq \lambda\)趨於定值 \[ \begin{align*} f_X(x) &= C^n_x p^x (1 - p)^{n - x}\\ &= \frac{n!}{x! (n - x)!} \left( \frac{\lambda}{n} \right)^x (1 - \frac{\lambda}{n})^{n- x}\\ &= \frac{\lambda^x}{x!} \left( \frac{n \cdot (n - 1) \cdots (n - k + 1)}{n \cdot n \cdots n} \right) \left( 1 - \frac{\lambda}{n} \right)^n \left( 1 - \frac{\lambda}{n} \right)^{-k} \end{align*} \] 將三式的\(n \to \infty\)後分別為 \[ \begin{align*} & \lim_{n \to \infty} \left( \frac{n \cdot (n - 1) \cdots (n - k + 1)}{n \cdot n \cdots n} \right) = 1 \cdot 1 \cdots 1 = 1\\ & \lim_{n \to \infty} \left( 1 - \frac{\lambda}{n} \right)^n = \lim_{n \to \infty} \left( 1 + \frac{(-\lambda)}{n} \right)^n = e^{-\lambda}\\ & \lim_{n \to \infty} \left( 1 - \frac{\lambda}{n} \right)^{-k} = (1)^{-k} = 1 \end{align*} \] 最後得波松分布的PMF為 \[ f_X(x) = \frac{e^{-\lambda} \lambda^x}{x!}, S_X(x) = \{0, 1, 2, \ldots, n\}, \lambda \triangleq np \] 舉例來說,在通訊傳輸,一次傳輸的bit十分巨大\(n = 100k\),且錯誤率極小\(p = 10^{-6}\),透過波松分布就可近似二項分布。 \[ C^n_x p^x (1 - p)^{n - x} \approx \frac{e^{-\lambda} \lambda^x}{x!}, \lambda \triangleq np \] 檢驗上式是否符合PMF總和機率為1的條件,使用到微積分自然對數的泰勒展開式。 \[ \sum_{x \in S_X} f_X(x) = \sum^n_{x = 0} \frac{e^{-\lambda} \lambda^x}{x!} = e^{-\lambda} \sum^n_{x = 0} \frac{\lambda^x}{x!} = e^{-\lambda} \cdot e^\lambda = 1 \] 依序計算波松分布的動差生成函數、期望值、變異數,這三個重要的參數。 \[ \begin{align*} M_X(t) &= E[e^{tX}]\\ &= \sum^n_{x = 0} e^{tx} f_X(x)\\ &= \sum^n_{x = 0} e^{tx} \frac{e^{-\lambda} \lambda^x}{x!}\\ &= e^{-\lambda} \sum^n_{x = 0} \frac{(\lambda e^{t})^x}{x!}\\ &= e^{-\lambda} e^{\lambda e^t} \quad \because e^k = \sum^n_{n = 0} \frac{k^n}{n!}\\ &= e^{\lambda (e^t - 1)}\\ \ln M_X(t) & = \lambda (e^t - 1)\\ E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\ &= \lambda e^t \Big|_{t = 0}\\ &= \lambda\\ \mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\ &= \lambda e^t \Big|_{t = 0}\\ &= \lambda \end{align*} \] 最後探討模型之間的關係,獨立的波松分布相加還是波松分布。 \[ X_1 \sim Po(\lambda_1), X_2 \sim Po(\lambda_2) \overset{\text{independent}}{\longrightarrow} X = X_1 + X_2 \sim Po(\lambda_1 + \lambda_2) \] 由於波松分布是二項分布的特例,因此"繼承"二項分布的模型之間的關係。
已知在\((0, T)\)區間時間內共發生\(n\)個事件,則在\((t_1, t_2)\)區間的\(t\)時間內發生\(x\)個點(\(x < n\))的機率為何?
假設隨機程序為stationary,代表機率與絕對時間無關,只與相對時間長短有關,\(1\)個點落在\((t_1, t_2)\)內的機率為
\[
p = \frac{t}{T} \tag{1}
\]
則\(x\)個點落在\(t\)的機率則為二項分布,假設將時間切割很細,切成每一小區段機率\(p\)很低的白努利分布,因此\(n \gg 1, T \gg t\),二項分布可近似於Poisson分布
\[
C^n_x p^x (1 - p)^{n - x} \approx \frac{e^{-np} (np)^x}{x!} \tag{2}
\]
將式(1)帶入式(2),並定義單位時間的平均發生率\(\lambda = \frac{n}{T}\),可得在\((0,t)\)時間內發生的次數\(x\)
\[
P(X = x) = \frac{e^{-n\frac{t}{T}} (n\frac{t}{T})^x}{x!} = \frac{e^{-\lambda t} (\lambda t)^x}{x!} \sim Po(\lambda t)
\]
其中隨機程序\(X\)就是波松程序,可以視為Poisson分布的廣義結果,Poisson分布就是波松程序在\(t = 1\)時的特例。
執行一連串成功機率\(p\)的白努利試驗,直到第\(1\)次成功為止的機率,為負二項分布在成功次數\(r = 1\)時的特例。有兩種可能的隨機變數
執行一連串成功機率\(p\)的白努利試驗,直到第\(r\)次成功為止的機率。有兩種可能的隨機變數
ch5 白努利試驗(Bernoulli Trial)其中一項定義為"結果只有2種",若將其推廣結果為\(k\)種,則稱為多項試驗(multinomial trials)。執行\(n\)次多項試驗,成功的機率個別為\(p_1, p_2, \ldots p_k\),令隨便向量\(\mathbf{X} = [X_1, X_2, \ldots, X_k]\)為個別隨機變數成功的次數,則多項式分布的PMF為
\[
P(X_1 = x_1, X_2, = x_2, \ldots, X_k = x_k) = \frac{n!}{x_1!x_2! \cdots x_k!} \cdot p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k}
\]
先排座位,根據ch1 排列組合中不盡相異物的排列數,再入座機率。
依序計算多項式分布的結合動差生成函數、單變數的期望值、單變數的變異數,這三個重要的參數。
\[
\begin{align*}
M_{\mathbf{X}}(t_1, t_2, \ldots, t_k) &= E[e^{t_1 X_1} \cdot e^{t_2 X_2} \cdots e^{t_k X_k}]\\
&= \sum_{x_1 \in X_1} \sum_{x_2 \in X_2} \cdots \sum_{x_1 \in X_k} e^{t_1 x_1} \cdot e^{t_2 x_2} \cdots e^{t_k x_k} \left( \frac{n!}{x_1!x_2! \cdots x_k!} \cdot p_1^{x_1} p_2^{x_2} \cdots p_k^{x_k} \right)\\
&= \sum_{x_1 \in X_1} \sum_{x_2 \in X_2} \left( \frac{n!}{x_1!x_2! \cdots x_k!} \right) [(p_1 e^{t_1})^{x_1}] [(p_2 e^{t_2})^{x_2}] \cdots [(p_k e^{t_k})^{x_k}]\\
&= (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n\\
E[X_1] &= \frac{\partial}{\partial t_1} (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)}\\
&= (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n \cdot p_1 e^{t_1} \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)}\\
&= n(p_1 + p_2 + \cdots + p_k)^{n - 1} p_1\\
&= np_1\\
E[X_1^2] &= \frac{\partial^2}{\partial t_1^2} (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)}\\
&= n(n - 1) (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^{n - 2}(p_1 e^{t_1})(p_1 e^{t_1})\\
&\quad\;+ n(p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^{n - 1} \cdot p_1 e^{t_1} \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)}\\
&= n(n - 1)p_1^2 + np_1\\
\mathrm{Var}(X_1) &= E[X_1^2] - E[X_1]^2\\
&= ( n(n - 1)p_1^2 + np_1) - (np_1)^2\\
&= np_1 (1 - p_1)
\end{align*}
\]
觀察上式中\(E[X_1], \mathrm{Var}(X_1)\)與二項分布的期望值與變異數相同,此為多項試驗退化為白努利試驗的結果,取決於觀測者不同的觀察角度,舉例來說同一個骰子觀測者A觀察骰子有6種可能結果,屬於多項試驗,而觀測者B只在乎骰子點數一點有無出現次數,結果從6種退化成只有2種,屬於白努利試驗。
最後計算共變異數與相關係數。
\[
\begin{align*}
\mathrm{Cov}(X_1 X_2) &= E[X_1, X_2] - E[X_1] E[X_2]\\
&= \frac{\partial^2}{\partial t_1 t_2} (p_1 e^{t_1} + p_2 e^{t_2} + \cdots p_k e^{t_k})^n \Bigg|_{(t_1, t_2, \ldots, t_k) = (0, 0, \ldots, 0)} -(np_1)(np_2)\\
&= n(n - 1)p_1 p_2 -(np_1)(np_2)\\
&= -np_1 p_2\\
\rho_{X_1, X_2} &= \frac{\mathrm{Cov}(X_1 X_2)}{\sigma_{X_1} \sigma_{X_2}}\\
&= \frac{-np_1 p_2}{ \sqrt{np_1 (1 - p_1)} \sqrt{np_2 (1 - p_2)} }\\
&= -\sqrt{ \frac{p_1 p_2}{(1 - p_1)(1 - p_2)} }
\end{align*}
\]
由原關係\(X_1 + X_2 = n\)可看出當\(X_1\)增加,則在\(n\)固定之下,\(X_2\)必減少,因此呈現負相關,共變數與相關係數皆為負值。
隨機變數\(X\)的PDF為 \[ f_X(x) = \begin{cases} \frac{1}{b - a} , & a \leq x \leq b\\ 0, &\text{elsewhere} \end{cases} \] 依序計算均勻分布的動差生成函數、期望值、變異數,這三個重要的參數。 \[ \begin{align*} M_X(t) &= E[e^{tX}]\\ &= \int^b_a e^{tx} f_X(x)dx\\ &= \int^b_a e^{tx} \left( \frac{1}{b - a} \right)dx\\ &= \frac{1}{b - a} \frac{1}{t} (e^{tb} - e^{ta})\\ E[X] &= \int^b_a x f_X(x)dx\\ &= \int^b_a x \left( \frac{1}{b - a} \right) dx\\ &= \frac{1}{2} \left( \frac{1}{b - a} \right) (b^2 - a^2)\\ &= \frac{a + b}{2} \qquad\ldots\text{midpoint}\\ \mathrm{Var}(X) &= E[X^2] - (E[X])^2\\ &= \int^b_a x^2 \left( \frac{1}{b - a} \right) dx - \frac{a + b}{2}\\ &= \frac{b^2 + ab + a^2}{3} - \frac{a + b}{2}\\ &= \frac{(a - b)^2}{12} \qquad\ldots\frac{(\text{interval})^2}{12} \end{align*} \] 任意隨機變數\(X\)的CDF\(F_X(x)\)為連續函數,則經過ch4 單->單變數變換(連續型)法1 - 累積函數法,隨機變數\(Y\)必為均勻分布。 \[ \begin{align*} F_Y(y) &= P(Y \leq y)\\ &= P(F_X(x) \leq y)\\ &= P(X \leq F^{-1}_X(y))\\ &= F_X(F^{-1}_X(y))\\ &= y\\ f_Y(y) &= \frac{d}{dy}F_Y(y) = 1, 0 \leq y \leq 1 \sim U[0, 1] \end{align*} \] 在應用分面,計算機生成的均勻分布\(Y \sim U[0, 1]\),經過適當的變數變換\(X = F^{-1}(Y)\)後,就可以生成任意機率分布的CDF \(F(x)\)。
對白努利試驗而言,當\(n \to \infty, p \to 0, \lambda \triangleq np\)時二項分布可以近似於Poisson分布,而另一種近似的函數就是高斯分布,根據De Moivre-Laplace定理,當\(n p (1 - p) \gg 1\)時,則是事件發生率為
\[
C^n_x p^x (1 - p)^{n - x} \approx \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}, \mu \triangleq np, \sigma \triangleq \sqrt{np(1 - p)}
\]
因此定義高斯/常態分佈為隨機變數\(X\)的PDF
\[
f_X(x) = \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
\]
其中\(\mu\)稱為位置參數,為眾數(機率最大)、中位數(剛好把機率分半)、平均數;\(\sigma\)稱為形狀參數,為標準差,決定PDF的胖瘦。
檢驗上式是否符合PDF總和機率為1的條件,積分時做變數變換將指數上面的東西"打包"成一單變數,並使用到極座標的積分技巧。
\[
\begin{align*}
\int^\infty_{-\infty} f_X(x) dx &= \int^\infty_{-\infty} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}} dx\\
& \text{set } u = \frac{x - \mu}{\sqrt{2}\sigma}, du = \frac{dx}{\sqrt{2} \sigma}, dx = \sqrt{2} \sigma du\\
&= \int^\infty_{-\infty} \frac{1}{\sqrt{2\pi} \sigma} e^{-u^2} (\sqrt{2} \sigma du)\\
&= \frac{1}{\sqrt{\pi}} \int^\infty_{-\infty} e^{-u^2}du\\
&= \frac{1}{\sqrt{\pi}} \sqrt{\int^\infty_{-\infty} e^{-u^2}du \cdot \int^\infty_{-\infty} e^{-w^2}dw}\\
&= \frac{1}{\sqrt{\pi}} \sqrt{\int^{2\pi}_0 \int^\infty_0 e^{-r^2} rdrd\theta}\\
&= \frac{1}{\sqrt{\pi}} \cdot \sqrt{\pi}\\
&= 1
\end{align*}
\]
依序計算高斯分布的動差生成函數、期望值、變異數,這三個重要的參數。
\[
\begin{align*}
M_X(t) &= E[e^{tX}]\\
&= \int^\infty_{-\infty} e^{tx} f_X(x)\\
&= \int^\infty_{-\infty} e^{tx} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}} dx\\
&= \int^\infty_{-\infty} e^{ \frac{-1}{2\sigma^2}\{-2\sigma^2 tx\} } \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{1}{2\sigma^2} \{ (x^2 -2\mu x + \mu^2 \}} dx\\
&= \int^\infty_{-\infty} \frac{1}{\sqrt{2\pi} \sigma} e^{ \frac{-1}{2 \sigma^2} \{ x^2 - 2(\mu + \sigma^2 t)x \} } \cdot e^{ \frac{-1}{2 \sigma^2} (\mu^2)} dx\\
&= \frac{1}{\sqrt{2\pi}\sigma} \int^\infty_{-\infty} e^{ \frac{-1}{2 \sigma^2} \{ x - (\mu + \sigma^2 t)\}^2 } dx \cdot e^{\mu t + \frac{1}{2} \sigma^2 t^2}\\
&= e^{\mu t + \frac{1}{2} \sigma^2 t^2}\\
\ln M_X(t) & = \mu t + \frac{1}{2} \sigma^2 t^2\\
E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\
&= \mu + \sigma^2 t \Big|_{t = 0}\\
&= \mu\\
\mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\
&= \sigma^2 \Big|_{t = 0}\\
&= \sigma^2
\end{align*}
\]
最後探討模型之間的關係,若\(n\)個獨立的高斯分布相加還是高斯分布。
\[
X_1, X_2, \ldots, X_n, X_i \sim N(\mu_i, \sigma_i^2) \overset{\text{independent}}{\longrightarrow} X = X_1 + X_2 + \cdots X_n\sim N(\sum^n_{i = 1} \mu_i, \sum^n_{i = 1} \sigma_i^2)
\]
現實中許多隨機現象\(X\)本身雖不具有常態分布,但經過ch4 變數變換單變數轉換,對其取對數\(Y = \ln(X)\)後,就會表現出常態分布的性質,稱為對數常態分布(Log-Normal distribution)
高斯轉換\(X \sim N(\mu, \sigma^2)\)經過線性運算\(Y = aX + b\)依然是高斯分布\(N(a\mu + b, a^2 \sigma^2)\)。
\[
\begin{align*}
M_Y(t) &= E[e^{tY}]\\
&= E[e^{t(aX + b)}]\\
&= e^{tb} E[e^{(at) X}]\\
&= e^{tb} M_X(at)\\
&= e^{tb} e^{\mu (at) + \frac{1}{2} \sigma^2 (at)^2}\\
&= e^{(a\mu + b) + \frac{1}{2} (a^2 \sigma^2) t^2}
\end{align*}
\]
因此就可定義高斯分布的標準化
\[
Z = \frac{X - \mu}{\sigma}
\]
將任意高斯經過標準化後化為\(Z \sim N(0, 1)\),而\(Z \sim N(0, 1)\)稱為標準常態分布或是Z分布,其CDF稱為phi function
\[
\Phi(z) = f_X(Z \geq x) = \int^\infty_{x} \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}dz
\]
phi function的性質為對y軸對稱(\(\mu = 0\)),因此\(\Phi(-z) = 1 - \Phi(z), \Phi(0) = \frac{1}{2}\),而phi function的補事件就是Q function \(Q(z) = 1 - \Phi(z)\),積分範圍為標準常態分佈的尾端機率(tail probability),在通訊領域會大量用到。
欲計算任意高斯分布\(X \sim N(\mu, \sigma^2)\)的區間機率\(P(a < x < b)\),首先做標準化後化為標準常態分布,再來查Phi function的表。
\[
\begin{align*}
P(a < x < b) &= P\left(\frac{a - \mu}{\sigma} < \underbrace{\frac{x - \mu}{\sigma}}_{Z \sim N(0, 1)} < \frac{b - \mu}{\sigma} \right)\\
&= \Phi(\frac{b - \mu}{\sigma}) - \Phi(\frac{a - \mu}{\sigma})
\end{align*}
\]
若phi function算出來是負的,則使用對稱性質\(\Phi(-z) = 1 - \Phi(z)\),將其轉換為正的phi function才可以查到表。
波松程序(Poisson process) - 與時間有關提及,對波松程序而言,在\((0,t)\)秒時間內發生的次數\(x\)呈現波松分布
\[
P(X = x) = \frac{e^{-\lambda t} (\lambda t)^x}{x!} \sim Po(\lambda t), \lambda : \text{mean occurrence rate}
\]
首先令隨機變數\(T\)為兩件事情的間隔時間,由於連續型隨機變數單點機率無意義,所以先求其CDF,為在\((0,t)\)時間內至少一次事件發生的機率\(P(T \leq t)\),使用補事件改為\(1 - P(T > t)\),也就是說在\((0,t)\)時間內沒有任何事件發生,也就是發生的次數\(x = 0\)的波松分布,並對CDF微分可得PDF。
\[
\begin{align*}
F_T(t) &= P(T \leq t)\\
&= 1 - P(T > t)\\
&= 1 - P(\text{nothing happens in } (0, t))\\
&= 1 - P(X = 0), X \sim Po(\lambda t)\\
&= 1- \frac{e^{-\lambda t} (\lambda t)^0}{0!}\\
&= 1 - e^{-\lambda t}\\
f_T(t) &= \frac{d F_T(t)}{dt} = \lambda e^{-\lambda t}
\end{align*}
\]
因此定義指數分布,其隨機變數\(X\)的PDF遵循
\[
f_X(x) = \lambda e^{-\lambda x}, x > 0, \lambda > 0
\]
其中隨機變數\(X\)代表等待一次需要花的時間,而\(\lambda\)為事件的平均發生率(mean occurrence rate,單位是"次/時間"),由於單位時間內發生的次數\(Y\)為\(E[Y] = \lambda\),因此兩次事件發生的時間間隔即為其倒數\(E[X] = \frac{1}{E[X]} = \frac{1}{\lambda}\)。
依序計算指數分布的動差生成函數、期望值、變異數,這三個重要的參數。
\[
\begin{align*}
M_X(t) &= E[e^{tX}]\\
&= \int^\infty_{-\infty} e^{tx} f_X(x)\\
&= \int^\infty_0 e^{tx} \cdot \lambda e^{-\lambda x} dx\\
&= \lambda \int^\infty_0 e^{(t - \lambda)x} dx, t - \lambda < 0\\
&= \frac{\lambda}{\lambda - t}, t < \lambda\\
\ln M_X(t) & = \ln \lambda - \ln(\lambda - t)\\
E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\
&= 0 - \frac{-1}{\lambda - t} \Big|_{t = 0}\\
&= \frac{1}{\lambda}\\
\mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\
&= \frac{0 - 1(-1)}{(\lambda - t)^2} \Big|_{t = 0}\\
&= \frac{1}{\lambda^2}
\end{align*}
\]
指數分布可視為gamma分布在\(\alpha = 1, \beta = \frac{1}{\lambda}\)時的特例
\[
Gamma(1,\frac{1}{\lambda}) = \frac{x^{1 - 1} e^{-\frac{x}{1/\lambda}} }{ \Gamma(1) \cdot (\frac{1}{\lambda})^1 } = \lambda e^{-\lambda x} = E(\lambda)
\]
同理動差生成函數、期望值、變異數
\[
\begin{align*}
M_X(t) &= \frac{1}{(1 - \beta t)^\alpha} = \frac{1}{(1 - \frac{1}{\lambda} t)^1} = \frac{\lambda}{\lambda - t}\\
E[X] &= \alpha \beta = 1 \cdot \frac{1}{\lambda} = \frac{1}{\lambda}\\
\mathrm{Var}(X) &= \alpha \beta^2 = 1 \cdot \left( \frac{1}{\lambda} \right)^2 = \frac{1}{\lambda^2}
\end{align*}
\]
gamma分布,其隨機變數\(X\)的PDF遵循 \[ f_X(x) = \frac{x^{\alpha - 1} e^{-\frac{x}{\beta}} }{ \Gamma(\alpha) \cdot \beta^\alpha }, x \geq 0, \alpha > 0, \beta > 0 \]
gamma函數的定義與性質 \[ \begin{align*} & \Gamma(x) = \int^\infty_0 t^{x - 1} e^{-t} dt\\ & \Gamma(x + 1) = \Gamma(x),\; \Gamma(1) = \Gamma(2) = 1,\; \Gamma(\frac{1}{2}) = \sqrt{\pi}\\ & \Gamma(n + 1) = n!, n \in \mathbb{N} \end{align*} \]
其中\(\alpha\)稱為形狀(shape)參數、\(\frac{1}{\beta} = \lambda\)稱為尺度(scale)參數。意義在於等待\(\alpha\)次事件發生的時間,為指數函數的廣義推廣,因此就可探討模型之間的關係,若\(\alpha\)個獨立且同分布(iid)的指數分布相加後會是gamma分布。 \[ X_1, X_2, \ldots, X_\alpha, X_i \sim E(\lambda) \overset{\text{iid}}{\longrightarrow} X = X_1 + X_2 + \cdots X_n\sim Gamma(\alpha, \frac{1}{\lambda}) \] 依序計算gamma分布的動差生成函數、期望值、變異數,這三個重要的參數。 \[ \begin{align*}M_X(t) &= E[e^{tX}]\\ &= \int^\infty_{-\infty} e^{tx} f_X(x)\\ &= \int^\infty_0 e^{tx} \cdot \frac{x^{\alpha - 1} e^{-\frac{x}{\beta}} }{ \Gamma(\alpha) \cdot \beta^\alpha } dx\\ &= \frac{1}{\Gamma(\alpha) \beta^\alpha} \int^\infty_0 x^{\alpha - 1} e^{-\left( \frac{1}{\beta} - t\right)x} dx\\ &= \frac{1}{\Gamma(\alpha) \beta^\alpha} \int^\infty_0 \frac{z^{\alpha - 1}}{\left( \frac{1}{\beta} - t \right)^{\alpha - 1}} e^{-z} dz \cdot \frac{1}{\frac{1}{\beta} - t}\\ &= \frac{1}{\Gamma(\alpha) \beta^\alpha} \cdot \frac{1}{\left( \frac{1}{\beta} - t \right)^\alpha} \cdot \Gamma(\alpha)\\ &= \frac{1}{(1 - \beta t)^\alpha}, t < \frac{1}{\beta}\\ \ln M_X(t) & = -\alpha \ln(1 - \beta t)\\ E[X] &= \frac{d [\ln M_X(t)]}{dt} \Bigg|_{t = 0}\\ &= -\alpha\frac{-\beta}{1 - \beta t} \Big|_{t = 0}\\ &= \alpha \beta\\ \mathrm{Var}(X) &= \frac{d^2 [\ln M_X(t)]}{dt^2} \Bigg|_{t = 0}\\ &= \frac{0 - (\alpha \beta)(-\beta)}{(1 - \beta t)^2} \Big|_{t = 0}\\ &= \alpha \beta^2 \end{align*} \]
卡方分布,其隨機變數\(X\)的PDF遵循
\[
f_X(x) = \frac{x^{\frac{n}{2} - 1} e^{-\frac{x}{2}} }{ \Gamma(\frac{n}{2}) \cdot 2^{\frac{n}{2}} }, x \geq 0, n \in \mathbb{N}
\]
記為\(X \sim \chi^2(n)\),其中\(n\)稱為自由度(degree of freedom),\(n \in \mathbb{N}\),卡方分布可視為gamma分布在\(\alpha = \frac{n}{2}, \beta = 2\)時的特例。
探討模型之間的關係,\(n\)個標準常態分布的平方相加後,會是卡方分布。
\[
Z_1, Z_2, \ldots, Z_n, Z_i \sim N(0, 1) \longrightarrow X = Z_1^2 + Z_2^2 + \cdots Z_n^2 \sim \chi^2(n)
\]
使用ch4 單->單變數變換(連續型)法2 - 分割區間法證明自由度是1的卡方分布。
\[
\begin{align*}
& \text{goal : find } Z = X^2, \text{where } X \sim N(0, 1)\\
& Z_1 : Z \leq 0\\
& X = Z^2 \to Z = - \sqrt{x}\\
& f_{X_1}(y) = f_Z(z = - \sqrt{x}) \Bigg| \frac{d(- \sqrt{x})}{dy} \Bigg| = \frac{1}{\sqrt{2\pi}} e^{-\frac{(-\sqrt{x})^2}{2}} \cdot \frac{1}{2\sqrt{x}}\\
&\qquad\;\ = \frac{1}{2 \sqrt{2\pi} \sqrt{x}} e^{-\frac{x}{2}}, x \geq 0\\
& Z_1 : Z \geq 0\\
& X = Z^2 \to Z = \sqrt{x}\\
& f_{X_2}(y) = f_Z(z = \sqrt{y}) \frac{d(- \sqrt{x})}{dx} = \frac{1}{\sqrt{2\pi}} e^{\frac{(-\sqrt{y})^2}{2}} \cdot \frac{1}{2\sqrt{x}}\\
&\qquad\;\ = \frac{1}{2 \sqrt{2\pi} \sqrt{x}} e^{-\frac{x}{2}}, x \geq 0\\
& f_X(x) = f_{X_1}(x) + f_{X_2}(x) = \frac{1}{\sqrt{2\pi} \sqrt{x}} e^{-\frac{x}{2}} = \frac{x^{\frac{1}{2} - 1} e^{-\frac{x}{2}} }{ \Gamma(\frac{1}{2}) \cdot 2^{\frac{1}{2}} }, x \geq 0, X \sim \chi^2(1)
\end{align*}
\]
綜合上述觀念,波松程序解題流程第一步是由題意求得平均時間的發生率\(\lambda\) (次數/時間),再來求以下3個
無記憶性代表過去發生的事件與現在無關,定義為 \[ P(X \geq s + t \mid X \geq s ) = P(X \geq t) \] 舉例來說客戶等待\(s\)秒的前提下,還需要多等\(t\)秒的機率,與之前是否等待\(s\)秒無關。 \[ \begin{align*} \frac{P(X \geq s + t)}{P( X \geq s)} &= \frac{\sum^\infty_{x = s + t + 1} p(1 - p)^{x - 1}}{\sum^\infty_{x = s + 1} p(1 - p)^{x - 1}} = \frac{(1 - p)^{s + t}}{(1 - p)^s} = (1 - p)^t = P(X \geq t)\\ \frac{P(X \geq s + t)}{P( X \geq s)} &= \frac{\int^\infty_{s + t} \lambda e^{-\lambda x }dx}{\int^\infty_s \lambda e^{-\lambda x }dx } = \frac{e^{-\lambda(s + t)}}{e^{-\lambda s}} = e^{-\lambda t} = P(X \geq t) \end{align*} \] 根據上述定義可證明離散型的幾何分布\(X \sim G(p)\)無記憶性,因為前\(r\)次失敗都不影響下次可能會失敗或是成功的機率,因為每次試驗都是獨立的白努利試驗;而連續型的指數分布\(X \sim E(\lambda)\)無記憶性,因為事件的平均發生率(mean occurrence rate) \(\lambda\)是常數,而不是時間的函數,故不隨時間改變。
\[
R(x) \triangleq \lim_{\Delta \to 0} \frac{P(x \leq X \leq x + \Delta x \mid X \geq x)}{\Delta x}
\]
在時間點\(x\),物品仍然存活的條件之下,在故障發生在下一刻\(x + \Delta x\)的條件機率,也就是單位時間的事件發生率
\[
\begin{align*}
R(x) &\triangleq \lim_{\Delta \to 0} \frac{P(x \leq X \leq x + \Delta x \mid X \geq x)}{\Delta x}\\
&= \lim_{\Delta \to 0} \frac{1}{\Delta x} \frac{P(x \leq X \leq x + \Delta x)}{P(X \geq x)}\\
&= \lim_{\Delta \to 0} \frac{1}{\Delta x} \frac{f(x) \Delta x}{1 - P(X \leq x)}\\
&= \frac{f(x)}{1 - F(x)} = \frac{f(x)}{\overline{F}(x)}
\end{align*}
\]
失敗率為PDF除以CDF的補事件。
將指數函數帶入上式計算失敗率
\[
R(x) = \frac{f(x)}{\overline{F}(x)} = \frac{\lambda e^{-\lambda x}}{1 - (1 - e^{-\lambda x})} = \lambda = \text{const.}
\]
代表物件今天故障與明天故障的機率是相同的,所以前面才會推得指數分布是無記憶性。
二維結合高斯分布\(S = X, Y \sim BN(\mu_1, \sigma_1^2, \mu_2, \sigma_2^2, \rho)\)的PDF為
\[
f_{X,Y}(x, y) = \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2\rho \left(\frac{x - \mu_1}{\sigma_1} \right) \left(\frac{y- \mu_2}{\sigma_2} \right) + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right)
\]
欲計算二維結合高斯分布的邊際機率密度函數(MPDF) \(f_X(x), f_Y(y)\),由於計算量太大,需要半背半推,依序與\(X\)無關的常數提出來、補上數字使其變成完全平方式,接下來與常態分布相關的常數放在外面,最後後面那項的指數積分剛好與分母消掉得到答案。
\[
\begin{align*}
f_Y(y) &= \int^\infty_{-\infty} \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2\rho \left(\frac{x - \mu_1}{\sigma_1} \right) \left(\frac{y- \mu_2}{\sigma_2} \right) + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right) dx\\
&= \frac{\exp\left( -\frac{1}{2(1 - \rho^2)}\left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right)}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \int^\infty_{-\infty} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2 \left(\frac{x - \mu_1}{\sigma_1} \right) \rho \left(\frac{y- \mu_2}{\sigma_2} \right) + \rho^2 \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right) dx \cdot \exp\left(\frac{1}{2(1 - \rho^2)} \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \rho^2 \right)\\
&= \frac{1}{\sqrt{2\pi} \sigma_2} \exp\left(-\frac{1}{2} \left( \frac{y - \mu_2}{\sigma_2} \right)^2 \right)
\end{align*}
\]
因此可推得二維高斯分布的邊際機率密度函數就是一維高斯分布\(Y \sim N(\mu_2, \sigma_2)\),同理\(f_X(x)\)。
欲計算二維結合高斯分布的條件機率密度函數(Conditional PDF) \(f(x \mid y)\)、條件期望值\(E[X \mid Y]\)、條件變異數\(\mathrm{Var}(X \mid Y)\)
\[
\begin{align*}
f(x \mid y) &= \frac{f_{X, Y}(x, y)}{f_Y(y)}\\
&= \frac{\frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2\rho \left(\frac{x - \mu_1}{\sigma_1} \right) \left(\frac{y- \mu_2}{\sigma_2} \right) + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right)}{\frac{1}{\sqrt{2\pi} \sigma_2} \exp\left(-\frac{1}{2} \left( \frac{y - \mu_2}{\sigma_2} \right)^2 \right)}\\
&= \cdots\\
&= \frac{1}{\sqrt{2\pi} \sigma_1 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)\sigma_1^2} \left[ x - \left(\mu_1 + \rho \frac{\sigma_1}{\sigma_2}(y - \mu_2 )\right) \right]^2 \right)\\
&\therefore \text{rv's } X \mid Y \sim N\left( \underbrace{\mu_1 + \rho \frac{\sigma_1}{\sigma_2}(y - \mu_2 )}_{= E[X \mid Y]},\quad \underbrace{\sigma_2^2 (1 - \rho^2)}_{= \mathrm{Var}(X \mid Y)} \right)
\end{align*}
\]
二維結合高斯分布的結合動差形成函數(JMGF)(證明省略,不會考)為
\[
M_{X, Y}(t_1, t_2) = \exp\left( \mu_X t_1 + \mu_Y t_2 + \frac{1}{2}(\sigma_X^2 t^2 + 2\rho \sigma_X \sigma_Y t_1 t_2 + \sigma_Y^2 t^2) \right)
\]
給定隨機向量\(\mathbf{X} = [X_1, X_2, \ldots, X_n]^T\),屬於n維結合高斯分布,若隨機向量\(\mathbf{Y}\)為\(\mathbf{X}\)的線性組合\(\mathbf{Y} = \mathbf{Ax} + \mathbf{b}\),則\(\mathbf{Y}\)也為結合高斯分布(證明省略),並且其平均值\(\mathbf{\mu}_Y\)與變異數\(\mathbf{C}_Y\)為
\[
\begin{align*}
\mathbf{\mu}_Y &= E[\mathbf{Y}]\\
&= E[\mathbf{Ax} + \mathbf{b}]\\
&= \mathbf{A} E[\mathbf{X}] + \mathbf{b}\\
&= \mathbf{A} \mathbf{\mu}_X + \mathbf{b}\\
\mathbf{C}_Y &= E[(\mathbf{Y} - \mathbf{\mu}_Y) (\mathbf{Y} - \mathbf{\mu}_Y)]\\
&= E[\mathbf{A} (\mathbf{X} - \mathbf{\mu}_X) (\mathbf{X} - \mathbf{\mu}_X) \mathbf{A}^T]\\
&= \mathbf{A} E[(\mathbf{X} - \mathbf{\mu}_X) (\mathbf{X} - \mathbf{\mu}_X)] \mathbf{A}^T\\
&= \mathbf{A} \mathbf{C}_X \mathbf{A}^T
\end{align*}
\]
參照ch3 獨立 ⇒ 不相關,but不相關 !⇒ 獨立,但有兩個例外(獨立與不相關等價),一是二位元傳輸、二是結合高斯分布,二維結合高斯分布的證明如下 - 給定二維結合高斯分布的隨機變數\(X, Y\)不相關,因此相關係數\(\rho = 0\)
\[
\begin{align*}
f_{X, Y}(x, y) &= \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1 - \rho^2}} \exp\left( -\frac{1}{2(1 - \rho^2)} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 - 2\rho \left(\frac{x - \mu_1}{\sigma_1} \right) \left(\frac{y- \mu_2}{\sigma_2} \right) + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right)\\
&= \frac{1}{2\pi \sigma_1 \sigma_2} \exp\left( -\frac{1}{2} \left\{ \left(\frac{x - \mu_1}{\sigma_1} \right)^2 + \left(\frac{y- \mu_2}{\sigma_2} \right)^2 \right\} \right)\\
&= \left( \frac{1}{\sqrt{2\pi} \sigma_1} \exp\left(-\frac{1}{2} \left( \frac{x - \mu_1}{\sigma_1} \right)^2 \right) \right) \cdot \left( \frac{1}{\sqrt{2\pi} \sigma_2} \exp\left(-\frac{1}{2} \left( \frac{y - \mu_2}{\sigma_2} \right)^2 \right) \right)\\
&= f_X(x) \cdot f_Y(y)
\end{align*}
\]
若隨機變數\(X\)符合2個條件 - 值域大於0 \(S_X = \{ x \leq 0 \}\)、平均值\(\mu\)存在,則
\[
P(X \geq a) \leq \frac{\mu}{a}
\]
代表大於\(a\),單尾端的機率有上限,此上限為平均值除以\(a\)。
證明
\[
\begin{align*}
\mu &\triangleq \int^\infty_0 x \cdot f_X(x) dx\\
&= \int^a_0 x f_X(x)dx + \int^\infty_a x f_X(x)dx\\
&\geq \int^\infty_a x f_X(x)dx \quad \because \int^a_0 x f_X(x)dx \geq 0\\
&\geq a \int^\infty_a f_X(x)dx \quad x \in (a, \infty)\\
&= a P(X \geq a)
\end{align*}
\]
若隨機變數\(X\)符合2個條件 - 平均值\(\mu\)存在、變異值\(\sigma^2\)存在,則 \[ P( \mid X - \mu \mid \geq \epsilon ) \leq \frac{\sigma^2}{\epsilon^2} \] 代表向左右延伸\(\epsilon\)以外雙尾端的機率有上限,此上限為變異數除以\(\epsilon\)的平方。根據補空間概念,上式可推得\(\epsilon\)以內中心區域的機率有下限為\(P( \mid X - \mu \mid \leq \epsilon ) \geq 1 - \frac{\sigma^2}{\epsilon^2}\)。 \[ \begin{align*} \sigma^2 &\triangleq \int^\infty_{-\infty} (x - \mu)^2 \cdot f_X(x) dx\\ &= \int^{\mu - \epsilon}_{-\infty} (x - \mu)^2 \cdot f_X(x) dx + \int^{\mu + \epsilon}_{\mu - \epsilon} (x - \mu)^2 \cdot f_X(x) dx + \int^\infty_{\mu + \epsilon} (x - \mu)^2 \cdot f_X(x) dx\\ &\geq \int^{\mu - \epsilon}_{-\infty} (x - \mu)^2 \cdot f_X(x) dx + \int^\infty_{\mu + \epsilon} (x - \mu)^2 \cdot f_X(x) dx \quad \because \int^{\mu + \epsilon}_{\mu - \epsilon} (x - \mu)^2 \cdot f_X(x) dx \geq 0\\ &\geq \epsilon^2 \int^{\mu - \epsilon}_{-\infty} f_X(x) dx + \epsilon^2 \int^\infty_{\mu + \epsilon} f_X(x) dx \quad \because X < \mu - \epsilon \to X - \mu < -\epsilon \to (X - \mu)^2 > \epsilon^2\\ &= \epsilon^2 P( \mid X - \mu \mid \geq \epsilon ) \end{align*} \]
簡單隨機抽樣(simple random sampling)是指從母體任意抽取\(n\)個單位作為樣本\(X_1, X_2, \ldots, X_n\),每個簡單樣本獨立且同分布(idd),其分布等同母體分布。
樣本平均數
\[
E[\overline{X}] = E[\frac{1}{n} (X_1 + X_2 + \ldots + X_n)] = \frac{1}{n}(n\mu)= \mu
\]
樣本變異數
\[
\mathrm{Var}(\overline{X}) = \mathrm{Var}(\frac{1}{n} (X_1 + X_2 + \ldots + X_n)) = \frac{1}{n}(\mathrm{Var}(X_1) + \cdots + \mathrm{Var}(X_n)) = \frac{1}{n^2} (n\sigma^2) = \frac{\sigma^2}{n}
\]
當測量越精確,\(n \to \infty\),樣本變異數\(\mathrm{Var}(\overline{X}) = \lim_{n \to \infty} \frac{\sigma^2}{n} = 0\),代表每次實驗都會是平均值\(\mu\),樣本平均數趨近於母體的平均值,稱為大數法則(large number rule)。
任意母體\(X(\mu, \sigma^2)\)取出來的簡單樣本\(X_1, X_2, \ldots, X_n\),做樣本平均數 \[ \overline{X}_n = \frac{1}{n} (X_1 + X_2 + \cdots X_n) \sim X(\mu, \sigma^2) \] 再做標準化 \[ \overline{Z}_n = \frac{\overline{X}_n - \mu}{\frac{\sigma}{\sqrt{n}}} \sim X'(0, 1) \] 當\(n\)趨近無限大會是標準常態分佈 \[ \overline{Z}_n \overset{n \to \infty}{\longrightarrow} N(0, 1) \] 考題有2種,若\(X_1, X_2, \ldots, X_n\)取自母體\(X(\mu, \sigma^2)\)的一組簡單樣本