---
title: MGF Bernoulli 和 其他分佈|第五週
tags: 機率
---
# 回顧 MGF
上週有提到,課本對於期望值的定義,是直接求以某個隨機變數 $X$ 為變數的函數,的期望值
$$
E[u(X)]=\sum_{x_{i}\in S}u(x_{i})P_{X}(x_{i})
$$
而 MGF 就是以 $e^{tX}$ 作為 $u(X)$
而 MGF 延伸的一個性質是,如果兩個隨機變數的 MGF 一樣,則代表他們的 PMF 是一樣的
## MGF 範例 - 還原原本的 PMF
$$
M(t)=\frac{\frac{e^{t}}{2}}{1-\frac{e^{t}}{2}}
$$
注意看,這個數列太狠了,乍看之下似乎不知如何下手,但是如果我們把它拆成兩部分
$$
M(t)=\frac{e^{t}}{2}\frac{1}{1-\frac{e^{t}}{2}}
$$
則右邊的部分可以看成是一個等比級數
$$
M(t)=\frac{e^{t}}{2}\sum_{n=0}^{\infty} 1×(\frac{e^{t}}{2})^{n}=\sum_{n=1}^{\infty}(\frac{e^{t}}{2})^{n}\\
=\sum_{n=1}^{\infty}e^{nt}(\frac{1}{2})^{n}\\
$$
回去對照當初 MGF 的定義,就可以知道 PMF 是
$$
P_{X}(x)=(\frac{1}{2})^{x}, x=1,2,3...
$$
## 求出各階 moment
只要對 MGF 做 $k$ 次微分,然後 t 代 0 可以得到 $k$ 階的 moment
$$
\frac{d^{k}M_{X}(t)}{d^{k}t}=\sum_{x_{i}\in S}x_{i}^{k}e^{tx_{i}}P_{X}(x_{i})\\
\frac{d^{k}M_{X}(0)}{d^{k}t}=\sum_{x_{i}\in S}x_{i}^{k}P_{X}(x_{i})=E[X^{k}]\\
$$
上週可以知道,我們能夠從動量,計算出期望值和變異數
$$
E[X]=M'(0)\\
Var[X]=M''(0)-M'(0)^{2}
$$
因此只要有了 MGF 就可以輕鬆的求出期望值和變異數
::: warning
要記住變異數和動量不是等於關係,是函數關係
:::
---
# Bernoulli Random Variable / Distribution
所謂的 Bernoulli Experiment,是指結果**只有成功與不成功** Success and Failure
如果有一連串的 Bernoulli Experiment,則每次的實驗都是獨立的,也就是說成功的機率都是一樣的
因此可以定義 Bernoulli Random Variable 的 PMF
$$
f(x)=p^{x}(1-p)^{1-x},x=0,1
$$
或者
$$
P_{X}(x)=
\left\{\begin{matrix}
1-p & x=0 \\
p & x=1\\
0 & otherwise
\end{matrix}\right.
\\
0<p<1
$$
## 期望值和變異數
- $E[X]=p$
- $Var[X]=pq$
::: success
現在才注意到有 PMF 公式的好處,就是算式可以寫成較簡潔的 $\sum$
:::
# 二項式分佈 Binomial Distribution
從多次連續的 Bernoulli 實驗來的
$$
P_{X}(k)=Prob(X=k)=C^{n}_{k}p^{k}(1-p)^{n-k}
$$
隨機變數代表的是「成功的次數」但其實也可以是失敗的次數,因為你只要把「原本的失敗」當作是你要記錄的成功就好
## 簡記
$$
b(n,p)
$$
因為 $n,p$ 就可以決定 PMF 長怎樣
## 二項式實驗的性質
- 是由多次的 Bernoulli Experiment 組成
- 每次單獨實驗之間都是獨立的;或者說,就好像每次都放回 with replacement
- 成功跟失敗的機率都是固定的
- 隨機變數要代表成功的次數
- 但就像上面說的,是「你要記錄的成功」的次數
## CDF 的連續性
- CDF 函數的變數 t 可以是連續的,不用跟隨機變數一樣是離散的
- 但是 CDF 寫成數學式子,像是寫進 $\sum$ 的時候要記得向下取整
- 下面用二項式分佈的 CDF 舉例
$$
P(X\le x)=\sum_{k=0}^{\left \lfloor x \right \rfloor }C^{n}_{k}p^{k}(1-p)^{n-k}
$$
## 二項式實驗的 CDF
以前沒有電腦的時候,就是要查那張表,然後從那張表得到各種情形的 CDF,或者自行進行簡單的加減法得到 PMF

下面會有一堆 1.0 不是因為真的是 1,而是因為到了 0.99999 後面的小位數顯示不了
:::info
但現在有電腦後,這張表就不常用了
:::
## 換個角度想
如果在算某個隨機變數 A 的某個 CDF,然後又沒有表又很難算,此時可以換個角度,建立跟他相反的隨機變數,也就是以「原先的失敗」作為「成功」的隨機變數
舉例來說,你有個 $Y\sim b(8,0.65)$,如果想要計算 $P(Y\ge 6)$,你可以建立一個新的隨機變數 $X$
其中 $X=8-Y$,也就是說 X 是跟 Y 相反的情況,$X\sim b(8,0.35)$;於是
$$
P(Y\ge 6)=P(8-Y\le 8-6)=P(X\le 2)
$$
## 二項式展開
可以用二項式展開,確認二項式分佈的機率總和等於1,也就是滿足我們的第二個定義
$$
\sum_{k=0}^{n} C^{n}_{k}p^{k}(1-p)^{n-k}=(p+(1-p))^{n}=1
$$
## 期望值和變異數
如果真的從定義弄會很痛苦,所以這裡我們使用 MGF 這個好用的工具
$$
E[e^{tX}]=\sum^{n}_{k=0}e^{tk}C^{n}_{k}p^{k}(1-p)^{n-k}\\
=\sum^{n}_{k=0}C^{n}_{k}(e^{t}p)^{k}(1-p)^{n-k}\\
=((e^{t}p)+(1-p))^{n}
$$
有了最後的結論,就可以輕鬆的對 t 微分,然後將 t 代入 0 之後就可以輕鬆的得到各階動量
$$
M'(t)=n((e^{t}p)+(1-p))^{n-1}e^{t}p\\
M'(0)=np\\
M''(t)=n(n-1)((e^{t}p)+(1-p))^{n-1}e^{2t}p^{2}+n((e^{t}p)+(1-p))^{n-1}e^{t}p\\
M''(0)=n(n-1)p^{2}+np\\
$$
有了 mgf 很多分佈的高階動量就很好算
- $E[X]=np$
- $Var[X]=n(n-1)p^{2}+np-n^{2}p^{2}=np-np^{2}=npq$
## 與 Hypergeometric distribution 的關係
:::warning
回顧
從 $N_{1}+N_{2}$ 個東西中取 $n$ 個出來,像是從一堆紅色卡片和藍色卡片
則超幾何分佈為,「在紅色卡片中有 x 個的機率是多少」,也就是說
- 紅色有 x 個
- 藍色有 n-x 個
- 總共有 $N=N_{1}+N_{2}$
$$
f(x)=P(X=x)=\frac{C^{N_{1}}_{x}C^{N_{2}}_{n-x}}{C^{N}_{n}}
$$
然後記得每從公式中的 C 可以知道每個卡片依舊是不同的卡片
:::
超幾何在 $n=1$ 的時候其實跟二項式是一樣的,都是 Bernoulli
但是到了 $n\ge 2$,超幾何「不會放回」,二項式「會放回」
因此造成了兩者的機率分佈很相似
# Geometric distribution
跟二項式很像,都是考慮一連串的 Bernoulli;但是隨機變數求的是,**「直到第 x 次才成功的機率」**
$$
P(X=x)=(1-p)^{x-1}p
$$
從公式看的出來,失敗的次數的乘積,其實就是一種幾何級數 geometric series,或者說等比級數
所以這個分佈才叫 geometric distribution
## k 次以上(不包含)才成功的機率
$$
P(X>k)=\sum_{x=k+1}^{\infty}(1-p)^{x-1}p=\sum_{x=1}^{\infty}(1-p)^{x-1+k}p\\
\sum_{x=1}^{\infty}(1-p)^{x-1}p(1-p)^{k}=\frac{p(1-p)^{k}}{1-(1-p)}\\
=(1-p)^{k}=q^{k}
$$
## k 次以下(包含)才成功的機率
$$
P(X\le k)=1-P(X>k)=1-q^{k}
$$
:::info
有了上面兩個 CDF 就可以打天下了
:::
:::warning
感覺這裡提到的 CDF 最好要很熟
:::
## 期望值 $\frac{1}{p}$
$$
M(t)=\sum^{\infty}_{x=1} e^{tx}P(X=x)=\sum^{\infty}_{x=1}e^{tx}(1-p)^{x-1}p=\sum^{\infty}_{x=1}\frac{p((1-p)e^{t})^{x}}{(1-p)}\\
=\frac{p}{1-p}×\frac{1}{1-(1-p)e^{t}}-\frac{p}{1-p}\\
M'(t)=\frac{p}{1-p}×\frac{(1-p)e^{t}}{(1-(1-p)e^{t})^{2}}\\
M'(0)=\frac{p}{1-p}×\frac{1-p}{p^{2}}=\frac{1}{p}
$$
## 標準差 $\frac{q}{p^{2}}$
$$
M''(t)=p×\frac{e^{t}(1-(1-p)e^{t})^{2}-e^{t}2(1-(1-p)e^{t})(-(1-p)e^{t})}{(1-(1-p)e^{t})^{4}}\\
M''(0)=p×\frac{(1-(1-p))^{2}-2(1-(1-p))(-(1-p))}{(1-(1-p))^{4}}=p×\frac{p^{2}+2pq}{p^{4}}\\
=\frac{p+2q}{p^{2}}=\frac{1+q}{p^{2}}
$$
:::danger
請不要忘記,$M''(0)$ 不是變異數
:::
$$
Var[X]=M''(0)-M'(0)^{2}=\frac{1+q}{p^{2}}-\frac{1}{p}=\frac{q}{p}
$$
# Negative Binomial Distribution
這個隨機變數比較特別,是記錄,**「在 x 次試驗中,直到成功 r 次才收手」** 的機率
因此可以知道
- 最後一次是成功的最後一次
- 每次試驗的次數 x 要大於等於 r
- 總不可能我只實驗 3 次但我要成功 5 次
因此可以定義出 PMF
$$
C\binom{x-1}{r-1}p^{r-1}(1-p)^{x-1-(r-1)}×p\\
\Rightarrow P(x)=C\binom{x-1}{r-1}p^{r}(1-p)^{x-r},x=r,r+1,r+2...\\
$$
最右邊那個孤獨的 p 就是最後一次成功的 p
至於為甚麼會叫做 negative binomial 要從馬克勞林序列說起
## Maclaurin series
就是泰勒展開令 x = 0 的特例;觀察以下展開
$$
h(w)=(1-w)^{-r}\\
h'(w)=r(1-w)^{-(r+1)}\\
h''(w)=r(r+1)(1-w)^{-(r+2)}\\
h^{(n)}(w)=r(r+1)...(r+(n-1))(1-w)^{-(r+n)}\\
=\frac{(r+(n-1))!}{(r-1)!}(1-w)^{-(r+n)}\\
\Rightarrow h^{(n)}(0)=\frac{(r+(n-1))!}{(r-1)!}
$$
有了上面的結論後,開始構建馬克勞林級數
$$
h(w)=(1-w)^{-r}=\frac{h^{(0)}(0)}{0!}w^{0}+\frac{h^{(1)}(0)}{1!}w^{1}+...\frac{h^{(n)}(0)}{n!}w^{n}\\
=1+rw+...+\frac{(r+(n-1))!}{(r-1)!n!}w^{n}\\
=\sum_{n=0}^{\infty}C\binom{r+n-1}{r-1}w^{n}
$$
此時將上面的結果對應到我們原本根據定義得到的結果
$$
P(x)=C\binom{x-1}{r-1}p^{r}(1-p)^{x-r},x=r,r+1,r+2...
$$
可以發現在 C 裡面只有 x 跟 r+n 不一樣。
根據定義, x 的意思是總共的試驗次數,當然就包含成功的次數 r,所以我們可以合理的令
$$
x=r+n,n=x-r
$$
就可以得到這樣的結論
$$
(1-w)^{-r}=\sum_{x=r}^{\infty}C\binom{x-1}{r-1}w^{x-r}
$$
只要令 $w=q$ ,這個部分正好是原本公式中去除 $p^{r}$ 的部分;也因此可以驗證這個是合法的 PMF
$$
\sum_{x=r}^{\infty}P(x)=p^{r}×(1-q)^{-r}=p^{0}=1
$$
## 期望值 $\frac{r}{p}$
## 變異數 $\frac{rq}{p^{2}}$
:::success
下週老師有事不上課
:::