---
title: PMF CDF MGF|第四週
tags: 機率
---
# 一個關於條件機率的例子

課本上的這題,題目敘述是有問題的,教授也表明他也無法理解題目的意思
## Space 的記號
上週我們知道對於隨機變數 X 的 Space / 值域
$$
S_{X} = \{x:X(s)=x,s∈S\}
$$
在以後,會直接以 $S$ 表記,所以不要跟原本的樣本空間 $S$ 混淆
有時候會用 $f(k)$ 作為 PMF,跟下面的 CDF 相對
---
# 機率質量函數 Probability Mass Function / p.m.f
$$
P_{X}(k) ≡ Prob(X=k)=\sum_{q\in Q_{k}}^{}Prob(q)
$$
「隨機變數 $X$ 對應的值等於 $k$ 」的機率,就是把所有「被 $X$ 投射到 $k$ 的事件」的機率加起來
這是上週提到的內容
由此可知,p.m.f 是定義在**你所做的實驗中,得到的一些事件之上**
# 累積分佈函數 Cumulative Distribution Function / c.d.f
對一個隨機變數 X,從上面得到的機率質量函數,我們定義了一個新的函數
$$
F_{X}(t)=Prob(X\le t)
$$
也就是將上面 PMF 符合條件的都加起來
## 三個性質
### 趨近無窮大等於 1
$$
\lim_{t \to \infty} F_{X}(t)= 1
$$
### 趨近負無窮大等於 0
$$
\lim_{t \to -\infty} F_{X}(t)= 0
$$
### 較大者恆大於等於較小者
$$
F_{X}(w) \ge F_{X}(t),if\ w\ge t
$$
這個性質告訴我們 monotony increasing 單調遞增
---
上面這三個原本是從實驗得到的公式,但是如果從數學的角度,會變成是反者的
:::warning
如果有一個函數符合上面這三個性質,則該函數就是一個 CDF
:::
## 例子
投兩次四面骰子,並將隨機變數 X 定為骰子點數的總合


---
# 隨機變數的四則運算
假設有兩個隨機變數 $X$,$Y$,我們**可以定一個新的隨機變數** $Z$ 為
$$
Z=f(X,Y)
$$
## 例子
:::info
回顧上次的抽獎例子;公司尾牙從 100 個員工當中,依序抽出 3 個人給予三等、二等、一等獎
獎品只有一個,抽到某個人後不放回
將表記的方式記為 $<三獎,二獎,一獎>$,三獎 1 萬、二獎 5 萬、頭獎 10 萬
將隨機變數定為「某個人得到 x 元獎金」,舉例來說,10 號的隨機變數中,得到 1 萬的情形是
$$
P(X=10000)=\sum_{<10,i,j>,i≠10,j≠10,i≠j}\frac{99×98}{100×99×98}=0.01
$$
:::
像是 $Z=X+Y$,一樣舉上次那個抽獎的例子,$X$ 的中獎編號是 30,$Y$ 的中獎編號是 10
下面的是如果三獎是 X,二獎是 Y 的情形,其中表記方式為 $<三獎,二獎,一獎>$,\* 代表其他人
$$
X(<30,10,*>)=10000\\
Y(<30,10,*>)=50000\\
Z(<30,10,*>)=60000\\
$$
# Uniform distribution
$$
f(x)=\frac{1}{m},if\ x=1,2,...m
$$
經典例子就是投一次正六面骰子,每種結果的機率都是 $\frac{1}{6}$
# 超幾何分佈 Hypergeometric distribution
從 $N_{1}+N_{2}$ 個東西中取 $n$ 個出來,像是從一堆紅色卡片和藍色卡片
則超幾何分佈為,「在紅色卡片中有 x 個的機率是多少」,也就是說
- 紅色有 x 個
- 藍色有 n-x 個
- 總共有 $N=N_{1}+N_{2}$
$$
f(x)=P(X=x)=\frac{C^{N_{1}}_{x}C^{N_{2}}_{n-x}}{C^{N}_{n}}
$$
:::warning
注意,這裡雖然分成了兩種顏色,但是從公式中可以知道,每個卡片依舊是屬於不同的卡片
:::

上面就是不同情形的圖;左圖可以發現,$N_{1}$ 最多就 8 顆,所以在 8 以後的機率為 0
## 特例,n = 1
用公式可以知道,會簡化為
$$
f(x)=P(X)=\frac{N_{1}}{N}=\frac{N_{1}}{N_{1}+N_{2}}
$$
就個就是伯努利分布 Bernoulli distribution
畢竟其意義為只取一次,情況只有有跟沒有
---
# 數學期望值 Mathematical Expectation
就是那個我們熟悉的期望值;在離散中,就是把隨機變數每個情況的機率乘上對應的值
$$
E(X)=\sum_{x_{i} \in S}P_{X}(x_{i})x_{i}
$$
而常常為以 $\mu$ 這個符號代表期望值
## 課本的寫法
課本是假設有兩個隨機變數,一個是 $X$,一個是 $Y$,其中 $Y$ 是 $X$ 經過函數關係,可能是兩倍或是加減之類的,所得到的隨機變數;下面記為 $Y=u(X)$
而在這樣情況下,課本把期望值定為
$$
E(Y)=E(u(X))=\sum_{x_{i} \in S}P_{X}(x_{i})u(x_{i})\\
E(u(X))=\sum_{x \in S}P_{X}(x)u(x)\\
$$
會這樣寫是因為,我們可以從這兩個隨機變數的函數關係,推出下面的結論
$$
\sum_{x \in S}f(x)u(x)=\sum_{y \in S'}g(y)y
$$
### 證明
$$
E(Y)=\sum_{y_{i}\in S'}P_{Y}(y_{i})y_{i},\ S'\ 是\ Y\ 的\ Space\\
=\sum_{y_{i}\in S'}Prob(Y=y_{i})y_{i}\\
=\sum_{y_{i}\in S'}\sum_{所有的\ x_{j}\ 使得\ u(x_{j})=y_{i}}Prob(X=x_{j})u(x_{j})\\
=\sum_{x_{j} \in S}P_{X}(x_{j})x_{j}\\
$$
## 好處
有了這樣的關係,告訴我們只要隨機變數有函數關係,則他們期望值都會一樣
也就是說,如果有一個隨機變數的機率很難算,或是有其他導致困難的原因,我們都可以用函數關係去得到期望值
### 例子 1
假設有一個隨機變數的機率質量函數是
$$
f(x)=\frac{1}{3},\ \ x\in\ S_{X}\\
S_{X}=\{-1,0,1\}
$$
假設有另一個隨機變數 $Y=u(X)=X^{2}$
$$
E(X^{2})=\sum_{x \in S_{X}}x^{2}f(x)\\
=(-1)^{2}(\frac{1}{3})+(0)^{2}(\frac{1}{3})+(1)^{2}(\frac{1}{3})=\frac{2}{3}
$$
但是如果以 $Y$ 的視角來看的話,首先,找出 $Y$ 的 Space
$$
S_{Y}=\{0,1\},並且\ P_{Y}(0)=\frac{1}{3},P_{Y}(1)=\frac{2}{3}
$$
再來計算期望值
$$
E(Y)=\sum_{y \in S_{Y}}yg(y)\\
=(0)^{2}(\frac{1}{3})+(1)^{2}(\frac{2}{3})=\frac{2}{3}
$$
可以發現兩者是一樣的,也就是我們在上面得出的結論
$$
\sum_{x \in S_{X}}x^{2}f(x)=\sum_{y \in S_{Y}}yg(y)
$$
### 例子 2
丟一個公正的六面骰子,隨機變數為其點數,每個點數的機率是 $\frac{1}{6}$
假設有一個新的隨機變數為
$$
Y=|X-E(X)|
$$
那一樣,你可以從 $X$ 去做,也可以從 $Y$ 去做,兩者得到的期望值是一樣的,都是 $\frac{3}{2}$
---
# 期望值的相關公式和定理
## $E(c)=c,\ c\ 是常數$
這裡說 c 是常數,應該是說,c 這個隨機變數,他對應的值是常數,也就是一個常數函數
這樣的話全部人都對應到他,那對應到的機率自然也就是 1
## $E[cu(X)] = cE[u(X)],\ c\ 是常數,\ u\ 是一個函數$
就是根據定義,把 c 從 $\sum$ 中提到外面來
## $E[c_{1}u_{1}(X)+c_{2}u_{2}(X)] = c_{1}E[u_{1}(X)]+c_{2}E[u_{2}(X)]$
這個也是從定義中,把常數提出來,並把相加的部分分為兩個 $\sum$
:::success
從上面可以知道,期望值是一個「線性操作子 a linear operator」
:::
## $E[X]$ 是會使 $E[(X-b)^{2}]$ 得到最小值的 $b$
假設有一個隨機變數 $X$ 的函數,並且該函數的期望值存在
$$
u(X)=(X-b)^{2},\ \ E[u(X)]\ exists
$$
那假設另一個函數
$$
g(b)=E[(X-b)^{2}]=E[X^{2}]-2bE[X]+b^{2}
$$
所以要找極值,就是對該函數微分等於 0 的點
$$
g'(b)=-2E[X]+2b = 0
$$
因此可以得到
$$
b = E[X]
$$
---
# 變異數 / 變異量 Variance of Random Variable
這是根據隨機變數定義的新的函數(跟期望值一樣),定義為
$$
Var[X]=E[(X-\mu)^{2}]=E[X^{2}-2X\mu +\mu ^{2}]\\
=E[X^{2}]-2\mu E[X] +\mu ^{2}\\
=E[X^{2}]-\mu ^{2}
$$
這裡要注意 $\mu$ 這裡不是指平均值,而是期望值,$E[X]$ 常常記為 $\mu$
通常會記為 $\sigma ^{2}$ 或 $Var[X]$,其中 $\sigma$ 就是標準差 standard deviation
## 變數的運算
跟期望值相比,其運算不是線性的;假設 $Y=aX+b$ 則
$$
E[Y]=E[aX+b]=aE[X]+b\ \ \ \ 符合線性\\
Var[Y]=E[(Y-\mu_{Y})^{2}]=E[(aX+b-a\mu_{X}+b)^2]\\
=E[a^{2}(X-\mu_{X})^2]=a^{2}Var[X]
$$
## 例子
假設你參加兩個抽獎活動,活動 A 是 0.1% 中 100,000,活動 B 是 0.01% 中 1,000,000
兩個活動的期望值都是 100
$$
E[A] = 0.001 × 100000 + 0.999 × 0 = 100\\
E[B] = 0.0001 × 1000000 + 0.9999 × 0 = 100\\
$$
但是兩者的變異數卻不一樣
$$
Var[A] = 0.001 × (100000-100)^{2} + 0.999 × (0-100)^{2}= 9,990,000\\
Var[B] = 0.0001 × (1000000-100)^{2} + 0.9999 × (0-100)^{2}=99,990,000\\
$$
:::warning
在大多數的分佈/模型 中,期望值和變異數就是你可以唯一決定一個隨機變數的必要參數
:::
---
# Moment of a Distribution
假設 $X$ 是一個隨機變數, $k$ 是一個正整數
$$
E[X^{k}]=\sum_{x_{i} \in S}P_{X}(x_{i})x_{i}^{k}
$$
如果上面算出的期望值是「有限的 finite」則該期望值稱作「 $X$ 的第 $k$ moment / $k^{th} moment$」
而 Moment 其實嚴格來講,是要說明「以誰為中心 / centered at」;向上面的就是「以原點為中心」
所以
$$
E[(X-b)^{k}]
$$
就是以 $b$ 為中心, $X$ 的第 $k$ moment
:::info
通常如果不說以誰為中心,通常是以原點為中心
:::
:::warning
對照上面的結論,對於不同的分佈/模型 中,你需要期望值,以及不同階的 Moment 才能決定一個隨機變數
:::
---
# Moment Generating Function / m.g.f
$X$ 是一個離散隨機變數,$h$ 是一個正數,使得
$$
E[e^{tX}],\ \ -h<t<h
$$
存在且有限,則 $X$ 的 Moment Generating Function 定為
$$
M(t)=E[e^{tX}]
$$
通常簡稱為 MGF
:::success
老師說 t 要在 0 附近(包含 0),因為後面會需要微分;也就是說 $h$ 是一個小小的數
:::
:::warning
會叫做 Moment Generating Function,就是因為它可以產生 Moment
:::
## 單一性
如果對於兩個離散隨機變數 $X$, $Y$,**如果他們投射到一樣的 Space**,且
$$
E[e^{tX}] = E[e^{tY}]
$$
則這兩個隨機變數,「有一樣的 PMF」,也因此「有一樣的 CDM」
也就是說 MGF 告訴我們這兩個隨機變數的分佈情形是一樣的
這個的證明需要 「mathematical transform theory」,但直觀上來看
假設 $S=\{S_{1},S_{2}...\}$
$$
E[e^{tX}] = E[e^{tY}]\\
P_{X}(S_{1})e^{tS_{1}}+P_{X}(S_{2})e^{tS_{2}}...=P_{Y}(S_{1})e^{tS_{1}}+P_{Y}(S_{2})e^{tS_{2}}...
$$
可以知道 $P_{X}(S_{1})=P_{Y}(S_{1})$,也就是說他們有一樣的 PMF