--- title: PMF CDF MGF|第四週 tags: 機率 --- # 一個關於條件機率的例子 ![](https://drive.google.com/uc?id=1pfsyJNZmkpWoP4oabOgs-4dCKsp2K62R&export=download) 課本上的這題,題目敘述是有問題的,教授也表明他也無法理解題目的意思 ## Space 的記號 上週我們知道對於隨機變數 X 的 Space / 值域 $$ S_{X} = \{x:X(s)=x,s∈S\} $$ 在以後,會直接以 $S$ 表記,所以不要跟原本的樣本空間 $S$ 混淆 有時候會用 $f(k)$ 作為 PMF,跟下面的 CDF 相對 --- # 機率質量函數 Probability Mass Function / p.m.f $$ P_{X}(k) ≡ Prob(X=k)=\sum_{q\in Q_{k}}^{}Prob(q) $$ 「隨機變數 $X$ 對應的值等於 $k$ 」的機率,就是把所有「被 $X$ 投射到 $k$ 的事件」的機率加起來 這是上週提到的內容 由此可知,p.m.f 是定義在**你所做的實驗中,得到的一些事件之上** # 累積分佈函數 Cumulative Distribution Function / c.d.f 對一個隨機變數 X,從上面得到的機率質量函數,我們定義了一個新的函數 $$ F_{X}(t)=Prob(X\le t) $$ 也就是將上面 PMF 符合條件的都加起來 ## 三個性質 ### 趨近無窮大等於 1 $$ \lim_{t \to \infty} F_{X}(t)= 1 $$ ### 趨近負無窮大等於 0 $$ \lim_{t \to -\infty} F_{X}(t)= 0 $$ ### 較大者恆大於等於較小者 $$ F_{X}(w) \ge F_{X}(t),if\ w\ge t $$ 這個性質告訴我們 monotony increasing 單調遞增 --- 上面這三個原本是從實驗得到的公式,但是如果從數學的角度,會變成是反者的 :::warning 如果有一個函數符合上面這三個性質,則該函數就是一個 CDF ::: ## 例子 投兩次四面骰子,並將隨機變數 X 定為骰子點數的總合 ![](https://drive.google.com/uc?id=1pfsyJNZmkpWoP4oabOgs-4dCKsp2K62R&export=download) ![](https://drive.google.com/uc?id=1a-vpJs2b_UiGFeCip9NxIN-We304zS1H&export=download) --- # 隨機變數的四則運算 假設有兩個隨機變數 $X$,$Y$,我們**可以定一個新的隨機變數** $Z$ 為 $$ Z=f(X,Y) $$ ## 例子 :::info 回顧上次的抽獎例子;公司尾牙從 100 個員工當中,依序抽出 3 個人給予三等、二等、一等獎 獎品只有一個,抽到某個人後不放回 將表記的方式記為 $<三獎,二獎,一獎>$,三獎 1 萬、二獎 5 萬、頭獎 10 萬 將隨機變數定為「某個人得到 x 元獎金」,舉例來說,10 號的隨機變數中,得到 1 萬的情形是 $$ P(X=10000)=\sum_{<10,i,j>,i≠10,j≠10,i≠j}\frac{99×98}{100×99×98}=0.01 $$ ::: 像是 $Z=X+Y$,一樣舉上次那個抽獎的例子,$X$ 的中獎編號是 30,$Y$ 的中獎編號是 10 下面的是如果三獎是 X,二獎是 Y 的情形,其中表記方式為 $<三獎,二獎,一獎>$,\* 代表其他人 $$ X(<30,10,*>)=10000\\ Y(<30,10,*>)=50000\\ Z(<30,10,*>)=60000\\ $$ # Uniform distribution $$ f(x)=\frac{1}{m},if\ x=1,2,...m $$ 經典例子就是投一次正六面骰子,每種結果的機率都是 $\frac{1}{6}$ # 超幾何分佈 Hypergeometric distribution 從 $N_{1}+N_{2}$ 個東西中取 $n$ 個出來,像是從一堆紅色卡片和藍色卡片 則超幾何分佈為,「在紅色卡片中有 x 個的機率是多少」,也就是說 - 紅色有 x 個 - 藍色有 n-x 個 - 總共有 $N=N_{1}+N_{2}$ $$ f(x)=P(X=x)=\frac{C^{N_{1}}_{x}C^{N_{2}}_{n-x}}{C^{N}_{n}} $$ :::warning 注意,這裡雖然分成了兩種顏色,但是從公式中可以知道,每個卡片依舊是屬於不同的卡片 ::: ![](https://drive.google.com/uc?id=1gVoOXgeNOqj2uPuFELNtNcWHhm6SPNZz&export=download) 上面就是不同情形的圖;左圖可以發現,$N_{1}$ 最多就 8 顆,所以在 8 以後的機率為 0 ## 特例,n = 1 用公式可以知道,會簡化為 $$ f(x)=P(X)=\frac{N_{1}}{N}=\frac{N_{1}}{N_{1}+N_{2}} $$ 就個就是伯努利分布 Bernoulli distribution 畢竟其意義為只取一次,情況只有有跟沒有 --- # 數學期望值 Mathematical Expectation 就是那個我們熟悉的期望值;在離散中,就是把隨機變數每個情況的機率乘上對應的值 $$ E(X)=\sum_{x_{i} \in S}P_{X}(x_{i})x_{i} $$ 而常常為以 $\mu$ 這個符號代表期望值 ## 課本的寫法 課本是假設有兩個隨機變數,一個是 $X$,一個是 $Y$,其中 $Y$ 是 $X$ 經過函數關係,可能是兩倍或是加減之類的,所得到的隨機變數;下面記為 $Y=u(X)$ 而在這樣情況下,課本把期望值定為 $$ E(Y)=E(u(X))=\sum_{x_{i} \in S}P_{X}(x_{i})u(x_{i})\\ E(u(X))=\sum_{x \in S}P_{X}(x)u(x)\\ $$ 會這樣寫是因為,我們可以從這兩個隨機變數的函數關係,推出下面的結論 $$ \sum_{x \in S}f(x)u(x)=\sum_{y \in S'}g(y)y $$ ### 證明 $$ E(Y)=\sum_{y_{i}\in S'}P_{Y}(y_{i})y_{i},\ S'\ 是\ Y\ 的\ Space\\ =\sum_{y_{i}\in S'}Prob(Y=y_{i})y_{i}\\ =\sum_{y_{i}\in S'}\sum_{所有的\ x_{j}\ 使得\ u(x_{j})=y_{i}}Prob(X=x_{j})u(x_{j})\\ =\sum_{x_{j} \in S}P_{X}(x_{j})x_{j}\\ $$ ## 好處 有了這樣的關係,告訴我們只要隨機變數有函數關係,則他們期望值都會一樣 也就是說,如果有一個隨機變數的機率很難算,或是有其他導致困難的原因,我們都可以用函數關係去得到期望值 ### 例子 1 假設有一個隨機變數的機率質量函數是 $$ f(x)=\frac{1}{3},\ \ x\in\ S_{X}\\ S_{X}=\{-1,0,1\} $$ 假設有另一個隨機變數 $Y=u(X)=X^{2}$ $$ E(X^{2})=\sum_{x \in S_{X}}x^{2}f(x)\\ =(-1)^{2}(\frac{1}{3})+(0)^{2}(\frac{1}{3})+(1)^{2}(\frac{1}{3})=\frac{2}{3} $$ 但是如果以 $Y$ 的視角來看的話,首先,找出 $Y$ 的 Space $$ S_{Y}=\{0,1\},並且\ P_{Y}(0)=\frac{1}{3},P_{Y}(1)=\frac{2}{3} $$ 再來計算期望值 $$ E(Y)=\sum_{y \in S_{Y}}yg(y)\\ =(0)^{2}(\frac{1}{3})+(1)^{2}(\frac{2}{3})=\frac{2}{3} $$ 可以發現兩者是一樣的,也就是我們在上面得出的結論 $$ \sum_{x \in S_{X}}x^{2}f(x)=\sum_{y \in S_{Y}}yg(y) $$ ### 例子 2 丟一個公正的六面骰子,隨機變數為其點數,每個點數的機率是 $\frac{1}{6}$ 假設有一個新的隨機變數為 $$ Y=|X-E(X)| $$ 那一樣,你可以從 $X$ 去做,也可以從 $Y$ 去做,兩者得到的期望值是一樣的,都是 $\frac{3}{2}$ --- # 期望值的相關公式和定理 ## $E(c)=c,\ c\ 是常數$ 這裡說 c 是常數,應該是說,c 這個隨機變數,他對應的值是常數,也就是一個常數函數 這樣的話全部人都對應到他,那對應到的機率自然也就是 1 ## $E[cu(X)] = cE[u(X)],\ c\ 是常數,\ u\ 是一個函數$ 就是根據定義,把 c 從 $\sum$ 中提到外面來 ## $E[c_{1}u_{1}(X)+c_{2}u_{2}(X)] = c_{1}E[u_{1}(X)]+c_{2}E[u_{2}(X)]$ 這個也是從定義中,把常數提出來,並把相加的部分分為兩個 $\sum$ :::success 從上面可以知道,期望值是一個「線性操作子 a linear operator」 ::: ## $E[X]$ 是會使 $E[(X-b)^{2}]$ 得到最小值的 $b$ 假設有一個隨機變數 $X$ 的函數,並且該函數的期望值存在 $$ u(X)=(X-b)^{2},\ \ E[u(X)]\ exists $$ 那假設另一個函數 $$ g(b)=E[(X-b)^{2}]=E[X^{2}]-2bE[X]+b^{2} $$ 所以要找極值,就是對該函數微分等於 0 的點 $$ g'(b)=-2E[X]+2b = 0 $$ 因此可以得到 $$ b = E[X] $$ --- # 變異數 / 變異量 Variance of Random Variable 這是根據隨機變數定義的新的函數(跟期望值一樣),定義為 $$ Var[X]=E[(X-\mu)^{2}]=E[X^{2}-2X\mu +\mu ^{2}]\\ =E[X^{2}]-2\mu E[X] +\mu ^{2}\\ =E[X^{2}]-\mu ^{2} $$ 這裡要注意 $\mu$ 這裡不是指平均值,而是期望值,$E[X]$ 常常記為 $\mu$ 通常會記為 $\sigma ^{2}$ 或 $Var[X]$,其中 $\sigma$ 就是標準差 standard deviation ## 變數的運算 跟期望值相比,其運算不是線性的;假設 $Y=aX+b$ 則 $$ E[Y]=E[aX+b]=aE[X]+b\ \ \ \ 符合線性\\ Var[Y]=E[(Y-\mu_{Y})^{2}]=E[(aX+b-a\mu_{X}+b)^2]\\ =E[a^{2}(X-\mu_{X})^2]=a^{2}Var[X] $$ ## 例子 假設你參加兩個抽獎活動,活動 A 是 0.1% 中 100,000,活動 B 是 0.01% 中 1,000,000 兩個活動的期望值都是 100 $$ E[A] = 0.001 × 100000 + 0.999 × 0 = 100\\ E[B] = 0.0001 × 1000000 + 0.9999 × 0 = 100\\ $$ 但是兩者的變異數卻不一樣 $$ Var[A] = 0.001 × (100000-100)^{2} + 0.999 × (0-100)^{2}= 9,990,000\\ Var[B] = 0.0001 × (1000000-100)^{2} + 0.9999 × (0-100)^{2}=99,990,000\\ $$ :::warning 在大多數的分佈/模型 中,期望值和變異數就是你可以唯一決定一個隨機變數的必要參數 ::: --- # Moment of a Distribution 假設 $X$ 是一個隨機變數, $k$ 是一個正整數 $$ E[X^{k}]=\sum_{x_{i} \in S}P_{X}(x_{i})x_{i}^{k} $$ 如果上面算出的期望值是「有限的 finite」則該期望值稱作「 $X$ 的第 $k$ moment / $k^{th} moment$」 而 Moment 其實嚴格來講,是要說明「以誰為中心 / centered at」;向上面的就是「以原點為中心」 所以 $$ E[(X-b)^{k}] $$ 就是以 $b$ 為中心, $X$ 的第 $k$ moment :::info 通常如果不說以誰為中心,通常是以原點為中心 ::: :::warning 對照上面的結論,對於不同的分佈/模型 中,你需要期望值,以及不同階的 Moment 才能決定一個隨機變數 ::: --- # Moment Generating Function / m.g.f $X$ 是一個離散隨機變數,$h$ 是一個正數,使得 $$ E[e^{tX}],\ \ -h<t<h $$ 存在且有限,則 $X$ 的 Moment Generating Function 定為 $$ M(t)=E[e^{tX}] $$ 通常簡稱為 MGF :::success 老師說 t 要在 0 附近(包含 0),因為後面會需要微分;也就是說 $h$ 是一個小小的數 ::: :::warning 會叫做 Moment Generating Function,就是因為它可以產生 Moment ::: ## 單一性 如果對於兩個離散隨機變數 $X$, $Y$,**如果他們投射到一樣的 Space**,且 $$ E[e^{tX}] = E[e^{tY}] $$ 則這兩個隨機變數,「有一樣的 PMF」,也因此「有一樣的 CDM」 也就是說 MGF 告訴我們這兩個隨機變數的分佈情形是一樣的 這個的證明需要 「mathematical transform theory」,但直觀上來看 假設 $S=\{S_{1},S_{2}...\}$ $$ E[e^{tX}] = E[e^{tY}]\\ P_{X}(S_{1})e^{tS_{1}}+P_{X}(S_{2})e^{tS_{2}}...=P_{Y}(S_{1})e^{tS_{1}}+P_{Y}(S_{2})e^{tS_{2}}... $$ 可以知道 $P_{X}(S_{1})=P_{Y}(S_{1})$,也就是說他們有一樣的 PMF