--- title: 聯合機率 |第十五週 tags: 機率 --- # Bivariate Distributions 現在我們來到由兩個隨機變數構成的世界。 原本單隨機變數的機率空間是一維的,現在雙變數是二維的機率空間。 # 離散型 一樣的,有分為離散型跟連續型;以下先介紹離散型。 原先的 # Joint Probability Mass Function / Joint PMF 雙變數世界的 PMF。 $$ f(x,y)\equiv Prob(X=x,Y=y) $$ 一樣會需要滿足跟原始 PMF 一樣的三大定律: ## 介於 1 跟 0 $$ 1 \ge f(x,y) \ge 0 $$ ## 全部加總為 1 $$ \sum_{(x,y)}\sum_{\in S}f(x,y) = 1 $$ ## 事件機率等於其全部情形相加 $$ P((X,Y)\in A)=\sum_{(x,y)}\sum_{\in A}f(x,y) $$ ## 例子-骰子 投兩顆骰子,並且我們讓這 36 種情形中,X 代表較小的數字,Y 代表較大的數字,則我們可以畫出下圖: ![](https://drive.google.com/uc?id=1nYyanZsBV7w5lk-RTudXRbQdk5XR5EaU&export=download) 例如最左下角的點,就是當 X = 1 且 Y = 1 的機率,也就是 $\frac{1}{36}$。 也因此我們可以知道 JPMF 就如下面的公式: $$ f(x,y)= \begin{cases} \frac{1}{36} & \text{} 1\le x = y \le6 \\ \frac{2}{36} & \text{} 1\le x < y \le6 \\ \end{cases} $$ # Marginal Probability Mass Function / Marginal PMF 何謂 Marginal,就是邊緣的意思。上圖中,如果我們把整個 2D 的點,壓縮到某個軸上,就會得到在軸旁邊顯示的機率,或者更明確的說: $$ f_{X}(x)=\sum_{y}f(x,y)=P(X=x),x\in S_{X}\\ f_{Y}(y)=\sum_{x}f(x,y)=P(Y=y),y\in S_{Y}\\ $$ 也就是說,我們把其中一個隨機變數全部加了起來。這樣就會得到原先一維世界的單隨機變數了。 ## 隨機變數的 獨立 / Independent 如果我們說兩個隨機變數獨立,是指: $$ \text{if and only if }P(X=x,Y=y)=P(X=x)P(Y=y)\\ $$ 其他情形則 X 跟 Y 不獨立。我們可以更簡潔的寫為: $$ f(x,y)=f_{X}(x)f_{Y}(y) $$ :::info 像上面骰子的例子就不是獨立的,只要確認最左下角該點就知道了,因為: $$ f_{X}(1)=\frac{11}{36},f_{Y}(1)=\frac{1}{36}\\ \text{but }f(1,1)=\frac{1}{36}\ne f_{X}(1)f_{Y}(1)==\frac{11}{36} $$ ::: --- # 期望值組合包 雙隨機變數一樣有期望值,下面直接介紹之前提到的函數版本。 如果 Y 是由 X~1~ 跟 X~2~ 兩個隨機變數所構成,也就是說: $$ Y=u(X_{1},X_{2}) $$ 則我們可以知道 Y 的期望值為: $$ E[Y]=E[u(X_{1},X_{2})]=\sum_{(x_{1},x_{2})}\sum_{\in S}u(x_{1},x_{2})f(x_{1},x_{2}) $$ 但是由於是雙變數的環境,所以上述的 Y 其實有很多種可能 # 初始版本 Y = X ## 期望值 跟 Marginal PMF 的概念很像: $$ Y=u(x_{1},x_{2})=X_{i},\ i=1,2\ \ then\\ E[u(x_{1},x_{2})]=E[X_{i}]=\mu _{i} $$ 也就是說 u 這個函數一次挑了一個隨機變數出來,這樣期望值的結果就是原本單變數的期望值。 ## 變異數 不要忘記變異數也是一種期望值: $$ Y=u(x_{1},x_{2})=(X_{i}-\mu _{i})^{2},\ i=1,2\ \ then\\ E[u(x_{1},x_{2})]=E[(X_{i}-\mu _{i})^{2}]=\sigma^{2} _{i}=Var(X_{i}) $$ # 共變異數 Covariance 這個是雙變數的特殊期望值之一: $$ Y=u(x_{1},x_{2})=(X_{1}-\mu _{1})(X_{2}-\mu _{2})\ \ then\\ E[u(x_{1},x_{2})]=E[(X_{1}-\mu _{1})(X_{2}-\mu _{2})]=\sigma _{12}=Cov(X_{1},X_{2}) $$ # 相關係數 Correlation Coefficient 如果 $X_{1}$ 跟 $X_{2}$ 的變異數都非 0 的話,則相關係數定義為: $$ \rho=\frac{Cov(X_{1},X_{2})}{\sigma _{1} \sigma _{2}}=\frac{\sigma _{12}}{\sigma _{1} \sigma _{2}} $$ # 另一個角度 ## 期望值 其實我們也可以根據定義算出個別隨機變數的期望值: $$ \mu_{1}=E(X_{1})=\sum_{x_{1}}\sum_{x_{2}}x_{1}f(x_{1},x_{1})\\ =\sum_{x_{1}}x_{1}\sum_{x_{2}}f(x_{1},x_{1})=\sum_{x_{1}}x_{1}f_{X}(x_{1}) $$ ## 共變異數 我們一樣可以根據期望值的線性性質,進行拆解: $$ E[(X_{1}-\mu _{1})(X_{2}-\mu _{2})]=E[X_{1}X_{2}-\mu _{1}X_{2}-\mu _{2}X_{1}+\mu _{1}\mu _{2}]\\ =E[X_{1}X_{2}]-\mu _{1}\mu _{2}-\mu _{1}\mu _{2}+\mu _{1}\mu _{2}=E[X_{1}X_{2}]-\mu _{1}\mu _{2} $$ 而其中出現的 $E[X_{1}X_{2}]$ 又是另一種期望值。 # $E[u(X)v(Y)]$ 和獨立隨機變數 根據定義可以知道: $$ E[u(X)v(Y)]=\sum_{S_{1}}\sum_{S_{2}}u(x)v(y)f(x,y) $$ 而如果 X 跟 Y 是互相獨立的隨機變數,則: $$ \sum_{S_{1}}\sum_{S_{2}}u(x)v(y)f(x,y)=\sum_{S_{1}}\sum_{S_{2}}u(x)v(y)f_{1}(x)f_{2}(y)\\ =\sum_{S_{1}}u(x)f_{1}(x)\sum_{S_{2}}v(y)f_{2}(y)=E[u(X)]×E[v(Y)] $$ 因此帶入共變異數的公式,可以發現: $$ E[(X-\mu _{X})(Y-\mu _{Y})]=E[XY]-\mu _{X}\mu _{Y}=\mu _{X}\mu _{Y}-\mu _{X}\mu _{Y}=0 $$ 也就是說,**如果兩隨機變數獨立,則共變異數為 0,也因此相關係數為 0**。 或者說這兩個隨機變數**不相關**。 :::warning 要注意的是,如果相關係數為0,不代表隨機變數獨立,因為可能只是單純 $$ \sum_{S_{1}}\sum_{S_{2}}u(x)v(y)f(x,y) $$ 這個部分湊出了跟兩個期望值乘積一樣的結果。 ::: --- # 相關係數 我們來換個角度看相關係數。 對於隨機變數 X 跟 Y 所構出的 2D 隨機空間,我們假設有一條 **「跟兩者平均值有關的斜直線」** 通過這些點。 如果我們以 X 作為該斜直線的變數傳進去,會得到一個在線上的 $y'$ 值,那麼問題來了: :::warning 怎樣的斜直線,使得所有 X 所對應出的 $y'$ 值跟實際的 Y 值之間的距離平方總和的期望值為最小? ::: 那麼我們先來假設斜直線的方程為: $$ y' = b(x-\mu _{x})+\mu _{y} $$ 首先我們知道,他們之間的距離平方為: $$ (y-y')^{2}=(y-\mu _{y}-b(x-\mu _{x}))^{2} $$ 其中 $y$ 代表的是原始的 y 值;所以我們要找的期望值就是: $$ E[(Y-\mu _{y}-b(X-\mu _{x}))^{2}]=K(b)\\ $$ 其中 K(b) 代表該方程是一個 b 的函數。 $$ K(b)=E[(Y-\mu _{y})^{2}-2b(X-\mu _{x})(Y-\mu _{y})+(b(X-\mu _{x})^{2})]\\ =\sigma_{Y}^{2} - 2b\rho\sigma_{X}\sigma_{Y} + b^{2}\sigma_{X}^{2} $$ 所以就一樣對 b 微分找極值。 $$ K'(b)=- 2\rho\sigma_{X}\sigma_{Y}+ 2b\sigma_{X}^{2}=0\\ b=\rho\frac{\sigma_{Y}}{\sigma_{X}} $$ 那麼這個極值是極大或極小?看看二階微分: $$ K''(b)=2\sigma_{X}^{2}\\ $$ 由於是大於 0 的,所以可以知道該極值為極小值;因此我們找到了我們要的斜直線: $$ y' = \rho\frac{\sigma_{Y}}{\sigma_{X}}(x-\mu _{x})+\mu _{y} $$ ## $\rho$ 的範圍 如果我們把 b 的極值代回原本的斜直線,會得到: $$ K(\rho\frac{\sigma_{Y}}{\sigma_{X}})=...=\sigma_{Y}^{2}(1-\rho^{2}) $$ 由於我們算的是「距離平方」的期望值,所以可以知道上面的結果一定是大於等於 0 的;而 $\sigma_{Y}^{2}$ 一定大於 0,因此可以知道: $$ 1-\rho^{2} \le 1 \Rightarrow -1 \le \rho \le 1 $$ 並且可以發現,如果 $\rho = 0$,則 $K(\rho\frac{\sigma_{Y}}{\sigma_{X}}) = \sigma_{Y}^{2}$ 會達到極大值 :::info 其實 $\sigma_{Y}$ 是有可能等於 0 的,但那個情形就變成水平線了 ::: --- # 條件機率 Conditional Probability Mass Function 沒錯,雙隨機變數也有條件機率,但是定義變得不太一樣,不過又很類似。 $$ g(x|y)=\frac{f(x,y)}{f_{Y}(y)}\\ g(y|x)=\frac{f(x,y)}{f_{X}(x)}\\ \text{分母的機率要大於 0} $$ 可以看到分母放的是 Marginal PMF,因此可以知道,如果我給定某個 x 跟 y,假設是 $g(x|y)$,則他的條件機率就是 :::info 在 y 的發生原本機率之下,x 發生的機率。 或者說在 x 全部發生的 y 的機率下,其中特定的 x 的機率為多少。 ::: ## 加起來為 1 在以前提到條件機率時,就有提過條件機率也是一種機率,所以他的總和也會是 1。 其實也不難推導: $$ \sum_{x \in S_{X}}g(x|y)=\frac{\sum_{x \in S_{X}}f(x,y)}{f_{Y}(y)}=\frac{f_{Y}(y)}{f_{Y}(y)}=1 $$ ## 條件期望值和變異數 / Conditional Expectations and Variance 我們也可以來算條件機率的期望值: $$ E[u(Y)|X = x]=\sum_{y}u(y)h(y|x)=\mu_{Y|x} $$ 要注意到,**X 是要給定某個值的**。 還有變異數: $$ \sigma_{Y|x}^{2} = E\{[Y-E(Y|x)]^{2}|x\}=\sum_{y}[y-E(Y|x)]^{2}h(y|x)\\ =E(Y^{2}|x)-[E(Y|x)]^{2} $$ 要注意到,**都是要給定的 X**,所以 x 才都會是小寫字體。 但是通常 y 跟 x 會是某種關係,可能是某方限制另外一方,或者說兩者為函數關係; 這時候你就可以用是為變數的那一方,表示出全部的值。 ## 例子 ![](https://drive.google.com/uc?id=1drOpYb_ELFFMHSZajWu51XSS-f6sA8nn&export=download) 由於上面的 y 被 x 所限制住,所以我們可以算出: $$ f_X\left(x\right)=\frac{1}{8},0\le x\le7\\ h\left(y\middle|\ x\right)=\frac{f\left(x,y\right)}{f_X\left(x\right)}=\frac{\frac{1}{24}}{\frac{1}{8}}=\frac{1}{3},0\le x\le7,x\le y\ \le x+2\\ $$ 接著根據定義計算條件期望值 $$ E\left[Y\middle|\ x\right]=\sum_{y}{yh\left(y\middle| x\right)}=\frac{1}{3}\sum_{y} y\\ =\frac{1}{3}\left(x+\left(x+1\right)+\left(x+2\right)\right)=x+1,\ \ 0\le x\le7 $$ 可以發現,得到一個很簡潔的式子,並且適用於範圍內的 x。 而下面的變異數也是同理。 $$ E\left[Y^2\middle|\ x\right]=\sum_{y}{y^2h\left(y\middle| x\right)}=\frac{1}{3}\sum_{y} y^2=\frac{1}{3}\left(x^2+\left(x+1\right)^2+\left(x+2\right)^2\right)\\ =\frac{1}{3}\left(x^2+x^2+2x+1+x^2+4x+4\right)=\frac{1}{3}\left({3x}^2+6x+5\right)=x^2+2x+\frac{5}{3}\\ \sigma_{Y|x}^2=x^2+2x+\frac{5}{3}-\left(x+1\right)^2=x^2+2x+\frac{5}{3}-x^2-2x-1=\frac{2}{3} $$ --- # 連續型 連續型的世界,就跟以前一樣,大致上就是級數轉成了積分。 ## Marginal PDF 根據定義,我們可以知道 Marginal PDF 為: $$ f_{X}(x)=\int_{-\infty}^{\infty}f(x,y)dy\\ f_{Y}(y)=\int_{-\infty}^{\infty}f(x,y)dx\\ $$ 當然,如果有給範圍的話就換成對應的範圍。 ## Conditional PDF 跟離散型的一樣: $$ g(x|y)=\frac{f(x,y)}{f_{Y}(y)}\\ g(y|x)=\frac{f(x,y)}{f_{X}(x)}\\ $$ ## Conditional Expectated Value 此時,根據定義,我們也可以知道,條件期望值的定義為: $$ E[X|y]=\int_{-\infty}^{\infty}xg(x|y)dx=\int_{-\infty}^{\infty}x\frac{f(x,y)}{f_{Y}(y)}dx\\ E[Y|x]=\int_{-\infty}^{\infty}yg(y|x)dy=\int_{-\infty}^{\infty}y\frac{f(x,y)}{f_{X}(x)}dy\\ $$ 仔細看會發現,以 $E[X|y]$ 來說,我們在 $f_{Y}(y)$ 的時候對 x 積了 1 次積分,但是我們在計算 $E[X|y]$ 的時候是把它當作分母,然後整體再對 x 做 1 次積分,因此有種「平分」的感覺。 # 重要結論 如果 $E[Y|x]$ 是 x 的線性函數,或者如果 $E[X|y]$ 是 y 的線性函數,則我們可以推導出: $$ E[Y|x]=\mu_{Y}+\rho\frac{\sigma_{Y}}{\sigma_{X}}(x-\mu_{X})\\ E[X|y]=\mu_{X}+\rho\frac{\sigma_{X}}{\sigma_{Y}}(y-\mu_{Y}) $$ ## 推導 下面以 $E[Y|x]$ 的推導為例,$E[X|y]$ 的方法一樣。 首先我們的前提是,$E[Y|x]$ 是一個 x 的線性函數,所以我們可以令: $$ E[Y|x]=a+bx $$ 所以我們接下來就是要找到,如何以 $\mu_{X},\mu_{Y},\sigma_{X},\sigma_{Y},\rho$ 表示出 a 跟 b。 我們接著把 $E[Y|x]$ 展開: $$ E[Y|x]=\sum_{y}yg(Y|x)=\sum_{y}y\frac{f(x,y)}{f_{X}(x)}=a+bx\\ $$ 然後我們把 $f_{X}(x)$ 丟到右邊: $$ \sum_{y}yf(x,y)=(a+bx)f_{X}(x) $$ 接著我們兩邊都對 $x$ 取 $\sum$: $$ \sum_{x}\sum_{y}yf(x,y)=\sum_{x}(a+bx)f_{X}(x) $$ 我們可以發現左手邊: $$ \sum_{x}\sum_{y}yf(x,y)=\mu_{Y} $$ 而右手邊: $$ \sum_{x}(a+bx)f_{X}(x)=\sum_{x}af_{X}(x)+\sum_{x}bxf_{X}(x)\\ =a\sum_{x}f_{X}(x)+b\sum_{x}xf_{X}(x)\\ =a×1+b×\mu_{X}=a+b\mu_{X}\\ $$ >不要忘記 $\sum_{x}f_{X}(x)$ 就是把全部的機率加起來,所以會是 1 所以統整起來會得到 **「式子一」**: $$ \mu_{Y}=a+b\mu_{X} $$ 有了上面的式子,我們再神奇的產出一個式子,我們對剛剛得到的下面這條: $$ \sum_{x}\sum_{y}yf(x,y)=\sum_{x}(a+bx)f_{X}(x) $$ 給他兩邊同時乘上 x ,然後計算出結果,看會有甚麼神奇的事情: $$ \sum_{x}\sum_{y}xyf(x,y)=\sum_{x}(ax+bx^{2})f_{X}(x) $$ 左手邊: $$ \sum_{x}\sum_{y}xyf(x,y)=E[XY] $$ 不要忘記 $E[XY]$ 是共變異數的一部份: $$ E[XY]-\mu_{X}\mu_{Y}=Cov(X,Y)=\rho\sigma_{X}\sigma_{Y}\\ E[XY]=\rho\sigma_{X}\sigma_{Y}+\mu_{X}\mu_{Y} $$ 右手邊: $$ \sum_{x}axf_{X}(x)+\sum_{x}bx^{2}f_{X}(x)\\ =a\mu_{X}+bE[X^{2}]\\ $$ 而 $E[X^{2}]$ 不要忘記,他是變異數其中一部分: $$ E[X^{2}] - \mu_{X}^{2}=\sigma_{X}^{2}\\ E[X^{2}]=\sigma_{X}^{2}+\mu_{X}^{2} \\ $$ 所以我們把上面的東西統整起來,會得到 **「式子二」**: $$ E[XY]=a\mu_{X}+bE[X^{2}]\\ \rho\sigma_{X}\sigma_{Y}+\mu_{X}\mu_{Y}=a\mu_{X}+b\sigma_{X}^{2}+b\mu_{X}^{2} $$ 最後我們合併 **「式子一」** 跟 **「式子二」**: $$ \mu_{Y}=a+b\mu_{X}\\ \rho\sigma_{X}\sigma_{Y}+\mu_{X}\mu_{Y}=a\mu_{X}+b\sigma_{X}^{2}+b\mu_{X}^{2} $$ 這時候除了 a 跟 b 以外,其他都是常數,而我們現在就是要對 a 跟 b 解聯立,所以首先上式乘以 $\mu_{X}$ 就可以將 a 消掉: $$ \mu_{Y}\mu_{X}=a\mu_{X}+b\mu_{X}^{2}\\ \rho\sigma_{X}\sigma_{Y}+\mu_{X}\mu_{Y}=a\mu_{X}+b\sigma_{X}^{2}+b\mu_{X}^{2}\\ \Rightarrow\\ \rho\sigma_{X}\sigma_{Y}=b\sigma_{X}^{2}\\ \Rightarrow b=\rho\frac{\sigma_{Y}}{\sigma_{X}} $$ 然後將 b 帶回上式,可以解出 a: $$ \mu_{Y}=a+\rho\frac{\sigma_{Y}}{\sigma_{X}}\mu_{X}\\ a=\mu_{Y}-\rho\frac{\sigma_{Y}}{\sigma_{X}}\mu_{X}\\ $$ 現在我們可以將 a 跟 b 帶回去原本的式子了: $$ E[Y|x]=a+bx=\mu_{Y}-\rho\frac{\sigma_{Y}}{\sigma_{X}}\mu_{X}+\rho\frac{\sigma_{Y}}{\sigma_{X}}x\\ E[Y|x]=\mu_{Y}+\rho\frac{\sigma_{Y}}{\sigma_{X}}(x-\mu_{X}) $$ 真是可喜可賀。 所以同樣的方式我們也可以得到: $$ E[X|y]=\mu_{X}+\rho\frac{\sigma_{X}}{\sigma_{Y}}(y-\mu_{Y}) $$