---
title: 聯合機率 |第十五週
tags: 機率
---
# Bivariate Distributions
現在我們來到由兩個隨機變數構成的世界。
原本單隨機變數的機率空間是一維的,現在雙變數是二維的機率空間。
# 離散型
一樣的,有分為離散型跟連續型;以下先介紹離散型。
原先的
# Joint Probability Mass Function / Joint PMF
雙變數世界的 PMF。
$$
f(x,y)\equiv Prob(X=x,Y=y)
$$
一樣會需要滿足跟原始 PMF 一樣的三大定律:
## 介於 1 跟 0
$$
1 \ge f(x,y) \ge 0
$$
## 全部加總為 1
$$
\sum_{(x,y)}\sum_{\in S}f(x,y) = 1
$$
## 事件機率等於其全部情形相加
$$
P((X,Y)\in A)=\sum_{(x,y)}\sum_{\in A}f(x,y)
$$
## 例子-骰子
投兩顆骰子,並且我們讓這 36 種情形中,X 代表較小的數字,Y 代表較大的數字,則我們可以畫出下圖:

例如最左下角的點,就是當 X = 1 且 Y = 1 的機率,也就是 $\frac{1}{36}$。
也因此我們可以知道 JPMF 就如下面的公式:
$$
f(x,y)=
\begin{cases}
\frac{1}{36} & \text{} 1\le x = y \le6 \\
\frac{2}{36} & \text{} 1\le x < y \le6 \\
\end{cases}
$$
# Marginal Probability Mass Function / Marginal PMF
何謂 Marginal,就是邊緣的意思。上圖中,如果我們把整個 2D 的點,壓縮到某個軸上,就會得到在軸旁邊顯示的機率,或者更明確的說:
$$
f_{X}(x)=\sum_{y}f(x,y)=P(X=x),x\in S_{X}\\
f_{Y}(y)=\sum_{x}f(x,y)=P(Y=y),y\in S_{Y}\\
$$
也就是說,我們把其中一個隨機變數全部加了起來。這樣就會得到原先一維世界的單隨機變數了。
## 隨機變數的 獨立 / Independent
如果我們說兩個隨機變數獨立,是指:
$$
\text{if and only if }P(X=x,Y=y)=P(X=x)P(Y=y)\\
$$
其他情形則 X 跟 Y 不獨立。我們可以更簡潔的寫為:
$$
f(x,y)=f_{X}(x)f_{Y}(y)
$$
:::info
像上面骰子的例子就不是獨立的,只要確認最左下角該點就知道了,因為:
$$
f_{X}(1)=\frac{11}{36},f_{Y}(1)=\frac{1}{36}\\
\text{but }f(1,1)=\frac{1}{36}\ne f_{X}(1)f_{Y}(1)==\frac{11}{36}
$$
:::
---
# 期望值組合包
雙隨機變數一樣有期望值,下面直接介紹之前提到的函數版本。
如果 Y 是由 X~1~ 跟 X~2~ 兩個隨機變數所構成,也就是說:
$$
Y=u(X_{1},X_{2})
$$
則我們可以知道 Y 的期望值為:
$$
E[Y]=E[u(X_{1},X_{2})]=\sum_{(x_{1},x_{2})}\sum_{\in S}u(x_{1},x_{2})f(x_{1},x_{2})
$$
但是由於是雙變數的環境,所以上述的 Y 其實有很多種可能
# 初始版本 Y = X
## 期望值
跟 Marginal PMF 的概念很像:
$$
Y=u(x_{1},x_{2})=X_{i},\ i=1,2\ \ then\\
E[u(x_{1},x_{2})]=E[X_{i}]=\mu _{i}
$$
也就是說 u 這個函數一次挑了一個隨機變數出來,這樣期望值的結果就是原本單變數的期望值。
## 變異數
不要忘記變異數也是一種期望值:
$$
Y=u(x_{1},x_{2})=(X_{i}-\mu _{i})^{2},\ i=1,2\ \ then\\
E[u(x_{1},x_{2})]=E[(X_{i}-\mu _{i})^{2}]=\sigma^{2} _{i}=Var(X_{i})
$$
# 共變異數 Covariance
這個是雙變數的特殊期望值之一:
$$
Y=u(x_{1},x_{2})=(X_{1}-\mu _{1})(X_{2}-\mu _{2})\ \ then\\
E[u(x_{1},x_{2})]=E[(X_{1}-\mu _{1})(X_{2}-\mu _{2})]=\sigma _{12}=Cov(X_{1},X_{2})
$$
# 相關係數 Correlation Coefficient
如果 $X_{1}$ 跟 $X_{2}$ 的變異數都非 0 的話,則相關係數定義為:
$$
\rho=\frac{Cov(X_{1},X_{2})}{\sigma _{1} \sigma _{2}}=\frac{\sigma _{12}}{\sigma _{1} \sigma _{2}}
$$
# 另一個角度
## 期望值
其實我們也可以根據定義算出個別隨機變數的期望值:
$$
\mu_{1}=E(X_{1})=\sum_{x_{1}}\sum_{x_{2}}x_{1}f(x_{1},x_{1})\\
=\sum_{x_{1}}x_{1}\sum_{x_{2}}f(x_{1},x_{1})=\sum_{x_{1}}x_{1}f_{X}(x_{1})
$$
## 共變異數
我們一樣可以根據期望值的線性性質,進行拆解:
$$
E[(X_{1}-\mu _{1})(X_{2}-\mu _{2})]=E[X_{1}X_{2}-\mu _{1}X_{2}-\mu _{2}X_{1}+\mu _{1}\mu _{2}]\\
=E[X_{1}X_{2}]-\mu _{1}\mu _{2}-\mu _{1}\mu _{2}+\mu _{1}\mu _{2}=E[X_{1}X_{2}]-\mu _{1}\mu _{2}
$$
而其中出現的 $E[X_{1}X_{2}]$ 又是另一種期望值。
# $E[u(X)v(Y)]$ 和獨立隨機變數
根據定義可以知道:
$$
E[u(X)v(Y)]=\sum_{S_{1}}\sum_{S_{2}}u(x)v(y)f(x,y)
$$
而如果 X 跟 Y 是互相獨立的隨機變數,則:
$$
\sum_{S_{1}}\sum_{S_{2}}u(x)v(y)f(x,y)=\sum_{S_{1}}\sum_{S_{2}}u(x)v(y)f_{1}(x)f_{2}(y)\\
=\sum_{S_{1}}u(x)f_{1}(x)\sum_{S_{2}}v(y)f_{2}(y)=E[u(X)]×E[v(Y)]
$$
因此帶入共變異數的公式,可以發現:
$$
E[(X-\mu _{X})(Y-\mu _{Y})]=E[XY]-\mu _{X}\mu _{Y}=\mu _{X}\mu _{Y}-\mu _{X}\mu _{Y}=0
$$
也就是說,**如果兩隨機變數獨立,則共變異數為 0,也因此相關係數為 0**。
或者說這兩個隨機變數**不相關**。
:::warning
要注意的是,如果相關係數為0,不代表隨機變數獨立,因為可能只是單純
$$
\sum_{S_{1}}\sum_{S_{2}}u(x)v(y)f(x,y)
$$
這個部分湊出了跟兩個期望值乘積一樣的結果。
:::
---
# 相關係數
我們來換個角度看相關係數。
對於隨機變數 X 跟 Y 所構出的 2D 隨機空間,我們假設有一條 **「跟兩者平均值有關的斜直線」** 通過這些點。
如果我們以 X 作為該斜直線的變數傳進去,會得到一個在線上的 $y'$ 值,那麼問題來了:
:::warning
怎樣的斜直線,使得所有 X 所對應出的 $y'$ 值跟實際的 Y 值之間的距離平方總和的期望值為最小?
:::
那麼我們先來假設斜直線的方程為:
$$
y' = b(x-\mu _{x})+\mu _{y}
$$
首先我們知道,他們之間的距離平方為:
$$
(y-y')^{2}=(y-\mu _{y}-b(x-\mu _{x}))^{2}
$$
其中 $y$ 代表的是原始的 y 值;所以我們要找的期望值就是:
$$
E[(Y-\mu _{y}-b(X-\mu _{x}))^{2}]=K(b)\\
$$
其中 K(b) 代表該方程是一個 b 的函數。
$$
K(b)=E[(Y-\mu _{y})^{2}-2b(X-\mu _{x})(Y-\mu _{y})+(b(X-\mu _{x})^{2})]\\
=\sigma_{Y}^{2} - 2b\rho\sigma_{X}\sigma_{Y} + b^{2}\sigma_{X}^{2}
$$
所以就一樣對 b 微分找極值。
$$
K'(b)=- 2\rho\sigma_{X}\sigma_{Y}+ 2b\sigma_{X}^{2}=0\\
b=\rho\frac{\sigma_{Y}}{\sigma_{X}}
$$
那麼這個極值是極大或極小?看看二階微分:
$$
K''(b)=2\sigma_{X}^{2}\\
$$
由於是大於 0 的,所以可以知道該極值為極小值;因此我們找到了我們要的斜直線:
$$
y' = \rho\frac{\sigma_{Y}}{\sigma_{X}}(x-\mu _{x})+\mu _{y}
$$
## $\rho$ 的範圍
如果我們把 b 的極值代回原本的斜直線,會得到:
$$
K(\rho\frac{\sigma_{Y}}{\sigma_{X}})=...=\sigma_{Y}^{2}(1-\rho^{2})
$$
由於我們算的是「距離平方」的期望值,所以可以知道上面的結果一定是大於等於 0 的;而 $\sigma_{Y}^{2}$ 一定大於 0,因此可以知道:
$$
1-\rho^{2} \le 1 \Rightarrow -1 \le \rho \le 1
$$
並且可以發現,如果 $\rho = 0$,則 $K(\rho\frac{\sigma_{Y}}{\sigma_{X}}) = \sigma_{Y}^{2}$ 會達到極大值
:::info
其實 $\sigma_{Y}$ 是有可能等於 0 的,但那個情形就變成水平線了
:::
---
# 條件機率 Conditional Probability Mass Function
沒錯,雙隨機變數也有條件機率,但是定義變得不太一樣,不過又很類似。
$$
g(x|y)=\frac{f(x,y)}{f_{Y}(y)}\\
g(y|x)=\frac{f(x,y)}{f_{X}(x)}\\
\text{分母的機率要大於 0}
$$
可以看到分母放的是 Marginal PMF,因此可以知道,如果我給定某個 x 跟 y,假設是 $g(x|y)$,則他的條件機率就是
:::info
在 y 的發生原本機率之下,x 發生的機率。
或者說在 x 全部發生的 y 的機率下,其中特定的 x 的機率為多少。
:::
## 加起來為 1
在以前提到條件機率時,就有提過條件機率也是一種機率,所以他的總和也會是 1。
其實也不難推導:
$$
\sum_{x \in S_{X}}g(x|y)=\frac{\sum_{x \in S_{X}}f(x,y)}{f_{Y}(y)}=\frac{f_{Y}(y)}{f_{Y}(y)}=1
$$
## 條件期望值和變異數 / Conditional Expectations and Variance
我們也可以來算條件機率的期望值:
$$
E[u(Y)|X = x]=\sum_{y}u(y)h(y|x)=\mu_{Y|x}
$$
要注意到,**X 是要給定某個值的**。
還有變異數:
$$
\sigma_{Y|x}^{2} = E\{[Y-E(Y|x)]^{2}|x\}=\sum_{y}[y-E(Y|x)]^{2}h(y|x)\\
=E(Y^{2}|x)-[E(Y|x)]^{2}
$$
要注意到,**都是要給定的 X**,所以 x 才都會是小寫字體。
但是通常 y 跟 x 會是某種關係,可能是某方限制另外一方,或者說兩者為函數關係;
這時候你就可以用是為變數的那一方,表示出全部的值。
## 例子

由於上面的 y 被 x 所限制住,所以我們可以算出:
$$
f_X\left(x\right)=\frac{1}{8},0\le x\le7\\
h\left(y\middle|\ x\right)=\frac{f\left(x,y\right)}{f_X\left(x\right)}=\frac{\frac{1}{24}}{\frac{1}{8}}=\frac{1}{3},0\le x\le7,x\le y\ \le x+2\\
$$
接著根據定義計算條件期望值
$$
E\left[Y\middle|\ x\right]=\sum_{y}{yh\left(y\middle| x\right)}=\frac{1}{3}\sum_{y} y\\
=\frac{1}{3}\left(x+\left(x+1\right)+\left(x+2\right)\right)=x+1,\ \ 0\le x\le7
$$
可以發現,得到一個很簡潔的式子,並且適用於範圍內的 x。
而下面的變異數也是同理。
$$
E\left[Y^2\middle|\ x\right]=\sum_{y}{y^2h\left(y\middle| x\right)}=\frac{1}{3}\sum_{y} y^2=\frac{1}{3}\left(x^2+\left(x+1\right)^2+\left(x+2\right)^2\right)\\
=\frac{1}{3}\left(x^2+x^2+2x+1+x^2+4x+4\right)=\frac{1}{3}\left({3x}^2+6x+5\right)=x^2+2x+\frac{5}{3}\\
\sigma_{Y|x}^2=x^2+2x+\frac{5}{3}-\left(x+1\right)^2=x^2+2x+\frac{5}{3}-x^2-2x-1=\frac{2}{3}
$$
---
# 連續型
連續型的世界,就跟以前一樣,大致上就是級數轉成了積分。
## Marginal PDF
根據定義,我們可以知道 Marginal PDF 為:
$$
f_{X}(x)=\int_{-\infty}^{\infty}f(x,y)dy\\
f_{Y}(y)=\int_{-\infty}^{\infty}f(x,y)dx\\
$$
當然,如果有給範圍的話就換成對應的範圍。
## Conditional PDF
跟離散型的一樣:
$$
g(x|y)=\frac{f(x,y)}{f_{Y}(y)}\\
g(y|x)=\frac{f(x,y)}{f_{X}(x)}\\
$$
## Conditional Expectated Value
此時,根據定義,我們也可以知道,條件期望值的定義為:
$$
E[X|y]=\int_{-\infty}^{\infty}xg(x|y)dx=\int_{-\infty}^{\infty}x\frac{f(x,y)}{f_{Y}(y)}dx\\
E[Y|x]=\int_{-\infty}^{\infty}yg(y|x)dy=\int_{-\infty}^{\infty}y\frac{f(x,y)}{f_{X}(x)}dy\\
$$
仔細看會發現,以 $E[X|y]$ 來說,我們在 $f_{Y}(y)$ 的時候對 x 積了 1 次積分,但是我們在計算 $E[X|y]$ 的時候是把它當作分母,然後整體再對 x 做 1 次積分,因此有種「平分」的感覺。
# 重要結論
如果 $E[Y|x]$ 是 x 的線性函數,或者如果 $E[X|y]$ 是 y 的線性函數,則我們可以推導出:
$$
E[Y|x]=\mu_{Y}+\rho\frac{\sigma_{Y}}{\sigma_{X}}(x-\mu_{X})\\
E[X|y]=\mu_{X}+\rho\frac{\sigma_{X}}{\sigma_{Y}}(y-\mu_{Y})
$$
## 推導
下面以 $E[Y|x]$ 的推導為例,$E[X|y]$ 的方法一樣。
首先我們的前提是,$E[Y|x]$ 是一個 x 的線性函數,所以我們可以令:
$$
E[Y|x]=a+bx
$$
所以我們接下來就是要找到,如何以 $\mu_{X},\mu_{Y},\sigma_{X},\sigma_{Y},\rho$ 表示出 a 跟 b。
我們接著把 $E[Y|x]$ 展開:
$$
E[Y|x]=\sum_{y}yg(Y|x)=\sum_{y}y\frac{f(x,y)}{f_{X}(x)}=a+bx\\
$$
然後我們把 $f_{X}(x)$ 丟到右邊:
$$
\sum_{y}yf(x,y)=(a+bx)f_{X}(x)
$$
接著我們兩邊都對 $x$ 取 $\sum$:
$$
\sum_{x}\sum_{y}yf(x,y)=\sum_{x}(a+bx)f_{X}(x)
$$
我們可以發現左手邊:
$$
\sum_{x}\sum_{y}yf(x,y)=\mu_{Y}
$$
而右手邊:
$$
\sum_{x}(a+bx)f_{X}(x)=\sum_{x}af_{X}(x)+\sum_{x}bxf_{X}(x)\\
=a\sum_{x}f_{X}(x)+b\sum_{x}xf_{X}(x)\\
=a×1+b×\mu_{X}=a+b\mu_{X}\\
$$
>不要忘記 $\sum_{x}f_{X}(x)$ 就是把全部的機率加起來,所以會是 1
所以統整起來會得到 **「式子一」**:
$$
\mu_{Y}=a+b\mu_{X}
$$
有了上面的式子,我們再神奇的產出一個式子,我們對剛剛得到的下面這條:
$$
\sum_{x}\sum_{y}yf(x,y)=\sum_{x}(a+bx)f_{X}(x)
$$
給他兩邊同時乘上 x ,然後計算出結果,看會有甚麼神奇的事情:
$$
\sum_{x}\sum_{y}xyf(x,y)=\sum_{x}(ax+bx^{2})f_{X}(x)
$$
左手邊:
$$
\sum_{x}\sum_{y}xyf(x,y)=E[XY]
$$
不要忘記 $E[XY]$ 是共變異數的一部份:
$$
E[XY]-\mu_{X}\mu_{Y}=Cov(X,Y)=\rho\sigma_{X}\sigma_{Y}\\
E[XY]=\rho\sigma_{X}\sigma_{Y}+\mu_{X}\mu_{Y}
$$
右手邊:
$$
\sum_{x}axf_{X}(x)+\sum_{x}bx^{2}f_{X}(x)\\
=a\mu_{X}+bE[X^{2}]\\
$$
而 $E[X^{2}]$ 不要忘記,他是變異數其中一部分:
$$
E[X^{2}] - \mu_{X}^{2}=\sigma_{X}^{2}\\
E[X^{2}]=\sigma_{X}^{2}+\mu_{X}^{2} \\
$$
所以我們把上面的東西統整起來,會得到 **「式子二」**:
$$
E[XY]=a\mu_{X}+bE[X^{2}]\\
\rho\sigma_{X}\sigma_{Y}+\mu_{X}\mu_{Y}=a\mu_{X}+b\sigma_{X}^{2}+b\mu_{X}^{2}
$$
最後我們合併 **「式子一」** 跟 **「式子二」**:
$$
\mu_{Y}=a+b\mu_{X}\\
\rho\sigma_{X}\sigma_{Y}+\mu_{X}\mu_{Y}=a\mu_{X}+b\sigma_{X}^{2}+b\mu_{X}^{2}
$$
這時候除了 a 跟 b 以外,其他都是常數,而我們現在就是要對 a 跟 b 解聯立,所以首先上式乘以 $\mu_{X}$ 就可以將 a 消掉:
$$
\mu_{Y}\mu_{X}=a\mu_{X}+b\mu_{X}^{2}\\
\rho\sigma_{X}\sigma_{Y}+\mu_{X}\mu_{Y}=a\mu_{X}+b\sigma_{X}^{2}+b\mu_{X}^{2}\\
\Rightarrow\\
\rho\sigma_{X}\sigma_{Y}=b\sigma_{X}^{2}\\
\Rightarrow b=\rho\frac{\sigma_{Y}}{\sigma_{X}}
$$
然後將 b 帶回上式,可以解出 a:
$$
\mu_{Y}=a+\rho\frac{\sigma_{Y}}{\sigma_{X}}\mu_{X}\\
a=\mu_{Y}-\rho\frac{\sigma_{Y}}{\sigma_{X}}\mu_{X}\\
$$
現在我們可以將 a 跟 b 帶回去原本的式子了:
$$
E[Y|x]=a+bx=\mu_{Y}-\rho\frac{\sigma_{Y}}{\sigma_{X}}\mu_{X}+\rho\frac{\sigma_{Y}}{\sigma_{X}}x\\
E[Y|x]=\mu_{Y}+\rho\frac{\sigma_{Y}}{\sigma_{X}}(x-\mu_{X})
$$
真是可喜可賀。
所以同樣的方式我們也可以得到:
$$
E[X|y]=\mu_{X}+\rho\frac{\sigma_{X}}{\sigma_{Y}}(y-\mu_{Y})
$$