# Probability & Statistics for Machine Learning & Data Science(Week 2 - Probability Distributions with Multiple Variables)
###### tags: `coursera` `Linear Algebra` `math`
[Week2 - Lession2 - Probability Distributions with Multiple Variables](https://www.coursera.org/learn/machine-learning-probability-and-statistics/home/week/2)
## Joint Distribution (Discrete) - Part 1
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/9PzHV/joint-distribution-discrete-part-1)
### Joint Distributions: Example 1

假設有10個小孩,這10個小孩是7~10歲,並且有著他們的身高記錄如上。現在有個問題,那就是9歲並且身體49英吋的機率是多少?
### Joint Distributions: Example 1

資料面來看不難明白,9歲的小孩有4個,並且其中3個身體是49英吋,所以機率就是3/10=0.3。
這可以寫成$P_{XY}(9, 49)=\mathbf{P}(X=9,Y=49)=\dfrac{3}{10}$
### Joint Distributions(Discrete): Example 1

一般來說這種兩個離散變數的Join Probability的寫法就是$p_{XY}(x,y)=P(X=x, Y=y)$
### Joint Distributions: Example 1

我們也可以用表格的方式把整個資料清清楚楚的寫出來,再將之轉為機率質量函數(Probability Mass Function)。
### Joint Distributions: Example 1

x、y的所有可能組合都是所謂的Joint Distributions,正如上表,就是年紀跟身體的聯合分佈,這兩個都是離散變數。
利用這個表格查表就不難明白各種可能的發生機率。
## Joint Distribution (Discrete) - Part 2
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/Eqdfd/joint-distribution-discrete-part-2)
### Joint Distribution (Discrete) - Example 2

這個範例說明的是,丟兩次骰子,第一次為$X$,第二次為$Y$,並且六面出現的機率是一致的,皆為$\dfrac{1}{6}$,兩個獨立變數,互不相關。
### Joint Distribution - Example 2

機率都一樣,互相獨立不相關,所以整個機率質量函數通通都是1,寫出來就是上面那樣,也就是各種組合出現的機率都是1/36。
### Joint Distribution - Example 2

針對這個independent discrete random variables的範例,它的數學式是這樣的:
* $p_{XY}(x,y)=\mathbf{P}(X=x,Y=y)=\mathbf{P}(x)\cdot\mathbf{P}(y)$
### Joint Distribution (Discrete) - Example 3

同樣的骰子來看另一個範例說明,我們這次想看的是第一次丟4,第二次丟之後加總為9的機率,這就不是看獨立同分佈的問題,而是看它們的Joint Distribution。
### Joint Distribution (Discrete) - Example 3

$X$的部份,也就是丟第一次骰子的機率,這很簡單,每個都是$\dfrac{1}{6}$
### Joint Distribution (Discrete) - Example 3

然後加總$Y$的如上。
### Joint Distribution (Discrete) - Example 3

如果把剛剛的表格利用直方圖來表述的話,就像上圖那樣,x軸表示出現的總和,y軸表示出現該總和的次數。很明顯的出現2跟12的次數是最少的。
### Joint Distribution (Discrete) - Example 3

把總和改用成出現該總和的組合來表示。
### Joint Distribution (Discrete) - Example 3

把整個組合出現的直方圖再做調整:
* 上圖右邊:x軸表示第一次丟的點數,y軸表示總和
* 上圖中間:每個組合出現的次數,全部都是1
一樣的,所有的組合共有36總可能,這就是$X,Y$的Joint Distribution。
### Joint Distribution (Discrete) - Example 3

有這個聯合分佈就可以回答所有問題了。
## Joint Distribution (Continuous)
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/01lzv/joint-distribution-continuous)
### Joint Continuous Distribution

先前的課程中所提的都是discrete的聯合分佈,這邊開始說明continuous的聯合分佈。
範例一樣是課程中不斷提過的打電話進客服的等待時間,不過這次再加一個滿意度調查,兩個數值區間都是[0, 10]分鐘,屬continuous。這意思就是,等待的時間可能是1.1、1.2之類的,而滿意度也可能是2.1、2.123之類的,
### Joint Continuous Distribution: Dataset


上面各為變數$X$、$Y$的分佈,資料集有1000筆。
### Joint Continuous Distribution: Dataset

上圖右是將等待時間(x軸)與滿意度(y軸)做散佈圖的呈現。
上圖左是兩者之間的熱力圖。
熱力圖中可以發現,兩邊角落各有較深的區域,這主要是因為有些人因為客服接線接的快,那當然就很滿意,反之則是等了快十分鐘,自然就不滿意了。
### Joint Continuous Distribution: Dataset

從上圖右密度圖來看的話,對應區域也是密度較密集的區域,反正等的久的一定不滿意,馬上秒被接的一定很滿意。
上圖左是一個3維表述,基本上密圖度較深的地方就是高峰,所以兩邊的山峰對應的就是密度較深的區域。
### Expected Value

回到散佈圖,同時計算出兩個變數的平均值。
### Variance

接著計算兩變數的方差,方差公式列出來:
* $Var(X)=\mathbb{E}[X^2]-\mathbb[X]^2$
其中:
* $\mathbb{E}[X]=4.903$
* $\mathbb{E}[X^2]=32.561$
所以就可以得到變數$X$的方差為8.526。
### Variance

同樣的計算方式得到變數$Y$的方差為10.163。
## Marginal and Conditional Distribution
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/3VgPO/marginal-and-conditional-distribution)
### Marginal Distribution: Example 1

先前有過一個關於年紀與身高的範例,假設有這麼一天我們不再關心年紀而只關心身高,那怎麼辦?
為了能夠做這這一點,我們就必需要能夠找到所謂的身體的邊際分佈(Marginal Distribution),這是一種只看一個變數的分佈,然後忽略另一個變數的作法。
### Marginal Distribution: Example 1

作法很簡單,就是把那個區域的機率加總即可,如果是以這個範例來看的話就是把每一個column的機率加總就是了,數學式如下:
* $p_Y(y_j)=\sum_ip_{XY}(x_i,y_j)$
### Marginal Distribution: Example 1

反過來我們也可以忽略掉身體只看年紀,作法一樣,數學式也雷同:
* $p_X(x_i)=\sum_jp_{XY}(x_i,y_j)$
### Marginal Distribution: Example 1

現在我們有年紀跟身體的邊際分佈資料。
### Marginal Distribution: Example 1

把這個資料集擴展到50人,散佈圖如上。點點是有陰影的,愈深代表愈多。
### Marginal Distribution: Example 1

用熱力圖去疊加邊際分佈。這邊的邊際分佈一樣是將對應軸的資料累加上去。
### Marginal Distribution: Example 2

這是課程中常見的範例,丟兩次骰子,這個也可以計算它們的各自邊際分佈。
### Marginal Distribution: Example 3

再換一個範例,$X$看的是第一次丟的值,$Y$則是兩個骰子的總和。
不過看起來很難,作法也是一樣,總之就是加起來就是邊際分佈。
### Marginal Distributions

回到電話中心的範例,同樣的作法也可以得到它們的邊際分佈。
### Continuous Marginal Distributions

邊際分佈是將高維分佈簡化成較小維度的分佈。舉例來而,二維變數的部份我們將之簡化等一維之類的。
上圖就是一個將三維圖面橫掃過去變成二維的一種呈現。
## Conditional Distribution
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/csZ6s/conditional-distribution)
### Conditional Distribution: Example 1

上圖左的表格是剛剛的身高與年紀範例,繼續使用。
假設現在我們只對9歲小孩身高的分佈有興趣,這就一種條件分佈。這種情況下更簡單,因為我們只需要看9歲小孩的資料,做個切片:
* $p_{Y\vert X=9}(y)=\mathbf{P}(Y=y\vert X=9)$
就是只看著年紀為9的那筆記錄就行。
### Conditional Distribution: Example 1

固定之後可以發現,兩個機率相加並不為1,所以我們必需要再做一次正規化,那就可以得到一個機率總和為1的分佈。
現在,如果我們可知道,9歲,並且身高為49英吋的機率為何就可以計算了,答案就是3/4。
這邊給出一個公式:
* $\mathbf{P}(A,B)=\mathbf{P}(A)\cdot\mathbf{P}(B\vert A)$
然後我們把9歲身體45英吋的數學式寫出來:
* $\mathbf{P}(X=9,Y=49)=P(X=9)\cdot P(Y=49\vert X=9)$
* 調整一下即得到$P(Y=49\vert X=9)=\dfrac{\mathbf{P}(X=9,Y=49)}{P(X=9)}$
這邊發現到,我們在做資料正規化讓機率總和為1的時候其實就是在做條件機率的處理。
### Conditional Distribution: Example 1

總體來看條件分佈的公式是這樣的:
$$
p_{Y\vert X=x}(y)=\dfrac{p_{XY}(x,y)}{p_X(x)}
$$
其中分子的部份為聯合分佈,分母的部份為邊際分佈,這就是離散條件分佈的公式。
### Conditional Distribution: Example 2

丟兩個骰子的範例,如果我們想知道丟第一次是4,第二次是1的機率有多少,那就套公式,分子是聯合分佈,也就是$x=4,y=1$的機率,分母是條件分佈,也就是$x=4$的機率,怒算一發就有答案。
### Continuous Conditional Distribution: Formula

基本上連續分佈也是差不多的,只是把機率質量函數改為機率密度函數。
## Covariance of a Dataset
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/yuyaD/covariance-of-a-dataset)
### Introduction to Covariance

現在,假設有個資料集,裡面有幾個變數:
* $X$,小孩的年紀
* $Y_1$,小孩的身高
* $Y_2$,小孩在某一個科目的成績
* $Y_3$,小孩的小睡的次數
有資料集之後的問題就是,我們要怎麼比較它們之間的關係?
### Introduction to Covariance

我們可以先把年紀跟其它變數之間的分佈先可視化出來,如上圖所示。
### Mean?

幾個指標可以先看看,首先是均值。
### Horizontal (X) Variance

因為x軸都是年紀,所以它們的variance都是一樣的。
### Vertical (Y) Variance

這是其它變數的variance。
### Still no Way To Compare Then

這些指標看一看好像也看不出個毛,但是從分佈我們卻能發現,年紀跟身高是一個接近左下右上的直線,而年紀跟每日小數次數則是一個接近左上右下的直線,成績的部份則是四處都有。
像這種東西啊,我們就可以用一種稱為co-variance來呈現。上圖最左的部份,其協方差會大於零,中間會接近零,右邊則是會小於零。
### First Step: Center Them

這邊來說明怎麼計算協方差,首先把資料置中,也就是減去均值除方差,讓資料變成是均值為0方差為1的情況。
### Second Step: Notice Trend

接下來我們要嚐試補捉資料的趨勢,像是最左邊的正向趨勢以及最右邊的負向趨勢,怎麼做?
### Positives and Negatives

整理起來大概是下面這樣:
* 年紀與身高
* 有一樣的符號,要嘛都正數,要嘛都負數
* 相乘皆為正數
* 加總乘積之後為正數
* 年紀與成績:
* 沒有一定的規則
* 加總乘積之後接近0
* 年紀與每日小睡次數:
* 不一樣的符號,一個正一個就負,一個負另一個就正
* 相乘之後為負數
* 加總乘積之後為負數
這種加總乘積的作法即稱為協方差。
### Covariance

協方差可以讓我們知道兩個變數之間的變化,致上就是加總每個資料點減去均值之後的乘積然後再計算平均。
### Covariance Formula

這邊給出一個計算範例,也因為年紀與身體的協方差得到的值大於0,我們就可以說這兩個變數之間是呈現正相關。
### Covariance Formula

這邊說明的是年紀跟每天小數時數之間的關係,協方差為負值,因此兩者之間為負相關。
### Covariance Formula

年紀跟成績之間最終得到的協方差是0.1,這非常接近0,
### Covariance Correlations

上圖給出一個總結,就看一下唄。
## Covariance of a Probability Distribution
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/tK2EL/covariance-of-a-probability-distribution)
### Covariance of a Probability Distribution: Motivation

有個賽局是這樣的,$X,Y$兩個人玩三場遊戲,輸贏就是1元,這三局有下面幾種可能的情況(這個賽局看起來是有庄家?):
* GAME1:兩個人都贏1元,或者兩個人都輸1元
* GAME2:$X$贏1元、$Y$輸1元,或者$X$輸1元,$Y$贏1元
* GAME3:都有可能,所以每一種的機率都是1/4
問題:這三種賽局對於兩個玩家來說有多相似?
### Covariance of a Probability Distribution: Motivation

首先我們獨立的看看兩位玩家在這三種賽局可得的期望利益,不過很明顯的這三種賽局對兩個玩家來說,其期望值都是0。
所以啊,如果每次都只考慮到一位玩家的話,那這三場賽局的期望值基本都是一樣的。
### Covariance of a Probability Distribution: Motivation

如果我們考慮的是方差,看起來似乎也都是一樣的結果,這主要是因為我們所考慮的都是每位玩家各自的角度。想要瞭解這三個賽局的差異就要將所有玩家考慮進來,這時候要採用的就是協方差。
### Covariance of a Probability Distribution: Motivation

首先是GAME1,它的協方差計算為1,正值,這也說明著它的趨勢確實就是一個正相關,要嘛兩個都愈贏愈多,不然就是愈輸愈多。
### Covariance of a Probability Distribution: Motivation

GAME2的話就是一個相反的情況,一個開心一個難過的情況。
### Covariance of a Probability Distribution: Motivation

GAME3的協方差是0,這說明著這個賽局並沒有一定的模式。
### Covariance of a Probability Distribution: Motivation

現在再來個GAME4,要嘛兩個都贏1元,要嘛兩個都輸1元,不然就是沒有任何輸贏,不過這次的機率是不平均的,即:
* 兩個都贏1元:1/2
* 兩個都輸1元:1/3
* 沒有任何輸贏:1/6
如果各自看兩個玩家的期望值的話,那結果是一樣的:
* $\mathbb{E}[X_4]=\dfrac{1}{2}(1) + \dfrac{1}{6}(0)+\dfrac{1}{3}(-1)=\dfrac{1}{6}$
### Covariance of a Probability Distribution: Motivation

然後兩位玩家的方差就會是加總每個資料點減去均值取平方之後乘上機率,即$Var(X_4)=\sum^N_{i=1}(x_i-\mu_x)^2\cdot\mathbf{P}(x_i)$。
### Covariance of a Probability Distribution: Motivation

現在要來計算協方差,一開始的公式我們並沒有考慮到機率,但現在每一個發生事件的可能機率是不一樣的,我們必需將之考慮進來。調整的方式就是將原本的取平均變成是座標值乘上機率,即,$p_{XY}(x_i,y_i)$。
整個協方差的數學式也可以寫成:
* $Cov(X,Y)=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]$
### Covariance of a Probability Distribution: Motivation

帶入公式就可以得到這個GAME4的協方差為0.806。
### Covariance of a Probability Distribution: Motivation

帶回課程中提過的電話等待的範例,從資料分佈來看,還沒有算就可以猜它的協方差可能會是負值,因為它的分佈點中有一種負相關的趨勢。這也合理,因為等待時間愈長,給出的評分就趨少。
## Covariance Matrix
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/z94nj/covariance-matrix)
### Covariance Matrix

Covariance Matrix是一個對角線是方差,其它就是兩兩的協方差矩陣,這在機器學習也是非常有用的。
上圖給出兩個變數情況下的協方差矩陣。
### Covariance of a Joint Continuous Distribution

上圖給出三個變數的協方差矩陣,對角線是方差,其它則是兩兩之間的協方差。
### Covariance of a Joint Continuous Distribution

上圖給出五個變數的協方差矩陣,並且協方差矩陣以$\Sigma$表示。
## Correlation Coefficient
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/6DR8g/correlation-coefficient)
### Correlation Coefficient

這是我們看過的範例,兩個變數之間計算出來的協方差,一個是-7.45,一個是17,但是這並不能表示17的這一個就是比較有相關性。
### Correlation Coefficient

為了知道那一個變數之間是比較有相關性的,我們必需要引入相關係數(correlation coefficient),這是一個介於-1~1之間的值。
愈是接近-1就代表兩者之間是負相關,接近+1代表兩者之間是正相關,接近0就代表兩者之間是完全獨立的。
相關係數基本上就是標準化協方差,也就是$\dfrac{Cov(X,Y)}{\sigma_x \cdot \sigma_y}=\dfrac{Cov(X,Y)}{\sqrt{Var(X)}\cdot\sqrt{Var(Y)}}$
### Correlation Coefficient

馬上拿年紀跟每天小睡次數來怒算一發,帶入公式得到-0.894,這非常接近完全負相關。也就是人愈老,每天小睡次數愈少。
### Correlation Coefficient

年紀跟身體的部份帶入可以得到0.893,這是一個非常接近完全正相關的數值。
### Correlation Coefficient

這邊我們可以發現,即使兩個協方差的值都不小,但是相關係數始終是一個介於-1~+1之間的數值。
## Multivariate Gaussian Distribution
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/ddGRk/multivariate-gaussian-distribution)
### Multivariate Gaussian Distribution

上圖是我們常見的根據PDF所繪製而成的高斯分佈,但這是單一個變數的呈現,如果有多個呢?
### Multivariate Gaussian Distribution: an Example

這是身高與體重的一個資料分佈,右邊與上面各是兩個變數的邊際分佈,很明顯的都是正態分佈。
### Multivariate Gaussian Distribution: an Example

兩個變數的Joint Distribution如上圖,如果兩個變數是獨立的,那就是兩個變數的PDF的點積。
### Multivariate Gaussian Distribution: an Example

不過實際上身高跟體重並非獨立的,而是有相關性的,因為高一點的人通常會重一點點,所以實際去畫出機率密度函數的時候會有一點點不一樣。
上圖左說明的是兩個變數之間是獨立的,所以會是一個對稱型,上圖右說明的是兩個變數之間是有相關性的。
### Multivariate Gaussian Distribution: an Example

如果用等高線圖來看的話就是上面那樣,綠色代表的是高,紫色代表的是低。造成上圖右那種情況的主要原因在於協方差,如剛剛所說,身高跟體重並非完全不相關的,正相關導致這個聯合分佈呈現右上左下的分佈變化。
再往下的數學推導擊敗我,就沒有再讀了,第三週課程見。