# Probability & Statistics for Machine Learning & Data Science(Week 2 - Describing probability distributions)
###### tags: `coursera` `Linear Algebra` `math`
[Week2 - Lession1 - Describing Distributions](https://www.coursera.org/learn/machine-learning-probability-and-statistics/home/week/2)
## Measures of Central Tendency
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/vCXd3/measures-of-central-tendency)
### Mean: Example

假設你有一些小孩年紀的資料,大致如上分佈,那他們的平均年齡的計算方式很簡單,就是把所有的年紀加總然後除上總人數頭。
如果你把這些孩子的年紀當做一個天秤來看,這個平均值同時也是讓這個天秤平衡的一個點。
### Mean

如果是連續分佈,我們並不需要計算平均值,而是去找平衡曲線的那個點,也許可以想成這是預計通知的平均時間。
### Median: Motivation

有時候平均值並不能很好的表述中心點,舉例來說,1980年代,北卡大的學生平均薪資為250000美元,同時期的其它學校的學生平均薪資是22000美元,相差十倍,為什麼?
因為Michael Jordan太會賺了,這導致北卡大的平均數值因為他一人而拉高,而不是這學校畢業的學生太會賺了。
### Outliers


如果我們把整個收入的資料用上圖來表述就可以看的到,MJ的收入在非常非常非常的右邊,如果說均值是一個平衡點,那平衡這個水平的中心點原本是在左邊資料集下,但因為MJ的加入讓整個水平向右傾,為了能夠平衡這個水平,其中心點不得不向右偏移。這代表整個均值被MJ放大,失真了。
### Median

要調整這個問題我們必需換個思考方式,將所有的薪資資料排序,然後不計算均值,而是取中間的數值,也就是中位數。
這時候的中位數不再被MJ影響,他終究是一個人。
### Median

如果資料量是偶數,那中位數就取中間兩個數的平均值就可以。
總之,當你的平均值會被離異值拉著走的時候,就試著看看中位數。
### Mode


除了均值以中位數之外還有一種描述分佈中心的方法,稱之為mode。
以電話中心接電話的可能時間來看,機率最高的那個就是叫做mode。就算變成連續分佈之後也是一樣,最高的那個還是叫mode。
### Mode: Multimodal Distribution

mode可能不是唯一的,因為分佈中可能有多個相同機率都是最高的,這也稱為Multimodal Distribution。
所以如果你想知道資料的中心點的話,就可以嚐試看看這三個數值。
### Mean, Median and Mode in Binomial Distribution

這邊給個案例說明。丟硬幣,正反機率都0.5,然後丟個5次,在這個案例中:
* 均值:2.5
* 中位數:(2 + 3) / 2 = 2.5
* mode:最高的是2、3
### Mean, Median and Mode in Binomial Distribution

這邊給出一個非對稱分佈。這是一個有偏的硬幣。
### Mean, Median and Mode in Binomial Distribution

這邊給出一個正態分佈的範例,很明顯的,mean、mdeian、mode都在同一點。
## Expected Value
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/ZhbmZ/expected-value)
### Expected Value: Motivation Example 1

這是一個遊戲,只要硬幣丟出正面,那就贏10元,輸了就什麼都沒有,其中這個硬幣是公平硬幣。每玩一局多少錢才值得下去玩?
正反都0.5,這代表玩一次你就有可能是:
* 0.5 * 10 + 0.5 * 0 = 5
這代表每一局都可能或許也許maybe會賺5元,這5元又稱為期望值,以$\mathbb{E}[{X}]=5$來表示。
這也代表一局5元會是玩這個遊戲的可能的合理價格。
### Expected Value: Motivation Example 1

換個角度來思考,這個賽局要嘛沒賺,要嘛賺10元。這個平衡點就是中間的5元。在這邊期望值跟平均值都是同一件事。也就是你玩一局要付出多少是合理的。
### Expected Value: Motivation Example 2

換個遊戲情境,如果丟三次,只要其中一次是正面就可以賺1元,那一局多少值得你玩?
把所有可能的分佈畫出來,這分佈是依著出現正面的次數所統計。從最左邊的0次沒賺到,到最右邊是出現3次賺3元。
那這個分佈的中心點就在1.5的地方,也就是$\mathbb{E}[X]=1.5$,這意謂著每一局都可能會賺到1.5元。
換個角度思考,丟三次平均是正面的次數就是1.5,雖然實務上不可能有這種小數點的,但就是一個期望值。
### Expected Value: Motivation Example 3

假設你有一個公平骰子,那每次丟出去的期望值是多少?一樣的,把數值加一加相除,答案就是3.5,當然也可以用天坪的角度來看怎麼平衡,中間值就是3.5。也就是說,如果要你玩一個遊戲來賭你丟中指定數值的話,那合理價格就是3.5。
### Expected Value

這邊談的是uniform random variable的期望值。
假設你很閒的在統計你等公車的時間,等啊等,邊等邊記錄,最快是馬上有,最久是60分鐘(1小時),最後結果一個分佈圖。那邊平均值沒意外的話就會是30。
為什麼是30?因為等待時間會是一個均勻分佈。那區間內的任意時間基本都是一樣的。
### Expected Value: Uniform Distribution

0~1之間的均勻分佈就是0.5,如果是區間a~b之間的就是$\dfrac{a+b}{2}$
### Expected Value: General Case

如果用打客服的等待時間來看,一樣的可以統計每一次的等待時間。
這個分佈的中心點一樣是那個可以平衡這個天坪的點,也就是均值,也就是期望值。
### Expected Value: Common Misconception
![image]
均值並不是將資料集分成兩半的地方,這是一個人們常見的錯誤觀念,上圖來看,把資料分成兩半的點跟中心點很明顯的是不一樣,看起來是有點偏右的。
### Expected Value: Common Misconception

理由我們可以用一個範例來看,假設有一隻大象很靠近中心點,即使牠很胖胖,跟牠玩的是一隻老鼠,這老鼠在十萬八千里遠,就像這老鼠很瘦小,還是可以平衡這個重量,這就是質量上的一個落差。
## Expected Value of a Function
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/6uZiQ/expected-value-of-a-function)
### Expected Value of a Function

假設你有一個分佈,各自機率是來自一個函數$p(x)$,那這個分佈的期望值就是單純的將每個值乘上其機率再相加即可。
以上圖為例,$x_1\sim x_4$,那期望值就是$x_1p(x_1)+x_2p(x_2)+x_3p(x_3)+x_4p(x_4)$。
如果今天這個$x$是一個函數$f(x)$,那概念也是一樣,變成$f(x)1p(x_1)+f(x_2)p(x_2)+f(x_3)p(x_3)+f(x_4)p(x_4)$。
### Expected Value of a Function

假設,現在你的朋友找你玩丟骰子,你丟多少就給你那個數值的平方的錢。
那玩這個遊戲的合理價格是多少?
### Expected Value of a Function

簡單說就是把獎金加總取平均即可,大概就是$\dfrac{91}{6}$,而這個數字是來自於每個點自的平方除六($\dfrac{x^2}{6}$),也就是$\mathbb{E}[X^2]$
## Sum of expectations
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/7TVk1/sum-of-expectations)
### Sum of Expectations

假設現在有一個組合遊戲,丟硬幣是正面就贏1元,然後丟骰子丟幾點就贏幾元。現在有個問題,這個賽局的你贏的期望金額是多少?
### Sum of Expectations

硬幣遊戲的話,它的期望值就是0.5,然後丟骰子的期望值就是3.5,兩個遊戲的組合期望值就是0.5+3.5=4。
### Sum of Expectations

假設,現在有三個人,袋子裡面也有這三個人的名字,把這三個名字與確給這三個人的期望值有多少?
### Sum of Expectations


把這三個卡跟三個人對上的排列組合有六種,其中一個是全中,兩個是全沒有中,另外三個是各中一。
總的排列組合有六個,有命中的共計六個,六除六就是一,所以這個期望值就是一。
:::warning
這個範例我感到困惑
:::
### Sum of Expectations

如果是用期望值總和來看的話,每個人被成功匹配到的機率就是1/3,那1/3+1/3+1/3=1。
### Sum of Expectations

當然,如果你把這個問題擴展到全球80億人也是一樣,期望值就是1。
## Variance
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/VguQB/variance)
### Variance Motivation: Fair Price To Play the Game

用個範例來說明,丟硬幣,正面贏1元,反面輸1元跟正面贏100元,反面輸100元,這兩個賽局的期望值都是0,但這兩個賽局是一樣的嗎?現實上可能我們會覺得輸贏100元的風險比較大,另一個輸贏1元的就比較小。
兩個賽局,期望值都是0,用來區分它們之間差異的就是方差(variajce)
### Variance Motivation: Measuring Spread

先把兩個賽局用圖表來說明並定義符號:
1. $X_1$表示輸贏1元的那個期望值
2. $X_2$表示輸贏100元的那個期望值
### Variance Motivation: Measuring Spread

兩個期望值都是0,差別在於第一個賽局是瘦瘦小小的,第二個賽局則是胖胖大大的。
有沒有什麼辦法讓數值不要是0?一個思考方向就是不要有負值,通通是正值,那就是計算平方。在計算平方之後:
* $X^2_1=1$
* $X^2_2=10000$
很明顯的,賽局二的數值大多了,這也說明它的風險高多了。
### Variance Motivation: Centering With Mean

在正式說明方差之前再做個範例說明,一樣是兩個賽局,一個是輸贏都1元,一個是贏6元輸4元。兩個賽局有一樣的風險(到平均值都是一樣的距離,而且賽局一的金額各加5就跟賽局二一樣)。
### Variance Motivation: Centering With Mean

一樣的,利用平方來計算它們的期望值,分別得到$\mathbb{E}(X_1)=1, \mathbb{E}(X_1)=26$,為什麼一樣的風險卻得到不同的結果?
### Variance Motivation: Centering With Mean

把它翻過來看不難發現,兩個之間的距離是一樣,都是2,但我們利用平方計算的期望值卻是不一樣?
### Variance Motivation: Centering With Mean

在這邊我們就來做一點點的變化,把賽局二的值做一點移動,輸贏各減去期望值,也就是$\mathbb{E}(X_2)=5$,然後平方的計算就以偏移過的值來做計算。方差的公式調整為$\mathbb{E}(X-\mu)^2$,其中$\mu$表示平均值。這樣的作法就好比是把平均值向左移動(因為是減)。
### Variance Formula

假如我們有一個上圖右的分佈,減去均值就代表將分佈居中,那平均值就會是0,也就是$\mathbb{E}(X-\mu)=0$,其方差就會是$\mathbb{E}(X-\mu)^2$。
這時候不難想像一個資料分佈如果非常發散的話,那方差就會很大。
### Variance Formula


整個方差的公式是這樣的:
* $Var(X)=\mathbb{E}[(X-\mu)^2]$
* 展開:$=\mathbb{E}[X^2- 2\mu X+\mu^2]$
* 拆項:$=\mathbb{E}[X^2]-\mathbb{E}[2\mu X]+\mathbb{E}[\mu^2]$
* 常數項提出:$=\mathbb{E}[X^2]-2\mu\mathbb{E}[X]+\mathbb{E}[\mu^2]$
* 常數項提出,常數的期望值還是常數:$=\mathbb{E}[X^2]-2\mu\mathbb{E}[X]+\mu^2$
* 轉換$\mu$,因為$\mu$就是$X$的期望值:$=\mathbb{E}[X^2]-2\mathbb{E}[X]\cdot\mathbb{E}[X]+\mathbb{E}[X]^2$
* 轉換後:$=\mathbb{E}[X^2]-2\mathbb{E}[X]^2+\mathbb{E}[X]^2$
* 結果:$=\mathbb{E}[X^2]-\mathbb{E}[X]^2$
### Variance for Continuous Distributions

現在來看打電話到客服的等待時間,上圖左是讓你等0~5分鐘,超過斷線,上圖右是讓你等2~5分鐘,超過斷線。
兩個分佈的均值各在圖下的三角形處,很明顯的右邊客服的平均等待時間是長的,而從資料分佈來看,上圖左明顯是較大的,這意味著左邊客服的方差是比較大的。
## Standard Deviation
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/F7SMd/standard-deviation)
### Standard Deviation

$Var(X)=\mathbb{E}[(X-\mu)^2] = \mathbb{E}[X^2]-\mathbb{E}[X]^2$
上面是我們已知的方差公式,但是方差最大的問題在於單位,舉例來說,$X$的單位為公尺,那期望值就是公尺,但是到了方差卻變成期望值的平方,也就是公尺的平方,那就變成面積了,這無從比較。
一個簡單的方式就是把平方再開根號,讓它的單位再退回公尺,而這也稱為標準差,也就是$std(X)=\sqrt{Var(X)}$
### Normal Distribution: 68-95-99.7 Rule

在常態分佈中,標準差是一個非常有效的估測方式。常態分佈由均值與標準差所定義,其中均值是分佈的中心點,標準差就是這分佈的胖瘦。
68、95、99.7指的是以中心點為基準,左右n個標準差的面積佔比,1個標準差就是68,2個標準差就是95,3個標準差就是99.7。
## Sum of Gaussians
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/Ri04O/sum-of-gaussians)
### Sum of Gaussians: an Example

舉例來說,假設我們在計算系統的響應時間($R$),這由兩部份組成,處理時間$(P)$與網路延遲時間$(L)$,即$R=T+L$。
假設我們用均值為10,標準差為2的高斯分佈來做為$T$,寫為$T\sim\mathcal{N}(10,2^2)$;以$L\sim\mathcal{N}(5,1^2)$來做為$L$,並且兩個變數之間是各自不相關的。
### Sum of Gaussians

有均值與標準差,我們就可以塑造出這個常態分佈,然後對每個變數做10000次的採樣,沒意外的話應該是可以非常擬合整個分佈才對。
### Sum of Gaussians

有了$T, L$兩個分佈就可以建構出$R$的分佈,不難發現$R$仍然是高斯分佈,問題來了,那它的參數是什麼?
均值,$\mu_R=\mathbb{E}[R]=\mathbb{E}[T+L]=\mathbb{E}[T]+\mathbb{E}[L]=\mu_T+\mu_L=10+5=15$,因為期望值是線性的,所以就直接加上去即可。
標準差平方等於方差,$\sigma^2_R=Var(R)$,因為$T$、$L$兩個分佈是各自獨立的,所以$Var(R)=Var(T)+Var(L)=\sigma^2_T+\sigma^2_L=4+1=5$
### Sum of Gaussians

最後就得到,$R=(T+L)\sim\mathcal{N}(10+5, 4+1)$。
### Sum of Gaussians

我們得到一個結論,那就是通常來說,$W=aX+bY$的話,其中$X, Y$都是高斯分佈的情況下,那$W$就會是高斯分佈。
## Standardizing a Distribution
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/50tHy/standardizing-a-distribution)
### Everything Is Nice When the Mean Is 0

如果我們有個分佈的均值是$\mu$的話,通常$\mu=0$是一個比較好的情況,怎麼做?就是把數值通通減去均值,即$X-\mu$
### Everything Is Nice When the Mean Is 0

為什麼這樣就可以讓新的變數$X-\mu$的期望值變成是0?
主要是因為,期望線是線性的,即$\mathbb{E}[X+Y]=\mathbb{E}[X]+\mathbb{E}[Y]$,這意謂著$\mathbb{E}[X-\mu]=\mathbb{E}[X]-\mathbb{E}[\mu]$,啊$\mu$就是$\mu$啊,所以就變成$\mathbb{E}[X]-\mu$,那$\mathbb{E}[X]=\mu$,所以兩個相減就是0了。
### Everything Is Nice When the Standard Deviation Is 1

搞定好均值之後就是標準差,通常標準差為1的時候是好棒棒的,觀念上也很簡單。如果$X$的標準差是$\sigma$,那就除上$\sigma$就可以了,即$\dfrac{X}{\sigma}$。
### Everything Is Nice When the Standard Deviation Is 1

這邊說說為什麼剛剛那樣搞就可以讓一個分佈的標準差變為1。
假設有一個變數的方差為$Var(cX)$,其中$c$是一個常數,根據稍早的方差課程中所說明,$Var(cX)=\mathbb{E}[(cX)^2]-\mathbb{E}[xX]^2$,然後處理一下常數項變成$\mathbb{E}[c^2X^2]-(c\mathbb{E}[X]^2)$,再把常數項拿出來變成$c^2\mathbb{E}[X^2]-c^2\mathbb{E}[X]^2$,兩個一樣的常數項可以整併處理變成$c^2(\mathbb{E}[X^2]-\mathbb{E}[X]^2)$。
$c^2(\mathbb{E}[X^2]-\mathbb{E}[X]^2)$裡面的$(\mathbb{E}[X^2]-\mathbb{E}[X]^2)$就是方差,所以我們再改寫成$c^2Var(X)$。
這邊就知道有常數項的情況下就會變成是常數項的平方再乘上原始的方差,把這個觀念帶到右邊去,也就是$Var(\dfrac{X}{\sigma})=\dfrac{1}{\sigma^2}Var(X)$。
接下來我們把它開根號,方差開根號就變成標準差,所以這個式子就變成$std(\dfrac{X}{\sigma})=\dfrac{1}{\sigma}std(X)$,那就變成是$\dfrac{\sigma}{\sigma}=1$
到這邊我們就說明了為什麼變數$X$的分佈除上標準差之後會得到標準差為1的分佈。
### Standardize a Distribution

這就是我們常見的資料標準化的方式,也就是減均值除標準差。
## Skewness and Kurtosis: Moments of a Distribution
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/9klNM/skewness-and-kurtosis-moments-of-a-distribution)
### Moments of a Distribution

假設有個機率分佈是這樣的:
1. 選擇到-2的機率$p(-2)=1/3$
2. 選擇到0的機率$p(-2)=1/6$
3. 選擇到1的機率$p(-2)=1/2$
那它的期望值就是加權之後加總,即:
* $\mathbb{E}[X]=1/3(-2_+1/6(0)+1/2(1)$
另外它的變數平方期望值,$\mathbb{E}[X^2]$,也是一樣的作法,不同的就是變數的部份取平方,這部份可見上圖。
現在,$\mathbb{E}[X]$就稱為first moment,而$\mathbb{E}[X^2]$就稱為second moment。以此類推,可以推出$k$個moment,寫為$\mathbb{E}[X^k]$。
### Moments of a Distribution

先有這個觀念,後面課程我們繼續。
## Skewness and Kurtosis - Skewness
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/usk2X/skewness-and-kurtosis-skewness)
### Lottery vs Insurance

現在有兩種情境,首先是你買彩券,費用1元,如果中獎就贏100元。另一種是你賣保險,費用1元,客人撞車你就賠100元。
前者是你會有1%的機率贏99元,然99%的機率輸1元;後者則是你會有99%的機率贏1元,然後1%的機率輸99元。
### Lottery vs Insurance

把這個賽局畫在一個水平線上就比較有感覺。我們要嚐試利用期望值或是方差來檢測這兩個賽局之間的差異。
### Lottery vs Insurance


首先是期望值,上面來看,兩個賽局的期望值都是一樣的,所以這看起來是無法區隔兩者之間的差異。
接下來是方差,同樣的兩者之間的方差也是一致的。可是這兩個賽局明顯不一樣,該怎麼辦?
### Lottery vs Insurance

某種程度上我們可以說,first moment跟second moment都是一樣的,那如果繼續的算thrid moment呢?
這時候這兩者之間有了明顯的差異,兩個賽局都存在極值,立方很容易去確認到你的數值是往左還是往右傾斜。
### Lottery vs Insurance

上圖有著很好的說明,分佈向左傾的時候,到底你的third moment的值很大,也就是說在遠方的正值有個極大的離異值,向右傾的時候就反過來。
### Skewness

現在我們知道,變數立方的期望值,$\mathbb{E}[X^3]$對我們瞭解資料偏差很有幫助,這幾乎是稱為skewness,不過還是要先標準化,這公式寫為:
* $\text{Skewness}=\mathbb{E}[(\dfrac{X-\mu}{\sigma})^3]$
### Skewness

上面給出skewness的總結。
## Skewness and Kurtosis - Kurtosis
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/JH8xa/skewness-and-kurtosis-kurtosis)
### Kurtosis: Example

一樣的,用兩個賽局來做為說明。賽局1就像是丟硬幣一樣,輸贏各一半的機率,輸贏就是1元;賽局2則輸贏少一點,1角,機率上也有點不一樣,各為$\dfrac{100}{202}$,但是另外各有$\dfrac{1}{202}$的機率輸贏10元。
現在的問題就是,那一個賽局的風險大了點?
### Kurtosis: Example



把分佈畫出來,先從計算期望值、方差跟剛剛學到的傾斜開始:
* 期望值,很明顯都是0,都在中心點
* 方差:沒意外的也都是1
* 傾斜:非常巧妙的也都一樣是0
### Kurtosis

人生瞬間失去希望?不會的,這時候fourth moment閃亮亮登場。
怒算一發之後就會發現,賽局2的值異常的大,這來自於它的兩個非常非常大的離異值,不管這離異值的機率有多小,fourth moment仍然可以補捉到。這就是所謂的Kurtosis,也就是峰度(標準化之後)。
### Kurtosis

上面直接給出峰度的公式。
### Kurtosis: High and Low

上面給出峰度數值大小的意義,尾巴細細的情況下峰度就會小,反之厚厚的其峰度就會大。
## Quantiles and Box-Plots
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/V2eT6/quantiles-and-box-plots)
### Quantiles: Example

這是一個觀察投入的廣告與得到的收入之間的資料分析範例,上圖給出12筆投入報紙廣告的資料。
首先是中位數,這資料集12筆資料,因此其中位數是排序過後第6、第7筆資料相加除2,即27.8,這個中位數我們又稱為50% quantie,也稱為Second quartile。
### Quantiles: Example

剛剛找的是中位數,現在找的是資料的1/4處,這又稱為$Q_1$,或寫為$q_{0.25}$,得到的值是18.35。
### Quantiles

我們可以設置任意的百分比,意思是說,將$k%$的資料留在左邊,剩餘的$100-k%$的資料放在右邊,用$q_{k/100}$來表示。常見的有25%、50%、75%。
### Quantiles

因為這種作法的資料集是排序過的,所以某種程度上我們也可以說,找到某一個值小於這個界線的機率就是$k$,上圖為例,$k=0.2$,也就是20%。
## Visualizing data: Box-Plots
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/P19oW/visualizing-data-box-plots)
### Box-Plots

Box-Plots稱箱型圖或鬍鬚圖。
Box-Plots是一種基於稍早所說的四分位數觀念的圖形,延續廣告投入的收益分析。
首先計算出Q1、Q2、Q3,其中Q3-Q1就是50%資料的所在,這也稱為IQR(interquartile range),最大、最小值很明顯的就在資料集的兩邊。
### Box-Plots

把剛剛得到的資訊畫到圖表中,首先把框框畫出來,這由Q3與Q1所定義,然後畫出中位數,也就是Q2,最後畫出它的鬍子,兩邊的鬍子由(Q3, 最大值)、(Q1, 最小值)與IQR所定義。Q3往上,所以加上1.5倍的IQR,Q1往下,所以減掉1.5倍的IQR,但計算後的結果不應該超過最大、最小值。
### Box-Plots

Box-Plots可以讓我們很好的理解資料分佈,很明顯的這個資料集存在偏差,因為Q3-Q2遠大於Q2-Q1,然後沒有離異值,因為這兩邊都是以最大、最小值來做為結束。
### Box-Plots

把資料集整個畫出來,現在可以看的到,最大值上面存在兩個資料點,這兩個資料點就是我們所說的離異值。
## Visualizing data: Kernel density estimation
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/9BnBn/visualizing-data-kernel-density-estimation)
### Histograms

我們可以用機率密度函數(PDF)來描述連續變數的資料分佈,但我們是否可以從資料中瞭解PDF是長什麼樣嗎?
上圖假設是我們的廣告收益的所有資料分佈,直方圖理論上是滿足機率密度函數的所有條件,也就是皆為正數,並且曲線下面積為1。
不過還是有一點點的落差,因為PDF通常是比較平滑,而且這直方圖的不連續性是來自於這直方圖本身對資料的表述,而非資料本身所造成的不連續性。這意思是說,實際的資料分佈也許或許可能是平滑的。
問就是,有什麼方法可以近似PDF嗎?
### Kernel Density Estimation

這個近似PDF的方法就是Kernel Density Estimation。
首先我們在圖表中進行觀察,圖上12點就是我們收益範例資料中的12點,我們希望資料集中的每個點都有傳播到觀察點周圍的效果。這是因為我們希望在很多的點的地方有比較高的密度,而沒有點的地方就比較低的密度。
### Kernel Density Estimation

接下來在每個點都放置一個高斯分佈,這稱為kernel,當然也可以選擇高斯分佈以外的分佈。
分佈的標準差會影響每個點能傳播到多遠,分佈的高高胖胖就是由標準差來控制。
### Kernel Density Estimation

最後就是把所有的東西通通乘上$n$,然後加總所有藍色曲線,要記得,每條曲線下的面積就是1,所以那條曲線大道所給出的面積就要是1。
### Kernel Density Estimation

看起來假假的,不過這確實是從12個資料點中近似出來的密度。
### Kernel Density Estimation

不過你的資料只要再多一點,還是可以弄出一個非常接近現實的PDF。
## Visualizing data: Violin Plots
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/NxIqg/visualizing-data-violin-plots)
### Violin Plots


小提琴圖,這是一個kernel density estimation與鬍鬚圖結合的圖形。
### Violin Plots

上面就是小提琴圖的總結資訊。
## Visualizing data: QQ plots
[課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/BHERz/visualizing-data-qq-plots)
### Assessing Normality of Data

很多時候我們都會假設資料分佈符合高斯分佈,有時候我們可以利用直方圖來簡單快速的看一下,上圖左明顯的就不是,但上圖右有87分像,但怎麼確定?這時候我們就要靠QQ Plot(quantile quantile plot)來協助了。
### QQ Plots

首先,我們先標準化資料,然後計算其[分位數](https://terms.naer.edu.tw/detail/cc234499f2e50c4a667f9caf27be45cd/)(quantile),再從一個標準的常態分佈中計算相同的分位數。
上圖右是散佈圖,其中$x$的值是理論分位數,$y$則是樣本分位數,每個資料點就是一個分位數。理論上,資料愈接近正態分佈的話,那這個散佈圖的資料點就會愈接近那條對角線。
結果來看,這個資料集是存在偏差的,這從左右兩邊的集群點是可以看的出來的。左邊的點相較於右邊是更為集中的(這個散佈圖是對應前一張簡報的左邊分佈)。
### QQ Plots

如果是前兩張簡報中的右邊較為符合常態分佈的直方圖的話不難看出,這真的是比較符合高斯分佈。