# A.2.6 Variance ## variance ### variance 定義 ==$Var(X)$==(==$\sigma^2$==),稱作 <font color = "snake">variance</font>,也就是國高中學過的變異量,是用來測量 ++$X$ 和 expected value $\mu$ 之間的變化有多大++,定義如下: :::info \begin{equation} Var(X) = E[(X - E[X])^2] \end{equation} ::: 把 $E[X]$ 寫成 $\mu$,以及同等的另一種寫法如下: ![image](https://hackmd.io/_uploads/BklQfd44R.png) > 簡單來說,就是我們用相減去測量 $X$ 和 $\mu$ 之間的距離,但是為了不考慮正的差距和負的差距(不管正負,只看差距的量),我們將 $X-\mu$ 這個值平方,再去取 expected value,也就是去求這個差距的平均。 > > 想法上就是: ++平均來說,我們的 data 之間的差距有多大++。 > > $\rightarrow$ 當然因為平方過,所以 variance 也失去了真正「差距」的意義,因此後面就會再講到 standard deviation,也就是我們再把它開根號回來。 那後面那個等式怎麼來的呢?推導如下: ![image](https://hackmd.io/_uploads/Bk-XiIHVA.png) 看數學是如果沒什麼概念的話,[wiki](https://en.wikipedia.org/wiki/Variance) 上的解釋我覺得寫得特別清楚: :::info Variance is a <font color = "blue">measure of dispersion</font>, meaning it is a measure of how far a set of numbers is spread out from their average value. ::: > 中文意思就是: > > variance 是一個拿來衡量++分散程度++的標準,意思也就是他是拿來測量++一個 set 裡的數字分佈在離它們的平均值多遠的地方++。 - 前面講到 moment 時有提到 variance 是 2nd central moment,這個名字其實就是因為平方即 $n=2$,所以稱作 second;而 central moment 的意思其實就是代表了和 mean $\mu$ 之間的差距。 > 英文其實比較好懂, central moment 的意思是: > ++The moments about its mean++ $\mu$ are called central moments > > 並且,central moments ++describe the shape of the function, independently of translation.++ >> 透過減掉 mean 的方式,我們能夠去使得 function 獨立於 translation (不受 translation 的影響)的去描述它的形狀。 #### population variance 當我們在談一個 population 時,我們通常是指它是一個 ++finite++ 的 population,並且預設我們知道這個 population 裡所有 data 的值。 因此,透過每一個我們真的知道的值,$X_1,X_2,...,X_N$,我們可以去計算: - population mean $\mu$ - population variance $\sigma^2$ 所以當我們在說 population variance 時,我們就可以將原始的定義: \begin{equation} Var(X) = E[(X - E[X])^2] \end{equation} 中的 $E[X]$ 替換為在我們的假設下能夠算出來的 $\mu$,以及把其實意義為取平均的 expected value $E[·]$,直接以乘上 $\frac{1}{N}$ 替代,再將 $X$ 改為實際的 data points $X_1,,X_2,...,X_N$,這樣一來,就能將 population variance 的定義寫為: :::info \begin{equation} Var(X) = \frac{1}{N}\sum_{i=1}^N(X_i - \mu)^2 \end{equation} ::: 這就是在算 populaiton variance 時常用的定義。 ### variance 特性 ![image](https://hackmd.io/_uploads/HkJ1PuNNC.png) > 由這個 variance 的特性也可以看出,translation $b$ 是不影響的。 $A.25$ 的證明如下: ![image](https://hackmd.io/_uploads/SJ8YePrER.png) 其他一些基礎特性: :::success $Var(X)\ge0$ ::: > 因為 variance 的定義概念上來說是「距離的平方再取平均」,既然有平方,那麼必定 $\ge0$ :::success $Var(c)=0, \quad c:\text{constant}$ ::: > 一樣用概念想,一個常數和它的平均值當然相同,因此相差的距離是零,再取平均仍然是零。 > > 或者也可以直接想,一個常數從頭到尾都是同個數,那麼分散程度當然是零。 反過來看,如果一個 random variable $X$ 的 variance 是零,那這個 random variable 必為常數。寫成數學式如下: :::success $Var(X)=0 \quad \iff \quad \exists a \ni P(X=a) = 1$ ::: ## standard deviation 如果我們把 variance 開根號,結果就叫做 <font color = "snake">standard deviation</font> ==$\sigma$==,也就是以前學過的標準差。 :::info $\sigma = \sqrt{Var(X)}$ ::: standard deviation 的好處是它的單位跟 $X$ 相同。 > 因為 variance 的定義裡多了平方,所以最後的單位也是平方過的;相對來說 standard deviation 再去開根號就會回到原本和 $X$ 相同的單位。 除此之外,standard deviation 比起 variance 也比較好去解讀我們的 data。 直接叫 chatgpt 給個例子: ![ex](https://hackmd.io/_uploads/rkk0HDBVC.png) > 大意就是: > > 如果我們有這一連串的考試成績,取 mean 後我們會得到平均分數是 80 分。 > > 如果我們進一步去算 variance,會得到 50 這個看不出來到底有什麼意義的數字。 > > 但是如果我們把 50 開根號,就會得到 standard deviation 大概 7 左右,這也就意味著這些成績偏離它們平均的量大概落在 7 左右。 根據 [wiki](https://en.wikipedia.org/wiki/Standard_deviation) 的說明: :::info standard deviation is a measure of the ++amount++ of variation of a random variable expected about its mean ::: > 因為 variance 取過平方了,所以不能說是偏離 mean 的「量」,但如果把它開根號回來,就能作為「量」去解讀了。 ### standard deviation 意義 最後,如果我們求出來的 standard deviation 數字很小,就代表我們的 data 和 mean 普遍來說比較接近;如果數字很大,就代表我們的 data 是散佈在一個比較大的 range 中。 ### standard deviation 特性 ![image](https://hackmd.io/_uploads/B1StOwBVR.png) > 用直觀的意義,配合例子去想就很清楚了。 ## covariance ### covariance 意義 ==$Cov(X,Y)$==,或 ==$\sigma_{XY}$==/==$\sigma(X,Y)$== <font color = "snake">covariance</font> ,拆解成字首 "co" 和 "variance" 就能看出它的意義,也就是++兩個 random variables 之間的關係++。 更進一步去看: 假如有兩個 random variable $X,Y$,它們的 covariance $Cov(X,Y)$: :::info $Cov(X,Y)>0 \quad \Rightarrow$ $X$ 發生讓 $Y$ 更容易發生 $Cov(X,Y)<0 \quad \Rightarrow$ $X$ 發生讓 $Y$ 較不容易發生 $Cov(X,Y)=0 \quad \Rightarrow$ $X$ 發生和 $Y$ 發生無關($X,Y$: independent) ::: ![image](https://hackmd.io/_uploads/SyR65vH4C.png) > 為什麼圖長這樣? > > 從 covariance $<0$ 隨便取兩個點(最極端的左上、右下)來看,由左上可看出當 $X$ 小時 $Y$ 大、由右下來看剛好相反,而且對於這個圖裡這麼多點來說普遍都符合這個關係,因此我們才說 $X$ 發生讓 $Y$ 較不容易發生。 ### covariance 定義 ![IMG_ADBFE560948F-1](https://hackmd.io/_uploads/r1lU5vHVA.jpg) 推導過程如下: ![image](https://hackmd.io/_uploads/BJg-1JOHEA.png) ### covariance 特性 ![image](https://hackmd.io/_uploads/SJYEyuSVA.png) > 第一條為 Covariance 為 Symmetric > 第二條為 Covariance-Variance Relationship > 第三條為 Covariance 具 distributive property 二三條簡單推導: ![image](https://hackmd.io/_uploads/ByKA-uH40.png) 除此之外,常數可以提出來: \begin{equation} \begin{split} \text{Cov}(cX,Y) = c \times \text{Cov}(X,Y) \\ \text{Cov}(X,cY) = c \times \text{Cov}(X,Y) \end{split} \end{equation} 其中 $c$:constant ![A.27](https://hackmd.io/_uploads/BkQsIcr4A.png) ![A.28](https://hackmd.io/_uploads/S1feGir4A.png) ![A.29](https://hackmd.io/_uploads/HytcyhBNC.png) 延續上方的 $A.29$,如果 $X_i$ 之間 independent,那麼 variance 具 linearity。 > $\rightarrow$ <font color = "red">一般情況下, variance 非 linear!</font> ![A.30](https://hackmd.io/_uploads/Bk8ZWhBNC.png) ## correlation * 課本沒講太多,內容部分參考自 [wiki](https://en.wikipedia.org/wiki/Correlation) ### correlation 意義 correlation 的一個不正式的說法叫作 "dependence",correlation 被拿來衡量兩個 random variable 之間的相關程度。 舉例來說,correlation 可以用來表示父母和小孩之間的身高關聯。 不過儘管在廣泛的認知下,當我們說 $X,Y$ 之間有 dependence,應該要是「任何形式的 dependence」都算,但是在統計學上的這個 correlation 我們只考慮 $X,Y$ 之間的線性相關(++linear related++)程度。 不過雖然說 correlation 是在描述兩個變數之間的 linear relationship,<font color = "red">correlation 的值通常沒辦法去描繪出這個關聯性</font>,我們可以看下方的一個例子: ![image](https://hackmd.io/_uploads/BkjuanSNR.png =400x400) > 在這些圖裡面,每個的 correlation 值都相同,但是 data 的分佈情況非常不一樣。 ### correlation 定義 ![image](https://hackmd.io/_uploads/H11BfhSNR.png) $Corr(X,Y)$ 的另一個表示方式是 $\rho_{XY}$,下方為這個定義的各種形式: ![image](https://hackmd.io/_uploads/SJzpQhBNR.png) 根據這個定義,我們可以看出如果 $X,Y$ 之間的 covariance $Cov(X,Y)$ 為零(也就是說 $X,Y$ 之間是 independent 的),那麼它們的 correlation 也會是零。 但是反過來說,如果 $X,Y$ 之間的 correlation 是零,不代表它們是 independent 的。 ![image](https://hackmd.io/_uploads/rk0SUhHNR.png) > 舉例來說,前面有提過我們在討論的 correlation 是去考慮 $X,Y$ 之間是多大程度的 linear related,因此在一個例子裡: > > 如果一個 random variable $X$ 對稱的分布在 0 的兩端,然後 $X,Y$ 間的關係式是 $Y=X^2$,因為 $Y$ 完全只由 $X$ 決定,所以 $X,Y$ 之間必定是 dependent 的,但是它們的 correlation 為零。 ### correlation 特性 :::success $Corr(X,Y)$ 的值永遠介於 $-1$ 和 $1$ 之間 ::: > 因為分母其實是在做 normalize # 參考資料 - [Lesson 30: Properties of Covariance](https://dlsun.github.io/probability/cov-properties.html)