# A.2.6 Variance
## variance
### variance 定義
==$Var(X)$==(==$\sigma^2$==),稱作 <font color = "snake">variance</font>,也就是國高中學過的變異量,是用來測量 ++$X$ 和 expected value $\mu$ 之間的變化有多大++,定義如下:
:::info
\begin{equation}
Var(X) = E[(X - E[X])^2]
\end{equation}
:::
把 $E[X]$ 寫成 $\mu$,以及同等的另一種寫法如下:

> 簡單來說,就是我們用相減去測量 $X$ 和 $\mu$ 之間的距離,但是為了不考慮正的差距和負的差距(不管正負,只看差距的量),我們將 $X-\mu$ 這個值平方,再去取 expected value,也就是去求這個差距的平均。
>
> 想法上就是: ++平均來說,我們的 data 之間的差距有多大++。
>
> $\rightarrow$ 當然因為平方過,所以 variance 也失去了真正「差距」的意義,因此後面就會再講到 standard deviation,也就是我們再把它開根號回來。
那後面那個等式怎麼來的呢?推導如下:

看數學是如果沒什麼概念的話,[wiki](https://en.wikipedia.org/wiki/Variance) 上的解釋我覺得寫得特別清楚:
:::info
Variance is a <font color = "blue">measure of dispersion</font>, meaning it is a measure of how far a set of numbers is spread out from their average value.
:::
> 中文意思就是:
>
> variance 是一個拿來衡量++分散程度++的標準,意思也就是他是拿來測量++一個 set 裡的數字分佈在離它們的平均值多遠的地方++。
- 前面講到 moment 時有提到 variance 是 2nd central moment,這個名字其實就是因為平方即 $n=2$,所以稱作 second;而 central moment 的意思其實就是代表了和 mean $\mu$ 之間的差距。
> 英文其實比較好懂, central moment 的意思是:
> ++The moments about its mean++ $\mu$ are called central moments
>
> 並且,central moments ++describe the shape of the function, independently of translation.++
>> 透過減掉 mean 的方式,我們能夠去使得 function 獨立於 translation (不受 translation 的影響)的去描述它的形狀。
#### population variance
當我們在談一個 population 時,我們通常是指它是一個 ++finite++ 的 population,並且預設我們知道這個 population 裡所有 data 的值。
因此,透過每一個我們真的知道的值,$X_1,X_2,...,X_N$,我們可以去計算:
- population mean $\mu$
- population variance $\sigma^2$
所以當我們在說 population variance 時,我們就可以將原始的定義:
\begin{equation}
Var(X) = E[(X - E[X])^2]
\end{equation}
中的 $E[X]$ 替換為在我們的假設下能夠算出來的 $\mu$,以及把其實意義為取平均的 expected value $E[·]$,直接以乘上 $\frac{1}{N}$ 替代,再將 $X$ 改為實際的 data points $X_1,,X_2,...,X_N$,這樣一來,就能將 population variance 的定義寫為:
:::info
\begin{equation}
Var(X) = \frac{1}{N}\sum_{i=1}^N(X_i - \mu)^2
\end{equation}
:::
這就是在算 populaiton variance 時常用的定義。
### variance 特性

> 由這個 variance 的特性也可以看出,translation $b$ 是不影響的。
$A.25$ 的證明如下:

其他一些基礎特性:
:::success
$Var(X)\ge0$
:::
> 因為 variance 的定義概念上來說是「距離的平方再取平均」,既然有平方,那麼必定 $\ge0$
:::success
$Var(c)=0, \quad c:\text{constant}$
:::
> 一樣用概念想,一個常數和它的平均值當然相同,因此相差的距離是零,再取平均仍然是零。
>
> 或者也可以直接想,一個常數從頭到尾都是同個數,那麼分散程度當然是零。
反過來看,如果一個 random variable $X$ 的 variance 是零,那這個 random variable 必為常數。寫成數學式如下:
:::success
$Var(X)=0 \quad \iff \quad \exists a \ni P(X=a) = 1$
:::
## standard deviation
如果我們把 variance 開根號,結果就叫做 <font color = "snake">standard deviation</font> ==$\sigma$==,也就是以前學過的標準差。
:::info
$\sigma = \sqrt{Var(X)}$
:::
standard deviation 的好處是它的單位跟 $X$ 相同。
> 因為 variance 的定義裡多了平方,所以最後的單位也是平方過的;相對來說 standard deviation 再去開根號就會回到原本和 $X$ 相同的單位。
除此之外,standard deviation 比起 variance 也比較好去解讀我們的 data。
直接叫 chatgpt 給個例子:

> 大意就是:
>
> 如果我們有這一連串的考試成績,取 mean 後我們會得到平均分數是 80 分。
>
> 如果我們進一步去算 variance,會得到 50 這個看不出來到底有什麼意義的數字。
>
> 但是如果我們把 50 開根號,就會得到 standard deviation 大概 7 左右,這也就意味著這些成績偏離它們平均的量大概落在 7 左右。
根據 [wiki](https://en.wikipedia.org/wiki/Standard_deviation) 的說明:
:::info
standard deviation is a measure of the ++amount++ of variation of a random variable expected about its mean
:::
> 因為 variance 取過平方了,所以不能說是偏離 mean 的「量」,但如果把它開根號回來,就能作為「量」去解讀了。
### standard deviation 意義
最後,如果我們求出來的 standard deviation 數字很小,就代表我們的 data 和 mean 普遍來說比較接近;如果數字很大,就代表我們的 data 是散佈在一個比較大的 range 中。
### standard deviation 特性

> 用直觀的意義,配合例子去想就很清楚了。
## covariance
### covariance 意義
==$Cov(X,Y)$==,或 ==$\sigma_{XY}$==/==$\sigma(X,Y)$== <font color = "snake">covariance</font> ,拆解成字首 "co" 和 "variance" 就能看出它的意義,也就是++兩個 random variables 之間的關係++。
更進一步去看:
假如有兩個 random variable $X,Y$,它們的 covariance $Cov(X,Y)$:
:::info
$Cov(X,Y)>0 \quad \Rightarrow$ $X$ 發生讓 $Y$ 更容易發生
$Cov(X,Y)<0 \quad \Rightarrow$ $X$ 發生讓 $Y$ 較不容易發生
$Cov(X,Y)=0 \quad \Rightarrow$ $X$ 發生和 $Y$ 發生無關($X,Y$: independent)
:::

> 為什麼圖長這樣?
>
> 從 covariance $<0$ 隨便取兩個點(最極端的左上、右下)來看,由左上可看出當 $X$ 小時 $Y$ 大、由右下來看剛好相反,而且對於這個圖裡這麼多點來說普遍都符合這個關係,因此我們才說 $X$ 發生讓 $Y$ 較不容易發生。
### covariance 定義

推導過程如下:

### covariance 特性

> 第一條為 Covariance 為 Symmetric
> 第二條為 Covariance-Variance Relationship
> 第三條為 Covariance 具 distributive property
二三條簡單推導:

除此之外,常數可以提出來:
\begin{equation}
\begin{split}
\text{Cov}(cX,Y) = c \times \text{Cov}(X,Y) \\
\text{Cov}(X,cY) = c \times \text{Cov}(X,Y)
\end{split}
\end{equation}
其中 $c$:constant



延續上方的 $A.29$,如果 $X_i$ 之間 independent,那麼 variance 具 linearity。
> $\rightarrow$ <font color = "red">一般情況下, variance 非 linear!</font>

## correlation
* 課本沒講太多,內容部分參考自 [wiki](https://en.wikipedia.org/wiki/Correlation)
### correlation 意義
correlation 的一個不正式的說法叫作 "dependence",correlation 被拿來衡量兩個 random variable 之間的相關程度。
舉例來說,correlation 可以用來表示父母和小孩之間的身高關聯。
不過儘管在廣泛的認知下,當我們說 $X,Y$ 之間有 dependence,應該要是「任何形式的 dependence」都算,但是在統計學上的這個 correlation 我們只考慮 $X,Y$ 之間的線性相關(++linear related++)程度。
不過雖然說 correlation 是在描述兩個變數之間的 linear relationship,<font color = "red">correlation 的值通常沒辦法去描繪出這個關聯性</font>,我們可以看下方的一個例子:

> 在這些圖裡面,每個的 correlation 值都相同,但是 data 的分佈情況非常不一樣。
### correlation 定義

$Corr(X,Y)$ 的另一個表示方式是 $\rho_{XY}$,下方為這個定義的各種形式:

根據這個定義,我們可以看出如果 $X,Y$ 之間的 covariance $Cov(X,Y)$ 為零(也就是說 $X,Y$ 之間是 independent 的),那麼它們的 correlation 也會是零。
但是反過來說,如果 $X,Y$ 之間的 correlation 是零,不代表它們是 independent 的。

> 舉例來說,前面有提過我們在討論的 correlation 是去考慮 $X,Y$ 之間是多大程度的 linear related,因此在一個例子裡:
>
> 如果一個 random variable $X$ 對稱的分布在 0 的兩端,然後 $X,Y$ 間的關係式是 $Y=X^2$,因為 $Y$ 完全只由 $X$ 決定,所以 $X,Y$ 之間必定是 dependent 的,但是它們的 correlation 為零。
### correlation 特性
:::success
$Corr(X,Y)$ 的值永遠介於 $-1$ 和 $1$ 之間
:::
> 因為分母其實是在做 normalize
# 參考資料
- [Lesson 30: Properties of Covariance](https://dlsun.github.io/probability/cov-properties.html)