# 補充:sample
- 本節簡單介紹常用到的 sample mean, sample variance, sample standard deviation 等名詞的定義。
---
## 定義
### sample vs population
其實就像我們平常在用的意思,下面這個圖就很清楚地講出這兩個名詞的關聯:

<font color = "snake">population</font>:我們想要得到某些結論的整個對象群體。
<font color = "snake">sample</font>:從 population 裡面我們取出某個群體,實際搜集它們的 data 來分析。
> sample 的大小一定小於 population。
- 雖然這個圖這樣畫,但我們的 population 當然不一定是指人。
### sample 及其 distribution
假設現在我們重複做一個 experiment $n$ 次,得到 $n$ 個 random variables 的 observed values,如果用:
\begin{equation}
x_1, x_2,...,x_n
\end{equation}
來表示這 $n$ 個值,那麼它們的集合 ==$\{x_1, x_2,...,x_n\}$== 就是 <font color = "snake">sample</font>。
> - 因為我們的 experiment 即使做了 $n$ 次,但也不一定會包含所有可能的 outcomes(不一定是整個 sample space),所以我們這 $n$ 次 experiment 結果作為所有 outcomes 的一個 subset,當然就是 sample 了。
> - 當然,這個 set 裡面有可能會有某個 $x_i = x_j \quad i\not=j$,或是有多個 $x_i$ 有相同的值,但是這件事可以先不用管。
關於 sample $\{x_1, x_2,...,x_n\}$ 以及其中的 $x_i$ 的意義,下方獨立出一小段再進一步說明:
---
#### data points vs random variables
關於 $x_1, x_2,...,x_n$ 到底指的是什麼,一開始我一直有很多疑惑:
> 到底它們每個 $x_i$ 是指單一一個 data points,還是一個 data points 的 set,常常我們會在書裡談 sample 時看到「從一個 population draw $n$ 個 iid random variables $x_1, x_2,...,x_n$」,這個時候又變成每個 $x_i$ 是一個 random variable,可是 random variable 不是一個 function 嗎?
這些問題困擾我很久,最後整理出來的結論是,這些 $x_i$ 所指涉的東西根據它所身處的 context 而定:
- 當我們在討論一個 ++finite population++ 時,$x_1, x_2,...,x_n$ 指的是這個 population 裡所有的 <font color = "green">data points</font>。
> 每個 $x_i$ 是一個 data point。
- 當我們在討論++從一個 population 中 draw 一個 sample++ 時,$x_1, x_2,...,x_n$ 指的是 <font color = "green">random variable $X$ 的 observed values</font>。
> 每個 $x_i$ 是 random variable $X$ 其中一次 experiment 的 observed value。
>> 當我們有多個 random variables 時,有時候課本的表示方式會是 $x_i$ 是 random variable $X_i$ 的 observed value。
舉個例子:
假設我們想要知道一個城市裡的男性的平均身高,此時我們的 population 就是這個城市裡的所有男性,但是因為我們沒辦法去一一調查每一個男性的身高,所以我們就取這個城市裡的某部分男性身高作為 sample。
假設整個 population 的 distribution 是 normal distributed with mean $\mu = 175$, variance $\sigma^2 = 25$
> i.e. population distribution $\sim N(175,25)$
我們從 population(這個城市中的所有男性)draw 一個五位男性的 sample,這個 sample $X = \{x_i\}_{i=1}^5$
\begin{equation}
x_1 = 192, x_2 = 161, x_3 = 180, x_4 = 169, x_5 = 176
\end{equation}
其中每個 $x_i$ 為第 $i$ 位男性的身高。
因為我們的 sample 只有五個值,所以它不一定會接近 population 的 distribution $N(175,25)$,但是當我們的 sample 夠大時(例如取一萬個 $x_i$ 時),根據 law of large numebrs,sample mean 就會接近 population mean,也就是我們如果對 sample 裡的一千個值取平均,這一千個人的平均身高就會接近 $175$。
---
回到原本的討論,在得到這些 $x_i$ 以後,我們想要對我們得到的 data 賦予一個 sample 的 probability distribution,所以我們++給每個 $x_i$ 一個 weight $\frac{1}{n}$++,這樣我們就能有一個 distribution,我們把它叫做 <font color = "snake">empirical distribution</font>。
> - 為什麼要乘上 $\frac{1}{n}$ 才能有 distribution,其實意義是讓我們的這 $n$ 個值,發生的機率都是 $\frac{1}{n}$,這樣一來所有的 $x_i$ 的 probablity 皆是正的,且 probability 加總會是 $1$,才符合 probability distribution 的定義。
> - empirical distribution 的意思其實只是 observed data 的 distribution,因為在這裡 $\{x_1, x_2,...,x_n\}$ 是我們的 observed data,所以它們的 distribution 也就稱作 empirical distribution。
因為代表 sample distribution 的 empirical distribution 也是一種 distribution,所以我們也可以去計算它的 mean, variance, standard deviation⋯⋯。
### sample mean
因為我們的 observations $\{x_1, x_2,...,x_n\}$ 顯然不是 continuous,所以在 discrete 的情況下,根據定義 expected value 為:
\begin{equation}
E[X] = \sum_ix_iP(x_i)
\end{equation}
因此,emperical distribution 的 mean 為:
\begin{equation}
\sum_{i=1}^nx_i\frac{1}{n} = \frac{1}{n}\sum_{i=1}^nx_i
\end{equation}
這個值也就是 $x_1, x_2,...,x_n$ 的 arithmetic mean(算術平均數),我們用 ==$\bar{x}$== 表示,並稱為 <font color = "snake">sample mean</font>(其實就是 sample $x_1, x_2,...,x_n$ 的平均)重新把定義寫一次:
:::info
\begin{equation}
\bar{x} = \frac{1}{n}\sum_{i=1}^nx_i
\end{equation}
:::
:::warning
當 population 的 mean $\mu$ 未知時,sample mean $\bar{x}$ 也可以++被視為 $\mu$ 的 estimate++。
:::
> 意思也就是我們透過 sample 的平均值來猜測 sample 背後的整個 distribution 的平均值。
#### expected value of sample mean
如果 $x_1, x_2,...,x_n$ 為 iid random variables,其中每個 $x_i$ 具相同的 distribution(從同個 population 取 sample),expected value 皆同 population mean $= \mu$。
由上面的定義我們已經知道這些 random variables 組成的 sample 有著 sample mean $\bar{x} = \frac{1}{n}\sum_{i=1}^nx_i$,那麼 sample mean 的 expected value $E[\bar{x}]$ 是什麼呢?

實際算算看會發現 sample mean 的 expected value 會等同背後的 population mean $\mu$。
> 也就是說:
> 平均來說 sample 的平均值會等同 population 的平均值。
### sample variance
根據 variance 的定義:
\begin{equation}
Var(X) = E[(X-\mu)^2]
\end{equation}
再用像上面定義 sample mean 的方式,empirical distribution 的 variance 為:
\begin{equation}
\begin{split}
v &= \sum_{i=1}^n(x_i - \bar{x})^2(\frac{1}{n}) \\
&= \frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^2
\end{split}
\end{equation}
因為 $Var(X) = E[X^2] - (E[X])^2$,所以我們也可以寫成:
\begin{equation}
\begin{split}
v &= \sum_{i=1}^nx_i^2(\frac{1}{n}) - \bar{x}^2 \\
&= \frac{1}{n}\sum_{i=1}^nx_i^2 - \bar{x}^2
\end{split}
\end{equation}
但是我們並不會把這樣的 $v$ 叫做 sample variance,而是去另外定義一個 ==$s^2$== 作為 <font color = "snake">sample variance</font>:
\begin{equation}
\begin{split}
s^2 &= (\frac{n}{n-1})v \\
&= (\frac{n}{n-1})\frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^2 \\
&= (\frac{1}{n-1})\sum_{i=1}^n(x_i - \bar{x})^2
\end{split}
\end{equation}
得到 sample variance 的定義:
:::info
\begin{equation}
s^2 = (\frac{1}{n-1})\sum_{i=1}^n(x_i - \bar{x})^2
\end{equation}
:::
為什麼要把 sample variance 的分母訂為 $n-1$ 而不是 $n$,其實是因為作為去估計未知的 $\sigma^2$ 的 estimate,$s^2$ (分母為 $n-1$)會比 $v$ (分母為 $n$)要來得好。
> 這個變動其實是去修正當我們用 $n$ 作為分母時會產生的 bias,這件事也叫做 Bessel’s correction。
$\rightarrow$ 在 $s^2$ 的 $\sum_{i=1}^n(x_i - \bar{x})^2$ 部分,我們可以展開,得到:
\begin{equation}
\sum_{i=1}^n(x_i - \bar{x})^2 = \sum_{i=1}^nx_i^2 - \frac{(\sum_{i=1}^nx_i)^2}{n}
\end{equation}
原因也很簡單,就是暴力展開如下:

所以我們的另一種 $s^2$ 的定義可以寫成:
:::info
\begin{equation}
s^2 = \frac{\sum_{i=1}^nx_i^2 - \frac{1}{n}(\sum_{i=1}^nx_i)^2}{n-1}
\end{equation}
:::
做完展開以後,等號右邊通常會比較好算,而且因為 $\bar{x}$ 通常會有好幾位小數,所以如果我們用等號左邊的算法,$x_i-\bar{x}$ 會被 round,導致誤差產生。
所以計算上用右邊比較適合,不過如果是用電腦算就不用管這部分了。
### sample standard deviation
一般 standard deviation 的定義,就是 variance 開根號,那麼 <font color = "snake">sample standard deviation</font> 也一樣,就是 $\sqrt{s^2} = s \ge 0$。
sample standard deviation 直觀的意義是:
:::warning
我們的 data 以 sample mean 為基準有多分散
:::
$\rightarrow$ 我們現在還沒辦法很清楚的掌握 standard deviation $s$,但是我們可以先大略地把它想成「++$x_1, x_2,...,x_n$ 離 sample mean $\bar{x}$ 的平均距離++」。雖然這樣的說法不完全正確,因為我們的 sample standard deviation 通常會大一點,也就是:
\begin{equation}
s \ge \frac{1}{n}\sum_{i=1}^n|x_i - \bar{x}|
\end{equation}
## 例子

## 特性
sample mean 的 variance 很常用的等式:
:::success
\begin{equation}
Var(\bar{X}) = E[(\bar{X} - \mu)^2] = \frac{\sigma^2}{n}
\end{equation}
:::
證明如下:

# 參考資料
- Hogg,Tanis,Zimmerman, Probability and Statistical Inference, 9th ed(2015), p.227-229
- Sheldon Ross, A first course in Probability, 9th ed, p.306
- Scribbr: [Population vs. Sample | Definitions, Differences & Examples](https://www.scribbr.com/methodology/population-vs-sample/)