# 統計學
---
[TOC]
---
## [1] 一維數據分析
一組資料都有兩個性質,一是中心(代表值),二是以該數值為中心的散佈(離度)。
中心常見的是像平均、中位數等,在此不再多談。而離度常見的指標有標準差、IQR(interquartile range)等等。
### IQR(interquartile range)
1. 先把數據從小到大照順序排好。
2. 以中位數為界,把數據等分成高低兩組(不含中位數)。
3. 找出低組的中位數,這就是第一四分位數,用 $Q_1$ 表示。
4. 高組的中位數就是第三四分位數,用 $Q_3$ 表示。
5. 內四分位距(IQR)就是這兩個四分位數的距離(也就是差)。
### 五數綜合
一組數據的五數綜合包括最小數、第一四分位數、中位數、第三四分位數及最大數。
平均值與標準差會受到離群值或是偏斜的分佈影響,所以五數綜合在有離群值或分布偏斜的時候會是相對好的選擇。
### 盒鬚圖(box-and-whisker plot)
盒鬚圖中間的盒子由 $Q_1$ 延伸到 $Q_3$,盒子中間的線標出中位數,兩頭有直線往外延伸到最小及最大兩數。

---
## [2] 機率
### 條件機率
在某事件發生的條件之下,另一事件發生的機率。
給出 $B$ 的時候,發生 $A$ 的機率為:
$P[A|B]=\dfrac{P[AB]}{P[B]}$
### 貝氏定理(Baye's Theorem)
$\begin{aligned}
P[A|B]&=\dfrac{P[B|A]P[A]}{P[B]}
\\\\&=\dfrac{P[B|A]P[A]}{P[B|A]P[A]+P[B|A^c]P[A^c]}
\end{aligned}$
#### 舉例:疾病檢驗
在全部人口中,約有 $0.5\%$ 的人患有此病。某一檢驗法,若病人的確有病,正確檢驗率為 $95\%$,若病人確無病,正確檢驗率為 $99\%$。現有一人檢驗結果為陽性,患病的機率是多少?
$A$:患病
$B$:陽性
求:$P[A|B]$。
已知:
$P[A]=0.005\\P[B|A]=0.95\\P[B|A^c]=0.01$
可由已知得出:
$P[A^c]=1-0.005=0.995$
$\begin{aligned}
P[A|B]&=\dfrac{P[A\cap B]}{P[B]}
\\\\&=\dfrac{P[B|A]P[A]}{P[A\cap B]+P[A^c\cap B]}
\\\\&=\dfrac{P[B|A]P[A]}{P[B|A]P[A]+P[B|A^c]P[A^c]}
\\\\&=\dfrac{0.95\cdot 0.005}{0.95\cdot 0.005+0.01\cdot0.995}
\\\\&\approx32 \%
\end{aligned}$
---
## [3] 離散型隨機變數(Discrete Random Variables)
隨機變數是隨機實驗中對應樣本點的實數值函數。
隨機變數用 $X$ 表示,隨機變數的值用 $x$ 表示。
隨機變數依數值特性分為離散型跟連續型。離散型的變量是有限個或無限但是可數的,舉例而言,丟2次銅板出現正面的次數,可能的值只有 $0, 1, 2$;而連續型的變量是無限而且不可數的,舉例而言,在 $[0, 1]$ 之間挑一個點,可能的值是 $0,1$ 之間的任一數,有無限多種可能。
### 機率質量函數(Probability Mass Function, PMF)
離散型隨機變數 $X$ 的機率質量函數是 $P_X(x)=P[X=x]$
#### 舉例:擲硬幣
如果擲了兩次硬幣,每次都分為正反兩面,正面為成功,反面為失敗,隨機變數 $X$ 代表正面的次數。
銅板正面的機率為 $p=\frac{1}{2}$,反面的機率為 $1-p=\frac{1}{2}$。
結果總共有四種可能性:正正、正反、反正、反反。每種可能性的機率都是 $\frac{1}{4}$。
三種可能的次數結果分別為:
$P[X=0]=\frac{1}{4}$
$P[X=1]=\frac{1}{2}$
$P[X=2]=\frac{1}{4}$
機率密度函數表示為:
\begin{equation}
P_X(x) =
\left\{
\begin{array}{cc}
1/4 & \mathrm{if\ } x=0, \\
1/2 & \mathrm{if\ } x=1, \\
1/4 & \mathrm{if\ } x=2, \\
0 & \mathrm{if\ } otherwise. \\
\end{array}
\right.
\end{equation}
#### 定理
一個機率質量函數 $P_X(x)$ 且值域是 $S_X$ 的離散型隨機變數:
1. 對於任何 $x,P_X(x)\ge0$。
2. $\sum\limits_{x\in S_X}{P_X(x)=1}$
> 證明:
>
> 機率公設
> 1. 對於任何事件 $A$,$P[A] \ge 0$。(非負性質)
> 2. $P[S]=1$
> 3. 對於任何互斥事件 $A_1,A_2,...,P[A_1 \cup A_2\cup ...]=P[A_1]+P[A_2]+...$。
> (可數加法性質)
>
> 首先,因為 $P_X(x)=P[X=x]$,所以 $P_X(x)\ge 0$。
> 接下來,每個 $s \in S$ 對應到一個 $x\in S_X$,因此:
> $P[x\in S_X]=\sum\limits_{x \in S_x}{}P_X(x)=P[s \in S]=P[S]=1$。
#### 期望值&變異數
$E[X]=\mu_X=\sum\limits_{x\in S_X}{xP_X(x)}$
$Var[X]=E[(X-\mu_X)^2]$
### 累積分布函數(Cumulative Distribution Function, CDF)
$F_X(x)=P[X\le x]$
#### 定理
對於任何隨機變數 $X$,
1. $F_X(-\infty)=0\ \ and\ F_X(\infty)=1.$
2. $For\ all\ x'\ge x,\ F_X(x')\ge F_X(x).$
3. $P[x_1\lt X\le x_2]=F_X(x_2)-F_X(x_1)$
#### 舉例:擲硬幣
續上題,從 $P_X(x)$ 我們可以得到 $X$ 的 $CDF$ :
$\begin{equation}
P_X(x) =
\left\{
\begin{array}{cc}
0 & \mathrm{if\ } x\lt 0, \\
1/4 & \mathrm{if\ } 0\le x \lt 1, \\
3/4 & \mathrm{if\ } 1\le x \lt 2, \\
1 & \mathrm{if\ } x \ge 2. \\
\end{array}
\right.
\end{equation}$
也就是下圖

### 伯努利隨機變數(Bernoulli Random Variable)
#### 伯努利試驗(Bernoulli Trial)
一個可以重複的實驗,滿足以下性質:
1. 每次實驗的結果不是成功就是失敗。
2. 成功的機率 $p$,在每次試驗中都相同。
3. 各次試驗間互相獨立。
#### 舉例:檢查電路
檢查一個線路,然後觀察被拒絕的次數。求 $X$ 的 $P_X(x)$。
因為只有兩種可能的結果,被拒絕的一次的可能性是 $p$,而被拒絕零次的可能性是 $1-p$。
因此可得:
\begin{equation}
P_X(x) =
\left\{
\begin{array}{cc}
1-p & \mathrm{if\ } x=0, \\
p & \mathrm{if\ } x=1, \\
0 & \mathrm{if\ } otherwise. \\
\end{array}
\right.
\end{equation}
電路被拒絕的個數即為一種伯努利隨機變數。
#### 機率質量函數
\begin{equation}
P_X(x) =
\left\{
\begin{array}{cc}
1-p & \mathrm{if\ } x=0, \\
p & \mathrm{if\ } x=1, \\
0 & \mathrm{if\ } otherwise. \\
\end{array}
\right.
\end{equation}
($0\lt p\lt1$)
#### 期望值&變異數
$E[X]=p$
> 證明:
>
> $E[X]=0 \cdot P_X(0)+1\cdot P_X(1)=0(1-p)+1(p)=p$
$Var[X]=p(1-p)$
### 二項式隨機變數(Binomial Random Variable)
當我們有一串長度是 $n$ 的伯努利試驗結果(成功機率為 $p$),成功的次數即為一個二項式隨機變數。也就是伯努利隨機變數其實是二項式隨機變數在 $n=1$ 的特例。
#### 舉例:檢查電路
一串長度為 $n$ 的獨立測試,每個電路被拒絕的機率都是 $p$。$K$ 是 $n$ 個試驗中被拒絕的個數,找出 $P_K(k)$。
定理:
$n=n_0+n_1$,其中 $n_0$ 是失敗次數,$n_1$ 是成功次數的獨立試驗中,機率為:
$P[E_{n_0,\ n_1}]=\binom{n}{n_1} (1-p)^{n-n_1}p^{n_1}=\binom{n}{n_0} (1-p)^{n_0}p^{n-n_0}$
例如:找出五次獨立試驗中,兩次失敗而三次成功的機率(單次成功機率為 $p$),答案會是 $P[E_{2,\ 3}]=\binom{5}{3} (1-p)^{2}p^{3}$
所以套用上面的定理,$P_K(k)$ 會是 $\binom{n}{k}p^k(1-p)^{n-k}$。
#### 機率質量函數
$P_X(x)= \binom{n}{x}\ p^x\ (1-p)^{n-x}$
($0<p<1,\ n 是整數且 n\ge1$)
#### 期望值&變異數
$\mu = np$
$\sigma^2 = np(1-p)$
---
## [4] 連續型隨機變數(Continuous Random Variables)

想像一個例子,一個指針在平衡的轉盤上,如果以 $X$ 代表指針在圓周上長度的比例,則這個 $X$ 可能會是 $0$ 到 $1$ 之間任何一個數,有無限多種可能。
有些機率很好找,譬如落在 $\frac{1}{4}$ 圓到 $\frac{3}{4}$ 圓的機率是 $P[0.25 \le X \le 0.75]=0.5$,因為這佔半個圓周。
但有些就會有點困難了,例如 $P[X=0.5]$,因為 $X$ 可能的值有無限多個,而每個值機率恰相等,所以 $X=0.5$ 的機率是 $0$。其他值的狀況也類似,也就是說,對於任何 $x\in S_X,P[X=x]=0$
### 累積分布函數(Cumulative Distribution Function, CDF)
$F_X(x)=P[X\le x]$
#### 定理
對於任何隨機變數 $X$,
1. $F_X(-\infty)=0$
2. $F_X(\infty)=1$
3. $P[x_1\lt X\le x_2]=F_X(x_2)-F_X(x_1)$
### 機率密度函數(Probability Density Function, PDF)
$f_X(x)=\frac{dF_X(x)}{dx}$
#### 舉例:轉盤
在前面轉盤的例子中,我們可以得出在轉周長為 $1$ 的轉盤的時候,$CDF$ 是這樣:
$\begin{equation}
F_X(x) =
\left\{
\begin{array}{cc}
0 & \mathrm{if\ } x\lt 0, \\
x & \mathrm{if\ } 0\le x \lt 1, \\
1 & \mathrm{if\ } x \ge 1. \\
\end{array}
\right.
\end{equation}$
停在 $x<0$ 或$x\le 1$的地方機率是0,而停在中間的可能性是均勻分布的,所以畫成圖形會是左邊這樣。而根據定義,$PDF$ 會是 $CDF$ 圖形的斜率,在這個例子中是 $1$,畫成圖形會是右邊這樣。

如果轉盤長度增加為 $2$,$CDF$ 和 $PDF$ 也會隨之改變。

在均勻分布的條件下,$PDF$ 的值會隨著可能區間長度的增加而減少。
#### 定理
對於一個有著 $PDF\ f_X(x)$ 的連續型隨機變數 $X$,
1. $f_X(x)\le 0 \ for\ all\ x$
2. $F_X(x)=\int_{-\infty}^x f_X(u) \mathrm{d} u$
3. $\int_{-\infty}^{\infty} f_X(x) \mathrm{d} x=1$
#### 定理
$P[x_1\lt X\le x_2]=\int_{x_1}^{x_2} f_X(x) \mathrm{d} x$
> 證明:
>
> $\begin{aligned}
P[x_1 \lt X \le x_2]&=F_X(x_2)-F_X(x_1)
\\\\&=\int_{-\infty}^{x_2} f_X(x) \mathrm{d} x-\int_{-\infty}^{x_1} f_X(x) \mathrm{d} x
\\\\&=\int_{x_1}^{x_2} f_X(x) \mathrm{d}x\end{aligned}$

其實簡單而言,上面計算的 $P[x_1\lt X\le x_2]$ 就是這個函數從 $X=x_1$ 到 $X=x_2$ 的面積。
#### 期望值&變異數
$\mu = \int_{-\infty}^{\infty} xf_X(x) \mathrm{d} x$
$\sigma^2 = \int_{-\infty}^{\infty} (x-\mu )^2f_X(x) \mathrm{d} x$
其實跟離散型隨機變數的期望值和變異數型式差不多,只是從總和(離散)變成積分(連續)。
### 常態分布(Normal Distribution)
#### 機率密度函數
$f_X(x)=\frac{1}{\sqrt {2\pi \sigma^2}}e^{-(x-\mu )^2/2\sigma ^2}$
($ \mu 可以是任何實數,\sigma \gt 0$)
#### 期望值&變異數
$E[X] = \mu$
$Var[X]=\sigma^2$
#### 標準化
$z=\frac{x-\mu }{\sigma}$ 會把平均數 $\mu$、標準差 $\sigma$ 的常態隨機變數,變成平均數 $0$、標準差 $1$ 的標準常態隨機變數。
#### 計算面積
要計算標準常態分布底下的面積,我們可以用到之前學的累積分布函數。
累積分布函數 $F_X(x)$ 我們用 $\Phi(\frac{x-\mu}{\sigma})$ 表示。
則在 $(a,b]$ 區間的機率是:
$P[a \lt X \le b]=\Phi(\frac{b-\mu }{\sigma})-\Phi(\frac{a-\mu }{\sigma})$

#### 定理
$\Phi (-z)=1-\Phi (z)$
(這可以由圖表觀察的出來。)

#### 舉例:考試
假設你考了 $x=46$ 分,而這場考試的平均是 $61$ 分,標準差是 $10$ 分。用標準常態隨機變數表示你的考試成績。
$z=\frac{(46-61)}{10}=-1.5$,因此你的分數比期望值低上 $1.5$ 個標準差。
#### 經驗法則(Empirical Rule)
在常態分佈中,距離平均值一個標準差以內的比例是 $68\%$,距離兩個標準差以內的比例是 $95\%$,距離三個標準差以內的比例是 $99.7\%$。
---
## [5] 信賴區間
### 中央極限定理(Central Limit Theorem)
如果我們從一個平均數為 $\mu$,標準差為 $\sigma$ 的母體,抽取大小為 $n$ 的隨機樣本,當 $n$ 越來越大時 $\bar X$ ($\bar X=\frac{X_1+X_2+...+X_n}{n}$)會接近平均數為 $\mu$,標準差為 $\frac{\sigma}{\sqrt n}$ 的常態分佈。
如此則有:
$P[a\lt X \le b]\approx P(\frac{a-\mu }{\sigma/n} \lt Z \le \frac{b-\mu }{\sigma/n})$
### 母體平均數的信賴區間
當 $n$ 夠大的時候,樣本平均數的分布會近似常態分佈,因此:
$\begin{aligned}
0.95&=P(-1.96 \le z \le 1.96)
\\\\&=P(-1.96 \le \frac{x-\mu}{\sigma(\bar X)}\le 1.96)\end{aligned}$

| 信心水準 | 對應的$\alpha$ | $z_{\alpha/2}$
| -------- | -------------- | ------------------ |
|90|0.10| $z_{0.05 }=1.645$|
|95|0.05| $z_{0.025}=1.960$|
|99|0.01| $z_{0.005}=2.576$|
$\bar X \pm z_{\alpha/2}\sigma/\sqrt n$ 稱為 $100(1-\alpha)%$ 信賴區間
#### 舉例
$n=10,\ \bar X =19.3,\ and\ \sigma=3$
母體平均數 $90\%$ 信賴區間
$19.3 \pm 1.645\frac{3}{\sqrt 10}=19.3 \pm1.56$
母體平均數 $95\%$ 信賴區間
$19.3 \pm 1.960\frac{3}{\sqrt 10}=19.3 \pm1.86$
母體平均數 $99\%$ 信賴區間
$19.3 \pm 2.576\frac{3}{\sqrt 10}=19.3 \pm2.44$
---
###### tags: `ckefgisc23rd`