# 統計學 --- [TOC] --- ## [1] 一維數據分析 一組資料都有兩個性質,一是中心(代表值),二是以該數值為中心的散佈(離度)。 中心常見的是像平均、中位數等,在此不再多談。而離度常見的指標有標準差、IQR(interquartile range)等等。 ### IQR(interquartile range) 1. 先把數據從小到大照順序排好。 2. 以中位數為界,把數據等分成高低兩組(不含中位數)。 3. 找出低組的中位數,這就是第一四分位數,用 $Q_1$ 表示。 4. 高組的中位數就是第三四分位數,用 $Q_3$ 表示。 5. 內四分位距(IQR)就是這兩個四分位數的距離(也就是差)。 ### 五數綜合 一組數據的五數綜合包括最小數、第一四分位數、中位數、第三四分位數及最大數。 平均值與標準差會受到離群值或是偏斜的分佈影響,所以五數綜合在有離群值或分布偏斜的時候會是相對好的選擇。 ### 盒鬚圖(box-and-whisker plot) 盒鬚圖中間的盒子由 $Q_1$ 延伸到 $Q_3$,盒子中間的線標出中位數,兩頭有直線往外延伸到最小及最大兩數。 ![](https://i.imgur.com/hdbr6tT.jpg) --- ## [2] 機率 ### 條件機率 在某事件發生的條件之下,另一事件發生的機率。 給出 $B$ 的時候,發生 $A$ 的機率為: $P[A|B]=\dfrac{P[AB]}{P[B]}$ ### 貝氏定理(Baye's Theorem) $\begin{aligned} P[A|B]&=\dfrac{P[B|A]P[A]}{P[B]} \\\\&=\dfrac{P[B|A]P[A]}{P[B|A]P[A]+P[B|A^c]P[A^c]} \end{aligned}$ #### 舉例:疾病檢驗 在全部人口中,約有 $0.5\%$ 的人患有此病。某一檢驗法,若病人的確有病,正確檢驗率為 $95\%$,若病人確無病,正確檢驗率為 $99\%$。現有一人檢驗結果為陽性,患病的機率是多少? $A$:患病 $B$:陽性 求:$P[A|B]$。 已知: $P[A]=0.005\\P[B|A]=0.95\\P[B|A^c]=0.01$ 可由已知得出: $P[A^c]=1-0.005=0.995$ $\begin{aligned} P[A|B]&=\dfrac{P[A\cap B]}{P[B]} \\\\&=\dfrac{P[B|A]P[A]}{P[A\cap B]+P[A^c\cap B]} \\\\&=\dfrac{P[B|A]P[A]}{P[B|A]P[A]+P[B|A^c]P[A^c]} \\\\&=\dfrac{0.95\cdot 0.005}{0.95\cdot 0.005+0.01\cdot0.995} \\\\&\approx32 \% \end{aligned}$ --- ## [3] 離散型隨機變數(Discrete Random Variables) 隨機變數是隨機實驗中對應樣本點的實數值函數。 隨機變數用 $X$ 表示,隨機變數的值用 $x$ 表示。 隨機變數依數值特性分為離散型跟連續型。離散型的變量是有限個或無限但是可數的,舉例而言,丟2次銅板出現正面的次數,可能的值只有 $0, 1, 2$;而連續型的變量是無限而且不可數的,舉例而言,在 $[0, 1]$ 之間挑一個點,可能的值是 $0,1$ 之間的任一數,有無限多種可能。 ### 機率質量函數(Probability Mass Function, PMF) 離散型隨機變數 $X$ 的機率質量函數是 $P_X(x)=P[X=x]$ #### 舉例:擲硬幣 如果擲了兩次硬幣,每次都分為正反兩面,正面為成功,反面為失敗,隨機變數 $X$ 代表正面的次數。 銅板正面的機率為 $p=\frac{1}{2}$,反面的機率為 $1-p=\frac{1}{2}$。 結果總共有四種可能性:正正、正反、反正、反反。每種可能性的機率都是 $\frac{1}{4}$。 三種可能的次數結果分別為: $P[X=0]=\frac{1}{4}$ $P[X=1]=\frac{1}{2}$ $P[X=2]=\frac{1}{4}$ 機率密度函數表示為: \begin{equation} P_X(x) = \left\{ \begin{array}{cc} 1/4 & \mathrm{if\ } x=0, \\ 1/2 & \mathrm{if\ } x=1, \\ 1/4 & \mathrm{if\ } x=2, \\ 0 & \mathrm{if\ } otherwise. \\ \end{array} \right. \end{equation} #### 定理 一個機率質量函數 $P_X(x)$ 且值域是 $S_X$ 的離散型隨機變數: 1. 對於任何 $x,P_X(x)\ge0$。 2. $\sum\limits_{x\in S_X}{P_X(x)=1}$ > 證明: > > 機率公設 > 1. 對於任何事件 $A$,$P[A] \ge 0$。(非負性質) > 2. $P[S]=1$ > 3. 對於任何互斥事件 $A_1,A_2,...,P[A_1 \cup A_2\cup ...]=P[A_1]+P[A_2]+...$。 > (可數加法性質) > > 首先,因為 $P_X(x)=P[X=x]$,所以 $P_X(x)\ge 0$。 > 接下來,每個 $s \in S$ 對應到一個 $x\in S_X$,因此: > $P[x\in S_X]=\sum\limits_{x \in S_x}{}P_X(x)=P[s \in S]=P[S]=1$。 #### 期望值&變異數 $E[X]=\mu_X=\sum\limits_{x\in S_X}{xP_X(x)}$ $Var[X]=E[(X-\mu_X)^2]$ ### 累積分布函數(Cumulative Distribution Function, CDF) $F_X(x)=P[X\le x]$ #### 定理 對於任何隨機變數 $X$, 1. $F_X(-\infty)=0\ \ and\ F_X(\infty)=1.$ 2. $For\ all\ x'\ge x,\ F_X(x')\ge F_X(x).$ 3. $P[x_1\lt X\le x_2]=F_X(x_2)-F_X(x_1)$ #### 舉例:擲硬幣 續上題,從 $P_X(x)$ 我們可以得到 $X$ 的 $CDF$ : $\begin{equation} P_X(x) = \left\{ \begin{array}{cc} 0 & \mathrm{if\ } x\lt 0, \\ 1/4 & \mathrm{if\ } 0\le x \lt 1, \\ 3/4 & \mathrm{if\ } 1\le x \lt 2, \\ 1 & \mathrm{if\ } x \ge 2. \\ \end{array} \right. \end{equation}$ 也就是下圖 ![](https://i.imgur.com/7LcCKlA.jpg) ### 伯努利隨機變數(Bernoulli Random Variable) #### 伯努利試驗(Bernoulli Trial) 一個可以重複的實驗,滿足以下性質: 1. 每次實驗的結果不是成功就是失敗。 2. 成功的機率 $p$,在每次試驗中都相同。 3. 各次試驗間互相獨立。 #### 舉例:檢查電路 檢查一個線路,然後觀察被拒絕的次數。求 $X$ 的 $P_X(x)$。 因為只有兩種可能的結果,被拒絕的一次的可能性是 $p$,而被拒絕零次的可能性是 $1-p$。 因此可得: \begin{equation} P_X(x) = \left\{ \begin{array}{cc} 1-p & \mathrm{if\ } x=0, \\ p & \mathrm{if\ } x=1, \\ 0 & \mathrm{if\ } otherwise. \\ \end{array} \right. \end{equation} 電路被拒絕的個數即為一種伯努利隨機變數。 #### 機率質量函數 \begin{equation} P_X(x) = \left\{ \begin{array}{cc} 1-p & \mathrm{if\ } x=0, \\ p & \mathrm{if\ } x=1, \\ 0 & \mathrm{if\ } otherwise. \\ \end{array} \right. \end{equation} ($0\lt p\lt1$) #### 期望值&變異數 $E[X]=p$ > 證明: > > $E[X]=0 \cdot P_X(0)+1\cdot P_X(1)=0(1-p)+1(p)=p$ $Var[X]=p(1-p)$ ### 二項式隨機變數(Binomial Random Variable) 當我們有一串長度是 $n$ 的伯努利試驗結果(成功機率為 $p$),成功的次數即為一個二項式隨機變數。也就是伯努利隨機變數其實是二項式隨機變數在 $n=1$ 的特例。 #### 舉例:檢查電路 一串長度為 $n$ 的獨立測試,每個電路被拒絕的機率都是 $p$。$K$ 是 $n$ 個試驗中被拒絕的個數,找出 $P_K(k)$。 定理: $n=n_0+n_1$,其中 $n_0$ 是失敗次數,$n_1$ 是成功次數的獨立試驗中,機率為: $P[E_{n_0,\ n_1}]=\binom{n}{n_1} (1-p)^{n-n_1}p^{n_1}=\binom{n}{n_0} (1-p)^{n_0}p^{n-n_0}$ 例如:找出五次獨立試驗中,兩次失敗而三次成功的機率(單次成功機率為 $p$),答案會是 $P[E_{2,\ 3}]=\binom{5}{3} (1-p)^{2}p^{3}$ 所以套用上面的定理,$P_K(k)$ 會是 $\binom{n}{k}p^k(1-p)^{n-k}$。 #### 機率質量函數 $P_X(x)= \binom{n}{x}\ p^x\ (1-p)^{n-x}$ ($0<p<1,\ n 是整數且 n\ge1$) #### 期望值&變異數 $\mu = np$ $\sigma^2 = np(1-p)$ --- ## [4] 連續型隨機變數(Continuous Random Variables) ![](https://i.imgur.com/SQu4zQM.jpg) 想像一個例子,一個指針在平衡的轉盤上,如果以 $X$ 代表指針在圓周上長度的比例,則這個 $X$ 可能會是 $0$ 到 $1$ 之間任何一個數,有無限多種可能。 有些機率很好找,譬如落在 $\frac{1}{4}$ 圓到 $\frac{3}{4}$ 圓的機率是 $P[0.25 \le X \le 0.75]=0.5$,因為這佔半個圓周。 但有些就會有點困難了,例如 $P[X=0.5]$,因為 $X$ 可能的值有無限多個,而每個值機率恰相等,所以 $X=0.5$ 的機率是 $0$。其他值的狀況也類似,也就是說,對於任何 $x\in S_X,P[X=x]=0$ ### 累積分布函數(Cumulative Distribution Function, CDF) $F_X(x)=P[X\le x]$ #### 定理 對於任何隨機變數 $X$, 1. $F_X(-\infty)=0$ 2. $F_X(\infty)=1$ 3. $P[x_1\lt X\le x_2]=F_X(x_2)-F_X(x_1)$ ### 機率密度函數(Probability Density Function, PDF) $f_X(x)=\frac{dF_X(x)}{dx}$ #### 舉例:轉盤 在前面轉盤的例子中,我們可以得出在轉周長為 $1$ 的轉盤的時候,$CDF$ 是這樣: $\begin{equation} F_X(x) = \left\{ \begin{array}{cc} 0 & \mathrm{if\ } x\lt 0, \\ x & \mathrm{if\ } 0\le x \lt 1, \\ 1 & \mathrm{if\ } x \ge 1. \\ \end{array} \right. \end{equation}$ 停在 $x<0$ 或$x\le 1$的地方機率是0,而停在中間的可能性是均勻分布的,所以畫成圖形會是左邊這樣。而根據定義,$PDF$ 會是 $CDF$ 圖形的斜率,在這個例子中是 $1$,畫成圖形會是右邊這樣。 ![](https://i.imgur.com/eGeuGg2.jpg) 如果轉盤長度增加為 $2$,$CDF$ 和 $PDF$ 也會隨之改變。 ![](https://i.imgur.com/1CYPvTa.jpg) 在均勻分布的條件下,$PDF$ 的值會隨著可能區間長度的增加而減少。 #### 定理 對於一個有著 $PDF\ f_X(x)$ 的連續型隨機變數 $X$, 1. $f_X(x)\le 0 \ for\ all\ x$ 2. $F_X(x)=\int_{-\infty}^x f_X(u) \mathrm{d} u$ 3. $\int_{-\infty}^{\infty} f_X(x) \mathrm{d} x=1$ #### 定理 $P[x_1\lt X\le x_2]=\int_{x_1}^{x_2} f_X(x) \mathrm{d} x$ > 證明: > > $\begin{aligned} P[x_1 \lt X \le x_2]&=F_X(x_2)-F_X(x_1) \\\\&=\int_{-\infty}^{x_2} f_X(x) \mathrm{d} x-\int_{-\infty}^{x_1} f_X(x) \mathrm{d} x \\\\&=\int_{x_1}^{x_2} f_X(x) \mathrm{d}x\end{aligned}$ ![](https://i.imgur.com/Jt7tBWm.jpg) 其實簡單而言,上面計算的 $P[x_1\lt X\le x_2]$ 就是這個函數從 $X=x_1$ 到 $X=x_2$ 的面積。 #### 期望值&變異數 $\mu = \int_{-\infty}^{\infty} xf_X(x) \mathrm{d} x$ $\sigma^2 = \int_{-\infty}^{\infty} (x-\mu )^2f_X(x) \mathrm{d} x$ 其實跟離散型隨機變數的期望值和變異數型式差不多,只是從總和(離散)變成積分(連續)。 ### 常態分布(Normal Distribution) #### 機率密度函數 $f_X(x)=\frac{1}{\sqrt {2\pi \sigma^2}}e^{-(x-\mu )^2/2\sigma ^2}$ ($ \mu 可以是任何實數,\sigma \gt 0$) #### 期望值&變異數 $E[X] = \mu$ $Var[X]=\sigma^2$ #### 標準化 $z=\frac{x-\mu }{\sigma}$ 會把平均數 $\mu$、標準差 $\sigma$ 的常態隨機變數,變成平均數 $0$、標準差 $1$ 的標準常態隨機變數。 #### 計算面積 要計算標準常態分布底下的面積,我們可以用到之前學的累積分布函數。 累積分布函數 $F_X(x)$ 我們用 $\Phi(\frac{x-\mu}{\sigma})$ 表示。 則在 $(a,b]$ 區間的機率是: $P[a \lt X \le b]=\Phi(\frac{b-\mu }{\sigma})-\Phi(\frac{a-\mu }{\sigma})$ ![](https://i.imgur.com/UHEVfQg.jpg) #### 定理 $\Phi (-z)=1-\Phi (z)$ (這可以由圖表觀察的出來。) ![](https://i.imgur.com/nCmc95j.jpg) #### 舉例:考試 假設你考了 $x=46$ 分,而這場考試的平均是 $61$ 分,標準差是 $10$ 分。用標準常態隨機變數表示你的考試成績。 $z=\frac{(46-61)}{10}=-1.5$,因此你的分數比期望值低上 $1.5$ 個標準差。 #### 經驗法則(Empirical Rule) 在常態分佈中,距離平均值一個標準差以內的比例是 $68\%$,距離兩個標準差以內的比例是 $95\%$,距離三個標準差以內的比例是 $99.7\%$。 --- ## [5] 信賴區間 ### 中央極限定理(Central Limit Theorem) 如果我們從一個平均數為 $\mu$,標準差為 $\sigma$ 的母體,抽取大小為 $n$ 的隨機樣本,當 $n$ 越來越大時 $\bar X$ ($\bar X=\frac{X_1+X_2+...+X_n}{n}$)會接近平均數為 $\mu$,標準差為 $\frac{\sigma}{\sqrt n}$ 的常態分佈。 如此則有: $P[a\lt X \le b]\approx P(\frac{a-\mu }{\sigma/n} \lt Z \le \frac{b-\mu }{\sigma/n})$ ### 母體平均數的信賴區間 當 $n$ 夠大的時候,樣本平均數的分布會近似常態分佈,因此: $\begin{aligned} 0.95&=P(-1.96 \le z \le 1.96) \\\\&=P(-1.96 \le \frac{x-\mu}{\sigma(\bar X)}\le 1.96)\end{aligned}$ ![](https://i.imgur.com/Vs1tke0.jpg) | 信心水準 | 對應的$\alpha$ | $z_{\alpha/2}$ | -------- | -------------- | ------------------ | |90|0.10| $z_{0.05 }=1.645$| |95|0.05| $z_{0.025}=1.960$| |99|0.01| $z_{0.005}=2.576$| $\bar X \pm z_{\alpha/2}\sigma/\sqrt n$ 稱為 $100(1-\alpha)%$ 信賴區間 #### 舉例 $n=10,\ \bar X =19.3,\ and\ \sigma=3$ 母體平均數 $90\%$ 信賴區間 $19.3 \pm 1.645\frac{3}{\sqrt 10}=19.3 \pm1.56$ 母體平均數 $95\%$ 信賴區間 $19.3 \pm 1.960\frac{3}{\sqrt 10}=19.3 \pm1.86$ 母體平均數 $99\%$ 信賴區間 $19.3 \pm 2.576\frac{3}{\sqrt 10}=19.3 \pm2.44$ --- ###### tags: `ckefgisc23rd`