# 一、敘述統計學 ###### tags: `統計學` **敘述統計學**做的事情是「描述或總結觀察量的基本情況」,其內容包含: - 製作圖表(略); - 分析數據:集中趨勢、分散趨勢、分布形態; - 描述個別值的相對位置:相對量數、標準分數。 ## 1.1 集中趨勢量數 ### 1.1.1 算術平均數 把變數 $X$ 個別值定義為 $X_i$,則**算數平均數**(簡稱**平均數**)定義為 $$\mu = \overline{X}=\frac{1}{n}\sum^n_{i=1}X_i.$$ - 由一群**母體**中 *用某種方式* 抽取一些**樣本**。上式使用於母體數據時,$N$ 代表**母體大小**,使用於樣本數據時,$N$ 代表**樣本大小**。 - 為便於區分,**樣本平均數**常用 $\overline{X}$ 表示,**母體平均數**常用 $\mu$ 表示。 - 實務上,甚少作 $100\%$ 檢驗,母體平均數 $\mu$ 是無法窮盡獲得的量數,而必須採用抽樣檢驗,計算樣本平均數 $\overline{X}$。 - Excel 函數 [`AVERAGE`](https://reurl.cc/Gm4eyv)、[`AVERAGEIF`](https://reurl.cc/nor7WD)、[`AVERAGEIF`](https://reurl.cc/ogr0Oj) ### 1.1.2 加權平均數 在算數平均數的計算過程中增加一個**權數** $W_i$ 來進行加權,則可定義**加權平均數**,如下:$$\overline{X}_W = \frac{\sum^N_{i=1}W_iX_i}{\sum^{N}_{i=1}W_i}=\sum^{N}_{i=1}P_iX_i,$$ 其中 $P_i = \frac{W_i}{\sum^N_{i=1} W_i}$ 稱為權數的比重,且滿足 $\sum^N_{i=1} P_i = 1$。 當 $X$ 為離散隨機變數,則$P_i$ 稱為 $X = X_i$ 的機率,上述定義的加權平均數也叫做**期望值**,記為 $E(X)$。 在Excel中可利用函數 [`SUMPRODUCT`](https://reurl.cc/vq0kMy) 計算加權平均數,參考[所有方法](https://reurl.cc/VEN8dY)。 ### 1.1.3 幾何平均數 **幾何平均數**定義為$$\overline{X}_G =\sqrt[N]{\prod^N_{i=1}X_i}=\sqrt[N]{X_1X_2\cdots X_N},$$ 多用於比率資料,如速率、成長率、良率等。Excel 函數 [`GEOMEAN`](https://reurl.cc/vq0kzL) ### 1.1.4 調和平均數 **調和平均數**定義為$$\overline{X}_H =\left(\frac{1}{N}\sum^N_{i=1}\frac{1}{X_i}\right)^{-1}=\frac{N}{\frac{1}{X_1}+\frac{1}{X_2}+\cdots+\frac{1}{X_N}},$$ 用於並聯電阻的阻值計算、約化質量的計算。Excel 函數 [`HARMEAN`](https://reurl.cc/kZrlA3) ### 1.1.5 中位數 等於 $P_{50}$、第二四分位數 Excel 函數 [`MEDIAN`](https://reurl.cc/MA4RpL) ### 1.1.6 眾數 **眾數**就是一組數據中出現次數最多的數據值。 Excel 函數 [`MODE`](https://reurl.cc/qgrkxy) - 在離散機率分布中,眾數是指機率質量函數有*最大值* 的數據。 - 在連續機率分布中,眾數是指機率密度函數有*最大值* 的數據。 - 對於離散型均勻分布來說,所有的點都是眾數。 - 機率密度函數有數個峰(局部最大值)者,稱為**多峰分布**。多峰分布的所有峰值都稱為眾數 - 有兩個峰的稱為**雙峰分布**。 - 機率密度函數只有單一局部最大值者,稱為**單峰分布**。 - 對稱單峰分布(例如常態分布)的眾數和平均數、中位數會重合。 ![](https://i.imgur.com/ST3ccID.png) ## 1.2 分散趨勢量數 ### 1.2.1 全距 **全距**是一組數據最大值與最小值之差 $$\text{Range} = X_\max - X_\min.$$ ### 1.2.2 四分位距與四分差 **四分位距**是第三四分位數 $Q_3$ 與第一四分位數 $Q_1$ 的差:$$\text{IQR}=Q_3-Q_1.$$ **四分差**是之算術平均四分位距的一半:$$\text{QD}=\frac{Q_3-Q_1}{2}.$$ ### 1.2.3 平均差 個別值 $X_i$ 的**離均差**定義為 $X_i - \overline{X}$。 **平均差**則定義為「離均差絕對值的平均」 $$\text{MD}=\frac{\sum\left|X_i - \overline{X}\right|}{N}.$$ 平均差對於極端值的偵測比較不敏銳 ### 1.2.4 變異數與標準差 離均差的**平方和**為 $$\text{SS}=\sum^N_{i=1}\left(X_i - \mu\right)^2,$$ 另一計算公式為 $$\begin{align}\text{SS}=\sum^N_{i=1}\left(X_i-\mu\right)^2 &= \sum^N_{i=1}\left(2x_i^2-2X_i\mu+\mu^2\right)\\&=\sum^N_{i=1}\left(X_i^2\right)-2\mu\sum^N_{i=1}\left(X_i\right)+N\mu^2\\&=\sum^N_{i=1}\left(X_i^2\right)-2N\mu^2+N\mu^2\\&=\sum^N_{i=1}\left(X_i^2\right)-N\mu^2.\end{align}$$ **變異數**定義為「離均差平方的平均」: $$\text{Var}(X)=\sigma^2=\frac{\text{SS}}{N}=\frac{\sum^N_{i=1}\left(X_i - \mu\right)^2}{N};$$ 變異數的另一種計算公式為 $$\sigma^2=\frac{1}{N}\left(\sum^N_{i=1}X_i^2\right)-\mu^2.$$ **標準差**定義為 「離均差平方的平均再開根號」:$$\sigma=\sqrt{\frac{\text{SS}}{N}}=\sqrt{\frac{1}{N}\sum^N_{i=1}\left(X_i-\mu\right)^2};$$ 標準差的另一種計算公式為 $$\sigma=\sqrt{\frac{1}{N}\left(\sum^N_{i=1}X_i^2\right)-\mu^2}.$$ - 注意:==樣本變異數(或標準差)不是母體(或標準差)的[**不偏估計**](https://reurl.cc/0j96Qo)==,因為樣本來計算變異數(或標準差),會出現低估的情形。 - 為了改善這點,樣本變異數需改以下式計算:$$s^2=\hat{\sigma}^2=\frac{\text{SS}}{N-1}=\frac{\sum^N_{i=1}\left(X_i - \mu\right)^2}{N-1},$$ 樣本標準差需改以下式計算:$$s=\hat{\sigma}=\sqrt{\frac{\text{SS}}{N-1}}=\sqrt{\frac{\sum^N_{i=1}\left(X_i - \mu\right)^2}{N-1}}.$$ - 以上公式中的分母 $N-1$ 是**自由度**。在離均差的計算上,自由度為樣本數減 $1$。對於小樣本而言,自由度的影響非常明顯。 - 標準差的使用時機 ![](https://i.imgur.com/L9IGfEX.png) ### 1.2.5 變異係數 單位對於離散量數的放大作用,可利用**變異係數**(或稱**相對標準差**)來消除,其定義為 $$\text{CV}=\frac{s}{\overline{X}}$$ ## 1.3 分布形態 ### 1.3.1 偏態 **偏態**可以描述數據分布的對稱性。依方向可分為**負偏態**(左偏,左側有偏離值)、**正偏態**(右偏,右側有偏離值)、與**對稱**(常態)三種情形。 ![](https://i.imgur.com/kY8mgNR.png) 負偏態與地板效應有關,天花板效應與正偏態與有關。 樣本偏態係數的一種計算公式為 $$\text{Skewness}=g_1=\frac{\frac{1}{N}\sum^N_{i=1}\big(X_i-\overline{X}\big)^3}{\left[\frac{1}{N}\sum^N_{i=1}\big(X_i-\overline{X}\big)^2\right]^{3/2}}$$ ### 1.3.2 峰度 **峰度**可以描述數據集中部分的陡峭成度。 ![](https://i.imgur.com/FUM7XoB.png) 樣本峰度係數的一種計算公式為 $$\text{Kurtosis}=g_2=\frac{\frac{1}{N}\sum^N_{i=1}\big(X_i-\overline{X}\big)^4}{\left[\frac{1}{N}\sum^N_{i=1}\big(X_i-\overline{X}\big)^2\right]^2}-3$$ ## 1.4 動差 數學上所謂的**動差**源自物理學中的**矩**。在實數體 $\mathbb{R}$ 上的實連續機率密度函數 $f(x)$ 相對於值 $c$ 的 $n$ 階矩就定義成積分式 $$\boxed{\mu_n = \int^\infty_{-\infty}(x-c)^n f(x)\text{d}x.}$$ 相對於 $0$ 的矩稱為**原動差**,相對於平均數的矩稱為**中心動差**。 1. ==期望值是一階原動差==: $$E(x)=\int^\infty_{-\infty}x f(x)\text{d}x.$$ 例如量子力學中,對於狀態 $\Psi$ 的粒子, 位置 $x$ 的期望值為 $$\langle x\rangle = \langle \Psi|x|\Psi\rangle = \int^\infty_{-\infty}x|\Psi|^2\text{d}x.$$ 粒子動量 $p$ 的期望值為 $$\langle p\rangle = m\dfrac{\text{d}\langle x \rangle}{\text{d}t}= \left< \Psi\middle|\frac{\hbar}{i}\frac{\partial}{\partial x}\middle|\Psi\right> = \int^\infty_{-\infty}\Psi^*\left(\frac{\hbar}{i}\frac{\partial}{\partial x}\right)\Psi\text{d}x.$$ 2. ==質心是質量分布的一階原動差==:$$\mathbf{x}_\text{CM}=\iiint \mathbf{x}\rho(\mathbf{x}) \text{d}V,$$其中 $\mathbf{x}$ 是位置向量, $\rho(\mathbf{x})$ 是質量密度分布,$\text{d}V$ 是體積元素。 3. ==變異數是機率分布的二階中央動差==:$$\text{Var}(x)=\int^\infty_{-\infty}(x-\mu)^2 f(x)\text{d}x.$$ 4. ==轉動慣量質量分布的二階原動差==:$$\mathbf{I}=\iiint \left(|\mathbf{x}|^2\mathbf{E}_3-\mathbf{x}\otimes\mathbf{x}\right) \rho(\mathbf{x}) \text{d}V,$$ 其中 $\mathbf{x}$ 是位置向量, $\mathbf{E}_3$ 是三階單位矩陣,$\otimes$ 是張量積,$\rho(\mathbf{x})$ 是質量密度分布,$\text{d}V$ 是體積元素。 5. ==偏態是機率分布的三階中央動差==:$$\text{S}(x)=\int^\infty_{-\infty}(x-\mu)^3 f(x)\text{d}x.$$ 6. ==峰態是機率分布的四階中央動差==:$$\text{S}(x)=\int^\infty_{-\infty}(x-\mu)^4 f(x)\text{d}x.$$ ## 1.5 相對量數 ### 1.5.1 百分等級與百分位數 Excel 函數 `PERCENTRANK` Excel 函數 `PERCENTILE` ### 1.5.2 四分位數 第一百分位數 $Q_1=P_{25}$ 第二百分位數 $Q_2=P_{50}=\text{Mdn}$ 第三百分位數 $Q_3=P_{75}$ Excel 函數 `QUARTILE` 同理,也可定義十分位數⋯⋯ ## 1.6 標準分數 將一組線性數據轉換成不具單位、集中性的**標準化**(物理學稱**歸一化**)分數 ### 1.6.1 $z$ 分數 將原始分數減去平均數,再除以標準差,即得 **$z$ 分數**。對於樣本數據,$$z=\frac{X-\overline{X}}{s},$$對於母體數據,$$z=\frac{X-\mu}{\sigma}.$$ - $z$ 分數的平均數平移至 $0$,單位消失,標準差為 $1$。 - 「轉換後為 $z_i$ 值」代表「原始數據 $X_i$ 與平均數 $\overline{X}$ 相距 $|z_i|$ 個標準差」。 - $z$ 分數不會改變分布形態。 - 如果某一變數服從常態分布,則其 $z$ 分數也服從常態分布,稱為稱為**標準常態分布**。 ![](https://i.imgur.com/ILDpnUG.png) $P(-1 \le z \le 1) = .6826 = 68.26\%$ $P(-2 \le z \le 2) = .9544 = 95.44 \%$ $P(-3 \le z \le 3) = .9974 = 99.74 \%$ Excel 函數 [`NORMDIST`](https://reurl.cc/pgr5nQ) 可找出機率值。 ### 1.6.2 $T$ 分數 因為 $z$ 分數多介於 $\pm3$ 之間,計算時多半有一至二位的小數點,再加上低於平均數的 $z$ 分數帶有負號,實際使用上較為不便,因此在教育與測驗領域中,常使用 **$T$ 分數**,其定義為 $$T=50+10z.$$ ## 詞彙中英對照 描述統計學 descriptive statistics 樣本, sample 樣本大小, sample size 樣本平均數, sample mean 樣本標準差, sample standard deviation 母體, population 母體大小, population size 母體平均數, population mean 集中趨勢, central tendency 分散趨勢, dispersion 集中趨勢量數, measures of central tendency 平均數, mean (M) 算術平均數, arithmetic mean (AM) 期望值, expected value 加權平均數, weighted mean 權數, weight 幾何平均數, geometric mean (GM) 調和平均數, harmonic mean (HM) 矩、動差, moment $n$ 階矩, $n$-th moment 原動差, raw moment 中央動差, central moment 中位數, median 四分位數, quartile 眾數, mode 離散型均勻分布, discrete uniform distrubution 單峰性, unimodality 單峰分布, unimodal distrubution 雙峰分布, bimodal distrubution 多峰分布, multimodal distrubution 分散趨勢量數, measures of dispersion 全距, range 四分位距,interquartile range (IQR) 四分差, quartile deviation (QD) 離均差, deviation from mean 平均差, mean deviation 平方和, sum of square (SS) 變異數, variation 標準差, standard deviation (SD) 母體標準差, population standard deviation 不偏估計數, unbiased estimator 變異係數, coefficient of varation (CV) 相對標準差, relative standard deviation (RSD) 標準誤, standard error (SE) 樣本平均數的標準誤, standard error of the sample mean (SEM) 分布形態, shape of distribution 偏態, skewness 負偏態、左偏態, negative skew 正偏態、右偏態, positive skew 峰度, kurtosis 高狹峰, leptokurtic 低闊峰, platykurtic 常態峰, mesokurtic 相對量數, measures 百分等級, percentile rank (PR) 百分位數, percentile point 四分位數, quartile 十分位數, decicile 標準分數, standard score 標準化、歸一化, normalized