![Statistics2](https://hackmd.io/_uploads/Bkx9XZTkAC.png) > KGJ0717(柯俊杰)開始撰寫於 2024 年 9 月 19 日。 複習一下上一回 **[統計學(一)統計學簡介與計次方法](https://hackmd.io/@KGJ0717/SkEyIRhYR)** 提到的重要觀念。 1. **定性敘述的質化資料** 可以分成 **項目資料** 與 **順序資料**;而 **定量測量的量化資料** 可以分成 **離散資料** 與 **連續資料**。 2. 利用 Sturges 公式($K\approx1+3.322.log_{10}n$)計算最適合的組數,並計算組距($CI=\frac{Max-Min}{K}$),定義好組上界值、組下界值,並計算組中值 3. 將大批資料進行分組後,計算每組次數後整理成 **次數分配表** 或 **枝葉圖** 以簡化資訊。 4. **長條圖** 用以圖形化非連續性資料,組與組之間有空隙。 5. **直方圖** 用以圖形化連續性資料,組與組之間沒有空隙。 6. **圓餅圖** 用以圖形化每組資料的占比(**相對次數**)。 7. **折線圖** 製作 **次數多邊形圖** 及 **肩形圖**。 8. **列聯表** 將二維質化資料同時展示。 9. **群組長條圖** 與 **堆疊長條圖** 用來將二維質化或是質化-量化資料視覺化。 10. **散布圖** 用來將二維量化資料同時展示,後續分析二維資料的重要統計圖。 --- 這一回會利用的例子為一個對於大學生初戀年紀的統計資料。 | Label | Age | Label | Age | Label | Age | Label | Age | |:-----:|:---:|:-----:|:---:|:-----:|:---:|:-----:|:---:| | 1 | 15 | 14 | 17 | 27 | 14 | 40 | 21 | | 2 | 12 | 15 | 15 | 28 | 16 | 41 | 17 | | 3 | 17 | 16 | 14 | 29 | 18 | 42 | 17 | | 4 | 14 | 17 | 9 | 30 | 19 | 43 | 22 | | 5 | 11 | 18 | 11 | 31 | 20 | 44 | 16 | | 6 | 10 | 19 | 12 | 32 | 26 | 45 | 17 | | 7 | 17 | 20 | 16 | 33 | 21 | 46 | 18 | | 8 | 18 | 21 | 17 | 34 | 23 | 47 | 14 | | 9 | 22 | 22 | 15 | 35 | 24 | 48 | 13 | | 10 | 13 | 23 | 17 | 36 | 24 | 49 | 11 | | 11 | 14 | 24 | 17 | 37 | 25 | 50 | 12 | | 12 | 15 | 25 | 16 | 38 | 13 | 51 | 18 | | 13 | 16 | 26 | 15 | 39 | 18 | | | # 敘述統計學 **敘述統計學(descriptive statistics)** 是最古老的統計學發展,用於整理、摘要樣本的統計結果,以利後續的分析。其手段包含第一章節所提的 **統計圖表(Statistical chart)** (本章節也會提到一些),以及本章節所要提及的 **統計量(statistic)**。 敘述統計學中,包含許多 **摘要統計量(summary statistics)** ,在這一回中僅會提到最常使用也相較基礎的兩類: * **均量**:用於 **中心位置(central location)** 的測定,也被稱為 **中央趨勢量數**: * 眾數(mode) * 中位數(median) * 算術平均數(arithmetic mean) * 平方平均數(quadratic mean)或方均根(root mean square,RMS) * 幾何平均數(geometric mean, $G$) * 調和平均數(harmonic mean, $H$) * **差量**:又稱為 **差異量數** 或 **離中趨勢量數**、**分散趨勢量數** 等,用於資料 **分散度(dispersion)** 的測定: * 全距(range, $R$) * 四分位距(interquartile range, $IQR$) * 四分位差(quartile deviation, $QD$) * 離均差、離差、偏差、距平(deviation) * 標準差、標準偏差、均方差(standard deviation, $SD$, σ) 這一回將會重新介紹這些 **統計量**,用以喚醒讀者過去的記憶,或從中學習新的知識。 # 最大出現情況 在統計結果中,有些情況會不斷出現,例如統計學生的戀愛關係,"**單身**"可能就會不斷出現;統計飲食習慣時,"**葷食**"往往是最多人選擇的答案;在選舉時更是如此,最終獲選的人一定是最多人投票的候選人。 ### 眾數(mode) 而能夠代表統計結果中,最多數人(大眾)的選擇,就稱為 **眾數**。 不論是質化資料或是量化資料,都可以計算出其 **眾數**,但要特別注意的是,**質化資料通常只有眾數這一項測定中心位置的統計量**。 只要利用一開始所學的 **次數分配表** 就可以輕易看出哪一個 **群組/類別** 擁有最多的出現次數。當然,繪製成 **長條圖**、**直方圖** 或 **圓餅圖**,能夠更直觀地體現出眾數所佔據的比例。 而且,**一筆統計結果中並非只有一個眾數**,若兩個組別出現的次數一樣都是最多,那麼此統計結果將擁有兩個眾數。 再繼續仔細思考也會發現,眾數其實不能夠有效地用來描述整個統計結果,有時候統計結果集中在少數幾個選項上,但是僅有最高的被選為眾數,如此一來將會忽略掉其他次高的選項。因此針對統計結果的分布作探討才是更完整、更有討論度的做法。 # 分割量化資料 在第一回中提到的 **肩形圖** 中,可以體現該統計結果的分布情形。若想要依照固定的數量來分割統計結果的分布,則可以在累計相對次數上引入 **分位數** 的概念。也就是利用資料占比的數量來進行等分,通常會先將量化資料由小到大排序,再計算出每組的數量,就可以定義出用來分組的標準線,也就是分位數。最中間的分位數則稱為 **中位數(Median)**,代表資料正中間的數值。利用分位數來分割資料可以準確掌握資料的出現數量。 * 在國家政策中,為了就會利用人均所得中位數來訂立中收入戶家庭的門檻。 * 考試制度中也利用分位數來作為標準,常聽到的學測五標就是如此,頂標($P_{88}$)、前標($P_{75}$)、均標($P_{50}$)、後標($P_{25}$)、底標($P_{12}$)。 * 某些健康體能標準也是利用中位數來設立,以避免極端值的影響。 ### 百分位數(percentile) 上面的文字敘述可能難以看懂,接下來看看公式會更了解要怎麼計算。以 **百分位數** 而言,若要計算第 k 百分位數($P_k$),首先要計算這是屬於由小到大排序的第幾個數,因此利用資料總數 $N$ 乘上 $k$ 除掉 $100$(因為是百分位數),得到的值 $N*k/100$ 若不是整數,則無條件進位到個位數(記為 $i$),此時全部資料由小到大排序的第 $i$ 個數所代表的值就是第 $k$ 百分位數;若 $i=N*k/100$ 恰好是整數,則第 $k$ 百分位數為第 $i$ 與第 $i+1$ 個數的平均值。 1. 先計算 $i=N*k/100$ 2. 若 $i$ 非整數,無條件進位到個位數為 $j$,$P_k = d_j$. 3. 若 $i$ 是整數,則 $P_k = (d_i + d_{i+1} )/2$ ### 四分位數(Quartile) 百分位數的分類較細緻,但如果要快速分析統計結果的特徵,通常會用 **四分位數** 來進行分析。第 1 四分位數($Q_1$)就是第 25 百分位數。以本章節的範例而言,$51$ 筆資料乘上 $1/4$ 等於 $12.75$,非整數因此無條件進位到整數 $13$,將資料由小到大排序的第 $13$ 個數值為 14,因此 $Q_1=14$。同理可以計算出 $Q_2=16$、$Q_3=18$。 1. 先計算 $i=N*k/4$ 2. 若 $i$ 非整數,無條件進位到個位數為 $j$,$Q_k = d_j$. 3. 若 $i$ 是整數,則 $Q_k = (d_i + d_{i+1} )/2$ ### 盒鬚圖 / 盒狀圖(box plot) 要將資料分割圖形化,最常利用的方式就是計算四分位數後繪製 **盒狀圖**,基礎的盒狀圖繪製需要有整個資料的最小值($Min$)、3 個四分位數($Q_1, Q_2, Q_3$)及最大值($Max$)。以 $Q_1$ 及 $Q_3$ 繪製盒子的邊界,將 $Q_2$ 標示在盒子中;盒子外的部分則用最小值($Min$)與最大值($Max$)分別繪製兩個短棒,連線到盒子上(如下圖所示)。 ![ex00_box](https://hackmd.io/_uploads/Bk_QQSFaA.png) 此圖中會有一半的資料在盒子內,若盒子很小,表示資料高度集中在一範圍;盒子外的資料也占據一半,若兩側的長短不一致,顯示統計結果的分布並不對稱。 ### 離群值(Outlier) 但基礎的圖僅適用於資料相對集中的情況。在統計分析之中,有時候會遇到絕大部分資料分布很集中,但少數資料卻偏離群體的 **離群值**。此時作圖過程需要稍作更改,必須先計算 **四分位距(interquartile range, $IQR=Q_3-Q_1$)**,此數值為盒子的長度,也就是第 1 與第 3 四分位數的差,此值的一半被稱為 **四分位差(quartile deviation, $QD=\frac{Q_3-Q_1}{2}$)**。與之相對的是 **全距(range,$R=Max-Min$)**。 通常定義離群值為超出盒子範圍1.5倍IQR的資料。換言之,需要計算 $Lower=Q_1-1.5*IQR$ 的數值,並與 $Min$ 比較,若 $Min$ 比 $Lower$ 小,則將 $Min$ 的短棒改成標示在 $Lower$ 的位置,超出這段範圍的就是離群值,用空心圓圈表示。同理,利用 $Upper=Q_3+1.5*IQR$ 與 $Max$ 來改變另外一側的離群值決定範圍(如下圖所示)。 ![ex00_box2](https://hackmd.io/_uploads/ry8U_SFpR.png) 綜合上述各種不同的統計作圖方式,筆者將直方圖、累計相對次數折線圖、盒狀圖都繪製在一起,即可以快速體現出不同作圖方式的特點。其中 $Q_1=14$、$Q_2=16$、$Q_3=18$、$IQR=4$、$Min=9$、$Max=26$、$Mode=17$。 ![ex02](https://hackmd.io/_uploads/BJxLu5SYTA.png) ### **群組盒狀圖(grouped box plot)** 當然,若想要包含其他質化資料的分類,也可以繪製 **群組盒狀圖** ![ex02.groupedbox](https://hackmd.io/_uploads/ByQ_F6yCA.png) ### **小提琴圖(violin plot)** 另外還有 **小提琴圖** 可以用來更加視覺化地表現出統計結果的變化趨勢,看起來會有直方圖的感覺,但更加平滑一些。有些統計圖中會將 **小提琴圖** 中間加上盒狀圖的資訊,使其可以表現更多資料。 ![ex02.groupedviolinplot](https://hackmd.io/_uploads/BJW7n61CR.png) # 統計結果的均衡點 在分布上,統計結果可能會側重在高數值或是低數值的一方,此時就需要有能夠衡量統計結果均衡點位置的方式。這個側量均衡的方式就是 **平均數(Mean, Average)**,這是統計學中最常用的測度(測量方法)之一。以下將介紹算術平均數、加權平均數、平方平均數、幾何平均數、調和平均數等 5 種常見的平均數。 ### 算術平均數(arithmetic mean) 最常見的平均數計算方式,通常也簡稱為 **平均數(Mean, Average)**,其公式如下: ${\displaystyle {\bar {x}}={\frac {\sum _{i=1}^{n}x_{i}}{n}}={\frac {x_{1}+x_{2}+\cdots +x_{n}}{n}}}$ 然而,**算術平均數非常容易受到極端值的影響**,此時利用四分位距($IQR$)的方法來將離群值判定為極端值,並且從樣本中去除掉,就是一個常見的手段。 ### 加權平均數(weighted arithmetic mean) 加權平均數通常指的是加權算術平均數,可以說是算術平均數的一種更廣義的表現形式。可以根據使用者對於不同資料點的信任程度或希望該資料點被凸顯的程度來給予 **權重(weighting, $w_{i}$)**。權重越重,加權算術平均數越傾向於該資料點的數值,其公式如下: ${\displaystyle {\bar {x}}={\frac {\sum _{i=1}^{n}w_{i}x_{i}}{\sum _{i=1}^{n}w_{i}}}={\frac {w_{1}x_{1}+w_{2}x_{2}+\cdots +w_{n}x_{n}}{w_{1}+w_{2}+\cdots +w_{n}}}}$ 透過改變權重,加權算術平均數可以變成許多不同數值,所以給定權重的方式就很重要了!如果權重通通都是 $1$,那麼加權算術平均數就會退化回原本的算術平均數。也可以透過給予離群值較低的權重來減輕極端值對整個樣本平均數的影響。 在生活中,國高中(甚至於大學)的**學期成績**就會利用每週上課節數來作為權重並計算而得,考取大學的時候也會有不同科目採計權重不一樣;高中物理所學的**質心位置**、**質心速度**或**質心加速度**也都是利用質點的質量作為權重所計算的加權算術平均數;高中化學中的**平均原子量**更是以同位素的莫爾分率作為權重所計算而得的加權算術平均數。 ### 平方平均數(quadratic mean)或方均根(root mean square,RMS) 有些特殊情況下,數值正負來回變動,其算術平均數可能接近於 $0$,但這並非研究者所希望的到的樣本估計。相較於實際數值到底是多少,來回震盪的幅度更是備受關注的資訊。因此透過將數值平方的方式,把正負號給拿掉之後再計算此平方數的平均值被稱為 **平方平均數(QM)** 或 **方均根**、均方根(因為一筆數據平方的算術平均數稱之為均方),公式如下: ${\displaystyle RMS={\sqrt {\sum _{i=1}^{n}x_{i}^{2} \over n}}={\sqrt {x_{1}^{2}+x_{2}^{2}+\cdots +x_{n}^{2} \over n}}}$ 由其特性與上面的敘述可知,來回震盪的波動訊號最常使用方均根來作為均衡點的估計。在高中物理的熱學中學過的氣體動力論中,就有出現平均動能與方均根速率的概念。 ### 幾何平均數(geometric mean) 對於成長率、衰減律等具有指數性變化特性的情況,算術平均數的計算框架並不符合實際情況,因此就必須引入 **幾何平均數** 的概念。幾何平均數定義為 $n$ 筆數據的乘積再開 $n$ 次方根,公式如下: ${\displaystyle G=\left(\prod _{i=1}^{n}a_{i}\right)^{\frac {1}{n}}={\sqrt[{n}]{a_{1}a_{2}\cdots a_{n}}}.}$ 由於幾何平均數的計算方式,它僅可以適用在全為正數的數據上。通常在社會科學與財務金融領域上出現,如計算人口成長、都市化、投資利率等。 ### 調和平均數(harmonic mean) 其定義為將資料取倒數後,計算算術平均數再取倒數,如下所示: ${\displaystyle H={\frac {n}{\sum _{i=1}^{n}{\frac {1}{x_{i}}}}}={\frac {n}{{\frac {1}{x_{1}}}+{\frac {1}{x_{2}}}+...+{\frac {1}{x_{n}}}}}.}$ 調和平均數出現的情況並不難想像,只要是與某特性為反比,則其均衡必須利用調和平均數來進行計算。 1. 靜力學中,阿特午機(Atwood machine)的張力 ${\displaystyle T={\frac {2m_{1}m_{2}}{m_{1}+m_{2}}}g}$(兩質量 $m_1$、$m_2$ 調和平均數)。 2. 電路學中,兩電阻 $R_1$、$R_2$ **並聯時的等效電阻值** 為 ${\displaystyle R_{eq}={\frac {R_{1}R_{2}}{R_{1}+R_{2}}}}$(兩電阻值 $R_1$、$R_2$ 調和平均數的一半) 3. 高中選修物理在碰撞的章節中提到的 **減簡質量/化約質量(reduced mass)** 為 ${\displaystyle \mu ={\frac {m_{1}m_{2}}{m_{1}+m_{2}}}}$(兩質量 $m_1$、$m_2$ 調和平均數的一半) 算術平均數(AM)、幾何平均數(GM)與調和平均數(HM)並稱為 **畢達哥拉斯平均(Pythagorean means)**,這三個平均數在幾何學、建築學與樂理上都有著重大的地位。高中曾學過的算幾不等式其實就是在比較算術平均數與幾何平均數的大小關係。若再推廣則可以得到 **畢達哥拉斯平均值不等式**,再推廣一次,便可以得到更為廣義的 **平均值不等式(QM-AM-GM-HM inequalities)** 如下所示: ###### 對於所有資料 $x_{i}$ 均為正數的情況下,${\displaystyle QM \geq AM\geq GM\geq HM\geq 0}$。 ###### 所有資料點數值 $x_{i}$ 均相同時,等號成立。 # 測定資料偏離中心的程度 除了先前提到對於資料分散程度可以使用的 **全距**、**四分位距**、**四分位差** 等。我們先將所有資料值減去中心位置(通常是用 **算術平均數**),得到 **偏差(離差、離均差、距平,deviation)** ${\displaystyle x_{i}-\mu }$。**偏差** 所構成的這筆新資料有正有負,其分散情況就代表著原本資料的分散情形,然而 **偏差的和必定為 $0$**,所以必須做點變化才能夠更好地估計資料的分散程度。 ### 平均偏差(mean deviation) 第一個想法就是將 **偏差** 取絕對值之後,再計算其 **算術平均值**,而此值被稱為 **平均偏差(平均絕對偏差、平均離差、平均差)**,意思是 **偏差的算術平均數**,公式如下: ${\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}\left\vert x_{i}-m(X)\right\vert }$ 但由於平均偏差難以推導其他更好用的性質,絕對值的計算無可避免,因此用處不多,很少使用。 ### 標準偏差(standard deviation) *卡爾·皮爾森* 想到另外一個去除負號的方法,那便是平方。因此將 **偏差** 平方後計算算術平均數再開平方根(也就是計算平均平方數 $RMS$),就會得到**標準偏差(標準差,SD, σ)**,其意義為 **偏差的方均根** 因此又稱為 **均方差**,公式如下: ${\displaystyle \sigma ={\sqrt {{\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-\mu )^{2}}}}$ 由於變異數在有了機率與誤差估計的觀念之後會更好了解其意義,因此在此僅提及用來描述資料分散程度的 **標準偏差**。 # 統計資料的線性變換 在高中的統計學中有學過所謂的線性變換,也就是將資料作伸縮、平移。舉例來說,若 $y_{i}=a x_{i}+b$,表示將原始資料 $x_i$ 伸縮 $a$ 倍,再將整組資料平移 $b$ 個單位。常見的線性變化有變換單位(伸縮)、成績送分(平移)等。 在資料通過線性變換之後,**摘要統計量** 的變化如下: * 均量:中心位置跟著一起線性變換。 * 眾數: $Mode_{y}=a.Mode_{x}+b$ * 中位數: $Median_{y}=a.Median_{x}+b$ * 算術平均數: $Mean_{y}=a.Mean_{x}+b$ * 差量:資料分散度僅伸縮,並不會平移。 * 全距:$R_{y}=|a|.R_{x}$ * 四分位距:$IQR_{y}=|a|.IQR_{x}$ * 四分位差:$QD_{y}=|a|.QD_{x}$ * 標準偏差:$σ_{y}=|a|.σ_{x}$ ### 資料標準化(data normalize) 如果想要橫跨不同的資料來做比較時,線性變換能使我們重新調整兩資料分布之間的關係。舉例來說,若我們要比較人的身高跟車的長度時,就會把兩者的單位都設置為公尺,用相同的單位來做比較。 然而若只是單位轉換,並不能真正地比較某一筆資料在兩群資料中的差異。因此必須同時評估資料的中心位置,以及資料群體對於中心位置的分散程度。 在此處,要介紹的資料線性變換的方式稱為 **標準化**,將資料點減去 **算術平均值** 後再除以 **標準偏差**,其意義為該資料點相對於中心位置的分散程度有多少,公式如下所示: ${\displaystyle z_{i}=\frac{x_{i}-\mu_{x}}{σ_{x}}}$ 如此一來,如果我們想比較同一個人在群體中到底是身高明顯地比較高,還是體重明顯地比較重,對於這種不同單位的資料,就可以利用標準化的手段來判斷該對象的數值有多麼偏離中心位置。 前面提到 **離群值(Outlier)** 的其中一種定義方式是利用 **四分位距 $IQR$**,另外一種定義方式則是利用 **標準化分數** 大於 2 或小於 -2,這表示該資料點偏離中心位置超過兩個標準差的分散程度。至於為什麼要這樣定義呢?這點會在後面的章節提到 **常態分布** 時,再仔細說明。 --- 這一回將敘述統計學中,最基本的數個統計量都介紹完畢,由於統計學所觸及的領域非常多樣化,所以某些統計量或許根本不常用到,不需要太執著於記住這些數值或公式,更重要的是透過範例解釋來理解這些統計量存在的意義與用途,只要多看、多想便能夠了解。 下一回,讓我們開始進入機率統計吧! ###### 下一回:[統計學(三)機率與隨機變數](https://hackmd.io/@KGJ0717/HkI8-mnaR)