![Statistics3](https://hackmd.io/_uploads/HkgqbQWC0.png) > KGJ0717(柯俊杰)開始撰寫於 2024 年 9 月 21 日。 複習一下前一回 **[統計學(二)統計結果的摘要](https://hackmd.io/@KGJ0717/BkyniQtaC)** 提到的重要觀念。 1. **敘述統計學** 利用 **統計圖表** 與 **摘要統計量** 來簡化、整理統計結果。但大部分的統計量只能用於量化資料,僅有 **眾數可以用在質化資料**。 2. 描述統計結果中心位置的摘要統計量為 **均量**,包含 **眾數**、**中位數**,以及各種 **平均數**。 3. 描述統計結果偏離中心位置的分散度的摘要統計量為 **差量**,包含 **全距**、**四分位距**、**四分位差**、**平均絕對偏差**、**標準偏差**。 4. 在將統計數據進行線性變換之後,**均量** 會跟著線性變換,而 **差量** 只受伸縮影響。 5. 資料標準化是透過 **將資料扣掉平均再除以標準偏差**(公式如下)來移除掉單位,讓不同度量衡的資料點可以相互比較。 ${\displaystyle z_{i}=\frac{x_{i}-\mu_{x}}{σ_{x}}}$ 6. **盒狀圖**、**小提琴圖** 也是量化資料中常見的統計圖! 7. **離群值** 會嚴重影響 **平均數** 的計算,可以透過 **四分位距** 或 **標準差** 來判定。 --- 在進入推論統計學之前,必須先學習 **機率論**,因為推論統計學必定會涉及 **抽樣**。為了確保樣本具有 **代表性**,通常會選擇 **簡單隨機抽樣**。而這種抽樣方法的理論基礎就是 **機率論**。 隨著 **機率論(probability theory)** 被完善,並且被加到統計學之中,更是現代統計學的重要根基。**機率論** 主要研究的對象為 **隨機** 過程,也就是一切跟隨著機率走,因此這一回將會從機率開篇論述,最後收尾再回到統計學。 # 機率論(probability theory) 現在的高中課綱中,有一個章節專門提及 **主觀機率(subjective probability)** 與 **客觀機率(objective probability)** 的分別。筆者認為此章節的設計並非為了教導機率論或統計概念,純粹是為了提升素養而設計的課程。**主觀機率** 只是一種心理感受,不論該人累積多少人生經驗、有過多少實驗記錄,或基於多少個正當且專業的理由,只要不透過實際的實驗、數學計算而得出來的數值,都僅僅只是被稱為 **主觀機率** 的心理感受;反之,**客觀機率** 完全需要透過長期或大量的實驗、紀錄、統計後,得到事件所佔的相對次數,因此又稱為 **實驗機率(experimental probability)**。 機率論中,將所有隨機過程可能得到的各種不同的結果總結起來,稱之為 **樣本空間(sample space,Ω)**,而每一種所想探討的狀況或情形,則被稱之為 **事件(event)**(套用集合論的概念,**事件是樣本空間的一個子集**)。**事件** 佔據 **樣本空間** 的比例(相對次數)則稱之為 **機率(probability, $P$)** 或 **機率測度(probability measure)** 機率論可以用來描述 **隨機過程**,這也是統計學 **隨機抽樣** 的理論基礎,因此在進入推論統計學之前,必須先將機率論學會。這個理論最早出現在 *布萊茲‧帕斯卡* 與 *皮耶·費馬* 在書信中討論賭博遊戲。後來經由*惠更斯*、*伯努利*、*棣美弗*、*拉普拉斯*、*高斯*、*卜瓦松*、*卡爾達諾* 以及 *科摩哥洛夫* 等人的努力,將機率論研究的更加完善。現代機率論由前蘇聯數學家 *科摩哥洛夫* 於 1933 年建立公理化。 ### 事件的計算 不同的事件之間會有些相互關係,可以透過 **集合論** 的方式來表達。英國數學家、邏輯學家、哲學家 *約翰·維恩* 在 1880 的論文中首創了 **文氏圖(維恩圖,Venn diagram)** 的表現方式。在此也利用 **文氏圖** 來視覺化事件之間的交互關係,喚醒讀者高中數學的記憶。 ![event](https://hackmd.io/_uploads/HyiRCKBCA.png) ### 機率公理(probability axioms) 這是前蘇聯數學家 *安德雷·科摩哥洛夫* 在 1933 年所建立的機率公理,因此也被稱為 **科摩哥洛夫公設(Kolmogorov axioms)**。這三條機率公理是所有機率都必須遵守的規定。 1. 第一公理:機率非負性 所有的機率值必定為介於 0 跟 1 之間的實數。0 表示必然不發生,1 表示必然發生。 數學式為 ${\displaystyle 0\leq P(A)\leq 1\ (A\in Ω)}$ 2. 第二公理:總機率歸一 樣本空間的總機率值會是 1。 數學式為 ${\displaystyle P(Ω)=1}$ 3. 第三公理:機率可加性 **互斥** 事件的機率具有可加成性。 若 ${\displaystyle A\cap B=\varnothing }$,則 ${\displaystyle P(A\cup B)=P(A)+P(B)}$ ### 古典機率(classical probability) 這個機率的定義是由法國數學家 *皮耶爾-西門·拉普拉斯* 所提出來的,故又稱為 **拉普拉斯機率(Laplace probability)**。這種機率的計算前提有 2 點: 1. **有限性**:樣本空間中的可能性是可數、有限數量的。 2. **均等性**:樣本空間中,各種可能性必須具有同等機率。 例如丟擲一顆公正骰子,其結果只有 6 種(有限性),且這 6 種可能的出現機會都是 ${\displaystyle \frac{1}{6}}$(均等性),因此可以屬於古典機率。 計算方式為 ${\displaystyle P_{A}=\frac{number \ of \ samples \ in \ event \ A}{number \ of \ samples \ in \ sample \ space \ Ω}}$ ### 統計機率(statistic probability) 然而古典機率非常理想化,也不是那麼常見。在不了解一現象的原理時,我們很難真的確定該現象是否屬於古典機率的範疇。因此英國邏輯學家 *約翰·維恩* 和奧地利數學家 *理察·米澤斯* 提出 **統計機率** 的概念。認為獲得一個事件機率的方法,就是進行 100 次、1000 次,甚至於 10000 次的獨立試驗,記錄下來並且觀察該事件出現的 **相對次數**。當獨立試驗的次數足夠多時,此事件發生的 **相對次數** 就會趨近於該事件真正的發生機率。 寫成數學式子就會是 ${\displaystyle P(A)=\lim _{n\to \infty }f_{n}(A)}$ ### 條件機率(conditional probability) 表示在一個 **給定的已知條件 B** 之下(例如某事件 B 已經發生),某事件 A 發生(也就是 A 與 B 同時發生)的機率,其公式及 **文氏圖** 如下: ${\displaystyle P(A|B)={\frac {P(A\cap B)}{P(B)}}}$ ![condintion_P](https://hackmd.io/_uploads/SJGm-L-CA.png) 既然已經確定 B 事件必然發生(**條件**),那麼就可以透過 **條件** 來重新改變樣本空間,只需要討論 B 事件必然發生的情況下,A 事件發生機會有多高即可。 **條件機率** 會很大程度受到 **條件** 的影響。但要特別注意的是,**條件機率並不能表達因果關係**,A 事件也可能先於 B 事件,所以不能利用條件機率來作因果關係的判斷,這是邏輯錯誤的行為。 從 **條件機率** 的數學定義式出發,將算式移項後可以得到 **機率的乘法原理**: ${\displaystyle P(A\cap B)=P(A|B).P(B)}$ ### 貝氏定理(Bayes' law ) *托馬斯·貝斯* Thomas Bayes 於 1763 年提出,這是一種基於 **條件機率** 的演算法,用來從已知的機率分布中推導出未知的條件機率。後來法國數學家 *皮埃爾-西蒙·拉普拉斯* 在 *托馬斯·貝斯* 的基礎上,發展出了 **貝氏統計(Bayesian statistics)**,成為了現代醫學、金融經濟與機器學習的一大理論基礎。貝氏定理的數學表達式如下: ${\displaystyle P(A\mid B)={\frac {P(A)P(B\mid A)}{P(B)}}}$ 其中,$P(A\mid B)$ 為已知 B 事件發生後,A 事件發生的條件機率,又稱為**事後機率(posterior probability)**,相對而言,$P(A)$ 則稱為 **事前機率(prior probability)**;同理,$P(B\mid A)$ 為已知 A 事件發生後,B 事件發生的條件機率,但在貝氏定理中又被稱為 **可能性** 或 **概似性(likelihood)**,而 $P(B)$ 則另外被稱為 **邊際機率(marginal probability)**。 筆者自從拿到駕照之後,就得要小心開車,因此在這邊舉一個酒測的例子。我們可以把 **有喝酒** 跟 **酒測超標** 分別定義成 A 事件跟 B 事件。假設根據先前的經驗,找來一群 **有喝酒** 的人進行酒測,統計機率為 **喝酒的人有 99 % 的機率酒測超標**,可以表示成 $P(酒測超標|有喝酒)=0.99$ 及 $P(酒測未超標|有喝酒)=0.01$;另外為了確保這種酒測器的誤抓狀況,因此也找來了一群 **沒喝酒** 的人進行酒測,統計機率為 **沒喝酒的人有 95 % 的機率酒測值不會超標**,因此可以表示成 $P(酒測超標|沒喝酒)=0.05$ 及 $P(酒測未超標|沒喝酒)=0.95$,利用表格表示如下: | 酒測機率 | 有喝酒 | 沒喝酒 | |:----------:|:------:|:------:| | 酒測超標 | 0.99 | 0.05 | | 酒測沒超標 | 0.01 | 0.95 | 這時候,若筆者開車行經承德路四段,被警察攔檢並酒測。結果顯示酒測超標,那麼再給定酒測超標的情況下,到底筆者是否有喝酒呢?根據貝氏定理,可以列出以下數學式: ${\displaystyle P(有喝酒\mid 酒測超標)={\frac {P(有喝酒)P(酒測超標\mid 有喝酒)}{P(酒測超標)}}}$ 因為酒測超標的情況有兩種,分別是喝酒後酒測超標 $P(酒測超標|喝酒)$ 跟沒喝酒但酒測超標 $P(酒測超標|沒喝酒)$,因此可以將數學式改寫成以下形式: ${\displaystyle P(有喝酒\mid 酒測超標)={\frac {P(有喝酒)P(酒測超標\mid 有喝酒)}{P(有喝酒)P(酒測超標|有喝酒)+P(沒喝酒)P(酒測超標|沒喝酒)}}}$ 若根據長期的社會調查顯示,會開車行經承德路四段的人們,喝酒的比例佔 3%(其實超級高的ㄟ),也就是 $P(有喝酒)=0.03$ 和 $P(沒喝酒)=0.97$。將這筆資料帶入計算: ${\displaystyle P(有喝酒\mid 酒測超標)={\frac {0.03*0.99}{0.03*0.99+0.97*0.05}} \approx 0.38 }$ 在這個情況下,精通統計學的筆者可以向警察宣稱,根據 **貝式定理**,在酒測值超標的條件下,筆者確實有喝酒的機率僅有 38 %,逃過一劫。 ###### (雖然警察應該只是覺得喝酒的人頭腦不會這麼清楚而已) ### 獨立(independence)與互斥(mutually exclusive) **獨立** 與 **互斥** 是兩個 **機率論** 中,許多國高中生很容易搞混的概念。 先來說說 **互斥**,這個詞意味著兩個事件之間互相排斥,也就是說兩者不會同時出現。用機率論的語言來寫就是 ${\displaystyle P(A \cap B)=0}$,兩件事沒有交集。文氏圖的表達方式在前面事件的計算。 而 **獨立** 則是 **機率論** 中被大力強調,甚至於成為強烈的基本假設。兩事件獨立代表兩件事情沒有關聯性,既不存在共同出現的關係,當然也不存在排斥對方的關係。根據以上對於 **獨立** 的描述,我們可以推理出一個結論 **有沒有給條件 B,都不會影響事件 A 的機率**,換言之,給定 B 事件發生或不發生的條件,事件 A 的條件機率都跟原本事件 A 本身的機率相同,用機率論的語言來寫就是 ${\displaystyle P(A)=P(A \mid B')=P(A \mid B)=\frac {P(A\cap B)}{P(B)}}$。 將其移項後可得 ${\displaystyle P(A\cap B)=P(A).P(B)}$,這就是兩事件獨立的檢查式。 若要檢查三個事件之間是否獨立,除了檢查三個事件中兩兩是否互相獨立之外,還需要檢查三個事件是否都獨立,也就是要檢查以下四個式子: 1. ${\displaystyle P(A\cap B)=P(A).P(B)}$ 2. ${\displaystyle P(B\cap C)=P(B).P(C)}$ 3. ${\displaystyle P(C\cap A)=P(C).P(A)}$ 4. ${\displaystyle P(A\cap B\cap C)=P(A).P(B).P(C)}$ # 隨機變數(random variable) **隨機變數** 作為一種數學概念,是用來描述從樣本空間對應到測量資料的映射函數。在統計學中,隨機變數代表的是 **研究者主觀欲研究之對象群體的某特徵**,為了能夠承接後續的計算,並且引入機率論,通常 **隨機變數代表的是 感興趣對象群體之特徵對應到實數的一個函數**。 好,我知道上述的學術性定義讀者們應該看得一頭霧水,難以理解。我們不妨從幾個簡單的例子來了解隨機變數的功能性定義。 * 對於擲一次硬幣的例子來說,可能出現的結果為 **正面** 與 **反面**,因此樣本空間應該要寫成 { 正面、反面 }。若將正面定義為 1,反面定義為 0,則隨機變數可以表達為 $X(正面)=1$、$X(反面)=0$。 * 換成擲骰子的話,隨機變數就會是 $X(⚀)=1$、$X(⚁)=2$、$X(⚂)=3$、$X(⚃)=4$、$X(⚄)=5$、$X(⚅)=6$。 * 如果是量身高的例子,那麼隨機變數可以表達成 $X(身高為\ h\ cm)=h$,其中 $h$ 可以為任意實數值。 從上述這三個例子,應該可以更明確了解 **隨機變數** 的意義了。從中也可以發現隨機變數大致上可以分成 **離散型** 與 **連續型** 兩種。這其實也與資料類型有很大的關係,可以快速複習一下資料類型與隨機變數之間的關係: | 資料尺度 | 意義 | 實際例子 | 隨機變數 | |:--------:|:--------------------------:|:----------:|:--------------:| | 名目 | 僅用來表示不同類別的資料 | 性別、職業 | 離散型* | | 排序 | 不同類別之間具有順序性 | 名次、等第 | 離散型* | | 等距 | 可以比較資料間的相對差異 | 年級、氣溫 | 離散型、連續型 | | 比例 | 資料數值具有絕對差異的性質 | 身高、體重 | 連續型 | >*註:需要明確定義隨機變數的函數關係 ### 離散型隨機變數(discrete random variable) **離散型隨機變數** 表示隨機變數的取值是有限的,可以一一列出來的。有些情況下必須額外定義出資料類別與實數值之間的函數關係。例如 **成績平均績點(grade point average, GPA)** 就是一種將等第換算成數值的 **離散型隨機變數**,以下用筆者的學校 *國立臺灣大學(National Taiwan University, NTU)* 所適用的換算標準為例:$X(A+)=4.3$、$X(B)=3.0$、$X(C-)=1.7$、... | 等第 | GPA | 百分成績換算 | |:----:|:---:|:------------:| | A+ | 4.3 | 95 | | A | 4.0 | 87 | | A- | 3.7 | 82 | | B+ | 3.3 | 78 | | B | 3.0 | 75 | | B- | 2.7 | 70 | | C+ | 2.3 | 68 | | C | 2.0 | 65 | | C- | 1.7 | 60 | | F | 0.0 | 50 | | X | 0.0 | 0 | 如果將離散型隨機變數的每種結果與之所對應的機率寫成 **機率分配表**(類似於次數分配表),則此對應關係稱為 **機率質量函數(probability mass function, pmf)**。以一個擲一次公正骰子為例,其 **機率分配表** 可以寫成以下形式: | random variable | probability | |:---------------:| ---------------------------- | | 1 | $\frac {1}{6} \approx 0.167$ | | 2 | $\frac {1}{6} \approx 0.167$ | | 3 | $\frac {1}{6} \approx 0.167$ | | 4 | $\frac {1}{6} \approx 0.167$ | | 5 | $\frac {1}{6} \approx 0.167$ | | 6 | $\frac {1}{6} \approx 0.167$ | 那麼此隨機變數的 **機率質量函數** 就可以表達為以下形式: ${\displaystyle P(X=x)={\frac{1}{6},\ \ x=1, 2, 3, 4, 5, 6}}$ 另外,與 **離散型隨機變數** 有關的數學計算基礎就是一般的四則運算,以及求和符號 ${\textstyle \sum }$。 ### 連續型隨機變數(continuous random variable) **連續型隨機變數** 表示隨機變數的取值是無限的,無法一一列出來。相對應地,連續型隨機變數擁有 **機率密度函數(probability density function, pdf)**。此函數對應到的數值代表的並不是 **機率** 而是 **機率密度**。也就是說,連續型連續變數的測度是具有不確定性的,必須給予一定的範圍,才能夠計算出連續型連續變數在這個數值範圍中出現的機率。用一張圖表達如下: ![pdf_ab](https://hackmd.io/_uploads/rJKp3hrRC.png) 因此,與連續型隨機變數相關的數學計算基礎除了四則運算之外,就是應用在連續函數上的求和概念 **積分(integral)**。 所以也有人說,**微積分(calculus)** 是 **機率論** 的先備知識,而 **機率論** 又是 **現代統計學** 的理論基礎,所以要把 **統計學** 學好,必須要有一定的 **微積分** 基礎。 > 呃...筆者感受到讀者緊張的情緒了,在此要先讓讀者鬆一口氣。只需要掌握微積分的基本概念,配合上筆者的敘述,以及一點點的數學式子,相信可以讀得懂統計學,並且掌握統計學的要領。不需要微積分專精,只需要大概知道概念,會一點點計算即可。 > > 為了讓讀者不要太過於絕望,接下來進入到期望的部分(??) --- ### 期望值(Expected value) **期望值** 表示在進行長期試驗之後的平均結果,可以想像成是 **研究者預期多次重覆試驗之後的所有結果之平均值**。實際上的計算結果便是以每種不同結果的 **機率值** 作為 **權重** 所計算而得到的 **加權平均數**。 對於離散型隨機變數,期望值表示為 ${\displaystyle \operatorname {E} (X)=\sum _{i}x_{i}.P(x_{i})}$,其中 $x_i$ 表示每一種可能結果所對應的實數值,而 $P(x_{i})$ 則代表這種結果對應的機率。來看一個超市抽獎的例子,假設袋子中共有 1 顆紅球、5 顆黃球與 24 顆白球,超市的抽獎規則為抽出紅球可以獲得 1000 元,抽出黃球可以獲得 100 元,而抽出白球則沒有獎金。那麼可以根據此規則整理成以下表格: | 抽球結果 | 對應獎金 $x_i$ | 機率 $P(x_{i})$ | | -------- |:--------------:|:---------------:| | 紅球 | 1000 | 1/30 | | 黃球 | 100 | 5/30 | | 白球 | 0 | 24/30 | 則可以計算此抽獎的期望值為 50 元,詳細的算式如下: ${\displaystyle \operatorname {E} (X)=\sum _{i=1}^{3} x_{i}.P(x_{i})=1000.\frac{1}{30}+100.\frac{5}{30}+0.\frac{24}{30}=50}$ 對於連續型隨機變數,期望值表示為 ${\displaystyle \operatorname {E} (X)=\int _{-\infty }^{\infty }x.p(x)\,\mathrm {d} x}$,其中 $x$ 表示隨機變數對應的數值,而 $p(x)$ 則表示該數值對應的 **機率密度**,經由積分計算之後可以得到期望值。往後的計算中還會碰到許多連續型隨機變數,在此就不特別舉例。 期望值因為包含了機率的概念,所以可以非常好地作為試驗結果的預測,在許多領域中都會用到期望值。例如金融投資中,投資組合的期望收益是基於各種可能結果的加權平均,因此期望值可以用來預測未來收益。而在保險業中,期望值可以將風險納入考量,如保費是根據未來可能賠付額的期望來決定的。 --- ### 大數法則(law of large numbers, LLN) 大數法則用來描述多次數重複試驗的結果。根據 **大數法則**,試驗次數越多,樣本數量越多,則所有結果的算術平均值就有越高的機率接近期望值。它「說明」了一些隨機事件之均值的長期穩定性,甚至有人說 **大數法則就是偶然中藏有著必然**。 ###### 歷史 大數法則最早是由義大利數學家 *吉羅拉莫·卡丹諾* 未經證明地指出,**統計結果的準確性會隨著試驗次數的增加而逐漸改善**。西元 1713 年,*雅各布·伯努利* 提出了 **黃金定理**,用以解釋在二元變數經過多次伯努利試驗(只有成功跟失敗兩種結果的試驗),成功的出現次數比例會接近於成功的機率(這也是高中機率所學的 **大數法則**)。1837年,*卜瓦松* 則將此定理取名為 **大數法則**。*辛欽* 在 1929 年證明,對於獨立且同分佈的隨機變數,只要期望值存在,都會使 **弱大數法則**: ${\displaystyle {\overline {X}}_{n}\ {\overset {P}{\rightarrow }}\ \mu \qquad {\textrm {when}}\ n\to \infty }$ 成立。也就是對於任意正數 ${\displaystyle \varepsilon >0}$,${\displaystyle \lim _{n\to \infty }\Pr \!\left(\,|{\overline {X}}_{n}-\mu |<\varepsilon \,\right)=1}$ 成立。*科摩哥洛夫* 則給出了 **強大數法則** ${\displaystyle {\overline {X}}_{n}\ {\xrightarrow {\text{a.s.}}}\ \mu \quad {\textrm {as}}\quad n\to \infty }$ ,也就是 ${\displaystyle P\left(\lim _{n\to \infty }{\overline {X}}_{n}=\mu \right)=1}$ 的相關證明。 ###### 應用 擲一次公正骰子所得到的數值,其期望值應該等於 3.5。如果我們重複丟擲一顆公正骰子,並把每次丟擲的結果紀錄下來,並且把這些紀錄去平均,然後一直重複做這件事 1000 次,其結果如下圖所示,**丟擲結果的平均值會接近期望值**,這就是 **大數法則**。統計學的計算中,一般都設定至少要做 30 次重複試驗才能應用大數法則,而應用在計算機科學之中,一般至少要有 1000 次重複試驗才能應用。 ![Largenumbers](https://hackmd.io/_uploads/SJ-qCTSRC.png) --- ### 變異數(variance) **變異數** 又稱為 **變方** 或 **方差**,常用符號包跨 ${\displaystyle \sigma ^{2}}$、${\displaystyle s^{2}}$、${\displaystyle \operatorname {Var} (X)}$ 等。在機率論或統計學中,**變異數** 是用來描述隨機變數之分散程度的量數,它是 **隨機變數之離均差平方的期望值**,數學式為 ${\displaystyle \operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}}$。 對於離散型隨機變數,變異數的計算為 ${\displaystyle \operatorname {Var} (X)=\sum _{i=1}^{n}(x_{i}-\mu )^{2}\cdot p(x_{i})=\sum _{i=1}^{n}[x_{i}^{2}\cdot p(x_{i})]-\mu ^{2}}$ 而對於連續型隨機變數,變異數的計算為 ${\displaystyle \operatorname {Var} (X)=\int _{\mathbb {R} }(x-\mu )^{2}p(x)\,dx\\[4pt]=\int _{\mathbb {R} }x^{2}p(x)\,dx-\mu ^{2},}$ 事實上,變異數其實是統計分析中非常重要的一大量數,它還有許多延伸定義,等未來收穫更多觀念之後,筆者會再一一探討這些延伸概念的變異數。 # 機率分布的特徵 在敘述統計學中,我們利用 **平均數(mean)** 來摘要統計結果的 **中央趨勢**,然而對於一個隨機變數,其對應的數值會服從特定的 **機率分布(probability distribution)**。也就是說,透過足夠多次的重複試驗,將每次試驗的結果記錄下來,並利用 **機率質量函數** 或 **機率密度函數** 表示時,其所代表的就是隨機變數的 **機率分布**。 所以接下來,我們將透過引入 **動差** 的概念,來總結機率分布的特徵。 ### 動差(moment) 西元 1894 年,*卡爾·皮爾森* 提出 **動差估計法(method of moments)**,將 **動差** 的概念引入到統計學中。此名稱來源與物理學中的 **矩(moment)**,主要是用來摘要圖形或立體的空間分布特徵。在統計學中,動差可以用來定義與計算機率分布的 **中心位置**、**分散程度**、**中心偏移程度** 與 **分布峰值的寬窄**。 首先,取得一個隨機變數的 **機率質量函數** $P(X)$ 或 **機率密度函數** $p(X)$ 後,接著就可以定義此隨機變數對於任意實數 $c$ 的 $n$ 階動差的數學表達式為 ${\displaystyle \mu '_{n}(c)=E[\left (X-c)^{n}\right] ~{\overset {\mathrm {def} }{=}}~{\begin{cases}\sum \limits _{i=1}^{\infty }(x_{i}-c)^{n}P(x_{i}),&{\text{discrete distribution}}\\[1.2ex]\int _{-\infty }^{\infty } (x-c)^{n}p(x)\,dx,&{\text{continuous distribution}}\end{cases}}}$ 其中,若任意實數 $c=0$ 時,稱為 **原動差(raw moment)**;若任意實數 $c=\mu$,則我們稱為 **主動差 / 中央動差(central moment)**。另外再定義 **標準動差(standardized moments)** 表示為 $n$ 階主動差除以標準差的 $n$ 次方,當然也可以利用 **將隨機變數標準化** 的方式來定義 **標準動差**,數學表達式如下所示: ${\displaystyle {\frac {\mu _{n}}{\sigma ^{n}}}={\frac {\operatorname {E} \left[(X-\mu )^{n}\right]}{\sigma ^{n}}}={\frac {\operatorname {E} \left[(X-\mu )^{n}\right]}{\operatorname {E} \left[(X-\mu )^{2}\right]^{\frac {n}{2}}}=\operatorname {E} {\Big [}{\big (}{\tfrac {X-\mu }{\sigma }}{\big )}^{\!n}\,{\Big ]}}}$ ### 分布的中心位置與分散度 與第二回所學的內容相同,對於一筆統計數據而言,其分布的中心位置可以利用 **算術平均數 $\mu$** 進行估計,而隨機變數的算術平均數就是 **期望值 $E(X)$**。引進動差的概念之後會發現,其實 **期望值就是一階($n=1$)原動差($c=0$)**。 而前面提到,**變異數** 可以用來作為隨機變數之機率分布的分散度量數,在此引入動差的概念後也不難發現,**變異數就是二階($n=2$)主動差($c=\mu$)**。而 **變異數 $\sigma^2$** 就是 **標準差 $\sigma$** 的平方。 ### 分布的偏態(skewness) **偏態(skewness)** 也被稱為 **偏態係數**、**偏度係數**、**偏度**、**歪度**,用來描述一個分布的不對稱性,利用正負號來表示中心偏移的方向,而數值大小則表示偏移的程度。機率分布的偏態定義為隨機變數的 **三階($n=3$)標準動差($c=\mu$ 且須除以 $\sigma^3$)**。 利用 **將隨機變數標準化** 的方式來定義 **標準動差** 的話,可以拆開定義式成以下形式: ${\displaystyle \gamma _{1}=\operatorname {E} {\bigg [}{\Big (}{\frac {X-\mu }{\sigma }}{\Big )}^{\!3}\,{\bigg ]}={\frac {\operatorname {E} [X^{3}]-3\mu \operatorname {E} [X^{2}]+2\mu ^{3}}{\sigma ^{3}}}={\frac {\operatorname {E} [X^{3}]-3\mu \sigma ^{2}-\mu ^{3}}{\sigma ^{3}}}}$ 分布的偏態主要有兩種: **注意!偏態係數為零不代表對稱分布** * **負偏態(negatively skewed)**/ **左偏態(left tailed)** 左側的尾部更長,分布的主體集中在右側(中位數不一定在平均數的右邊)。 * **正偏態(positively skewed)**/ **右偏態(right tailed)** 右側的尾部更長,分布的主體集中在左側(中位數不一定在平均數的左邊)。 ![skewness](https://hackmd.io/_uploads/HywoSyvAR.png) ### 分布的峰態(kurtosis) **峰態(skewness)** 也被稱為 **峰態係數**、**峰度係數**、**峰度**、**尖度**,用來描述一個分布的集中程度與極端離群值出現情況的量數。為了與 **偏態** 相對,透過正負號來定義峰度,因此 **超值峰度(excess kurtosis)** 的定義被提出來,它定義為 **峰度減 3**: ${\displaystyle \gamma _{2}={\frac {\kappa _{4}}{\kappa _{2}^{2}}}={\frac {\mu _{4}}{\sigma ^{4}}}-3}$ > 根據筆者的觀察,部分比較老舊的教科書還是遵循著原本峰度的定義,但有些新的教科書與統計軟體的工具書都參照了超值峰度的定義,許多統計軟體如 R、SAS、SPSS、Excel、Googlesheets 或 Python 中的套件 scipy,也都是使用超值峰度的定義,然而 Stata 卻是利用原本峰度的定義。 分布的峰態同樣可以分成兩大類: * 超值峰度為正,稱為 **高狹峰(leptokurtic)**,表示資料大多集中在中間,使分布具有又高又狹窄的峰。 * 超值峰度為負,稱為 **低闊峰(platykurtic)**,表示資料平均分散在中間附近,使分布具有較低也較開闊的峰。 ![kurtosis](https://hackmd.io/_uploads/rytXpkwAC.png) ### 變異係數(coefficient of variation, CV, $c_{v}$) 最後再介紹一種用來描述機率分布分散程度的量數。**變異係數** 又稱為 **變差係數**、**離差係數**、**離散係數**、**標準離差率** 或 **單位風險**。 1. 如果想要比較兩筆資料的分散情況時,無法利用 **標準差** 來比較不同單位的資料,因為單位換算過程中會縮放資料大小,就會使 **標準差** 跟著一起被縮放。 2. 再者,若一筆資料數值都很大,例如隨便都是數十萬的,那麼數百單位的差距就會顯得很微不足道;另外一筆資料數值都很小,幾乎都只不超過 10 時,那麼第一筆資料的標準差就會明顯比第二筆更大,使得 **用標準差估計兩筆資料的分散度造成分析失準**。 為了解決以上兩個問題,變異係數定義為 **標準差除掉平均數**。 數學表達式為 ${\displaystyle c_{v}={\sigma \over \mu }}$ 從數學表達式可以發現,**變異係數** 在使用有 2 點限制: 1. 只有 **平均數 $\mu$ 不為零** 時才可以使用。 2. 只對 **比例尺度** 的資料才有意義。 變異係數雖然能夠更有意義地描述資料的分散程度,但其使用上有較大的限制,而且當平均數越接近0時,誤差就會被放大得越多倍,更何況變異係數無法發展出如 **信賴區間** 等的估計工具,因此在統計學中也漸漸沒落,不被大家所使用了。 --- 最後,這一回介紹的內容滿多的,讓我們用一個簡單的例子來總結上述的內容吧! 試想一顆骰子,這顆是筆者用自己那笨拙的雙手親自雕刻出來的骰子,所以它當然不是一顆公正骰子。還好筆者有幾個具有實驗精神,同時也比較閒的朋友可以陪筆者完成擲這顆骰子 10000 次的實驗。 抱歉,擲到 950 次的時候已經累了,擲 10000 次就好。反正次數夠多了,可以用 **大數法則** 來推測這時候的 **相對次數** 應該已經足以接近實際上的機率分布了。 這顆骰子被筆者取名為愛情骰子,描述了感情世界的其中六種結局。現在,我們要設計一個函數對應關係,也就是這個例子的隨機變數。筆者定義 $X(結婚)=1$、$X(變成閨密)=2$、$X(當朋友)=3$、$X(直接變陌生人)=4$、$X(出軌被綠)=5$、$X(大吵然後分手)=6$,並可以依照實驗結果寫下此隨機變數的 **機率質量函數** 如下表所示: | 感情結局 | 賦值 | 實驗出現次數 | 機率 | |:--------:|:----:|:------------:|:-----:| | 結婚 | 1 | 3 | 0.003 | | 閨密 | 2 | 121 | 0.121 | | 朋友 | 3 | 142 | 0.142 | | 陌生人 | 4 | 218 | 0.218 | | 出軌 | 5 | 362 | 0.362 | | 吵架分手 | 6 | 154 | 0.154 | 首先來計算這 1000 次實驗結果的 **算術平均值 $\mu$**,也就是這個隨機變數的 **期望值 $E(X)$**。 $E(X)=1.0.003+2.0.121+3.0.142+4.0.218+5.0.362+6.0.154=4.277$ 接下來是要計算 **變異數 $Var(X)$**,可以透過下列這個表格來完成 | $x_i$ | $x_i-\mu$ | $(x_i-\mu)^2$ | $P(x_i)$ | $(x_i-\mu)^2\cdot P(x_i)$ | |:-----:|:---------:|:-------------:|:--------:|:-------------------------:| | 1 | -3.277 | 10.738729 | 0.003 | 0.032216187 | | 2 | -2.277 | 5.184729 | 0.121 | 0.627352209 | | 3 | -1.177 | 1.630729 | 0.142 | 0.231563518 | | 4 | -0.277 | 0.076729 | 0.218 | 0.016726922 | | 5 | 0.723 | 0.522729 | 0.362 | 0.189227898 | | 6 | 1.723 | 2.968729 | 0.154 | 0.457184266 | 把最後一行 $(x_i-\mu)^2\cdot P(x_i)$ 的結果加總起來就是 **變異數** 了,其平方根就是 **標準差**。 $Var(X)=1.554271\approx {1.55}$、$\sigma =\sqrt {Var(X)} \approx {1.246704054698}\approx {1.25}$ > 有效位數為 3 位 接下來便是計算此分布的 **偏度** 為 ${\displaystyle \frac {\sum_{i} (x_i-\mu)^3\cdot P(x_i)}{\sigma ^{3}}\approx -0.47}$。 | $x_i$ | $x_i-\mu$ | $(x_i-\mu)^3$ | $P(x_i)$ | $(x_i-\mu)^3\cdot P(x_i)$ | |:-----:|:---------:|:-------------:|:--------:|:-------------------------:| | 1 | -3.277 | -35.190814933 | 0.003 | -0.105572444799 | | 2 | -2.277 | -11.805627933 | 0.121 | -1.428480979893 | | 3 | -1.177 | -2.082440933 | 0.142 | -0.295706612486 | | 4 | -0.277 | -0.021253933 | 0.218 | -0.004633357394 | | 5 | 0.723 | 0.377933067 | 0.362 | 0.136811770254 | | 6 | 1.723 | 5.115120067 | 0.154 | 0.787728490318 | 接下來便是計算此分布的 **超值峰度** 為 ${\displaystyle \frac {\sum_{i} (x_i-\mu)^4\cdot P(x_i)}{\sigma ^{4}}-3\approx -0.75}$。 | $x_i$ | $x_i-\mu$ | $(x_i-\mu)^4$ | $P(x_i)$ | $(x_i-\mu)^4\cdot P(x_i)$ | |:-----:|:---------:|:-------------:|:--------:|:-------------------------:| | 1 | -3.277 | 115.320300535441 | 0.003 | 0.345960901606323 | | 2 | -2.277 | 26.881414803441 | 0.121 | 3.252651191216361 | | 3 | -1.177 | 2.659277071441 | 0.142 | 0.377617344144622 | | 4 | -0.277 | 0.005887339441 | 0.218 | 0.001283439998138 | | 5 | 0.723 | 0.273245607441 | 0.362 | 0.098914909893642 | | 6 | 1.723 | 8.813351875441 | 0.154 | 1.357256188817914 | 另外,將數值從小排到大,第 500 與 第 501 個數值都是 5,因此這 10000 次試驗的 **中位數** 為 $\frac {5+5}{2}=5$。**眾數** 則是最多出現次數的 5,將以上結果總結如下圖: ![ex03dise](https://hackmd.io/_uploads/ByDKH-vR0.png) | 分布特徵 | 數值 | |:--------------:|:-----:| | 眾數 | 5 | | 中位數 | 5 | | 平均數、期望值 | 4.277 | | 變異數 | 1.55 | | 標準差 | 1.25 | | 偏度係數 | -0.47 | | 超值峰度 | -0.75 | 可以發現,此分布顯然是左邊尾巴比較長的 **左偏態(負偏態)**,平均數恰好也是眾數、中位數、平均數這三個測度中心位置的均量中,最左邊的數值;而從超值峰度為負值,可以知道其峰度小於 3,屬於 **低闊峰**。圖中,藍色線就是依照此分布的平均數 4.277 與標準差 1.25 所給定,偏度為 0,超值峰度為 0,大名鼎鼎的 **常態分布**! 下一回,將介紹各種常見與不常見的機率分布,順便帶領讀者來會一會這一個 **常態分布**。 ###### 下一回:[統計學(四)參數化機率分布]()