---
# System prepended metadata

title: 變異數的探究與實作 --- 以2022年學測第三題為例

---

# 變異數的探究與實作 --- 以2022年學測第三題為例

:::warning 
變異數，標準差的平方，是一個高中就出現的統計數字
雖然概念很簡單，細節卻不是一張散佈圖就可以掌握
:::

## 變異數是什麼
給定一組抽樣資料$\{x_1, x_2, x_3, \cdots, x_n\}$，它的**樣本變異數**$V$(以下簡稱為變異數)，一般在課本上的定義為$$V=\sum\limits_{k=1}^n \left(x_k-\bar x\right)^2，$$其中$\bar x = \frac{1}{n}\sum\limits_{k=1}^n x_k$為樣本的平均數。而2022/1/21的學測，新課綱實施後第一次的大考，數學A的考題就有出現[(考題在這)](https://www.ceec.edu.tw/files/file_pool/1/0M021399096375234148/03-111%E5%AD%B8%E6%B8%AC%E6%95%B8%E5%AD%B8A%E8%A9%A6%E5%8D%B7.pdf)。第三題就考了變異數的概念，測驗了一組二維資料投影在五條直線上，哪一個變異數最小。完整的第三題請見下圖一。

![圖一：2022學科能力測驗，數學A第三題](https://i.imgur.com/cdUAeUR.png)
圖一：2022學科能力測驗，數學A第三題

## 主成份分析
這個題目如果有修過大學中資料分析的人一定不陌生，因為題目要求「找到變異數最小」的概念，即是主成份分析(註: 主成分分析是找變異數**最大**的幾個方向，但本題只有二維，第二大的就是最小的。)。下面圖二中的散佈圖，紅色箭頭與綠色箭頭的兩個方向，就是主成份分析中的兩個主成份軸，將資料投影到紅色軸，變異數會最小；投影到綠色軸，變異數會最大。不過若要從數據中實際計算出這兩軸，將會用到線性代數中的奇異值分解，而在大學中，奇異值分解會在線性代數的課程中學到。(老高說：這個以後我們還會專門做一個主題給大家講解)那這樣的一個問題在學測中出現合適嗎？不過先說結論：沒做適當的假設，這一題的答案可以不同！想直接看例子的讀者可以跳過論述，往下直接看[事實的真相](#%E4%BA%8B%E5%AF%A6%E7%9A%84%E7%9C%9F%E7%9B%B8)。而這個題目，更提供了高中學生們可以用來探究與實作的好例子。
 
![圖二：資料散佈圖與主成份分析的兩個主成份軸](https://i.imgur.com/tF65gcV.png)
圖二：資料散佈圖與主成份分析的兩個主成份軸

## 用感覺猜變異數大小？
因為這只是個選擇題。學生也不需要真的求出主成份軸，只要可以用課本中的做法來求得答案，也是給學生的一種挑戰。我們可以拿掉主成份分析的概念不看，也不要用到奇異值分解，就從題目要求的方式來操作。根據題目的描述，學生應該就是把直線畫出來，將資料點投影過去，然後在「沒有數字」的情況下想像變異數的大小。或許有些可以跟出題者**心靈相通**的學生們，想到擠在一起的資料變異數比較小，就猜到答案是(5)。筆者猜測出題者出這題的心境，也只是單純想要考投影資料分佈範圍的大小，然後直觀地推論出變異數的大小，所以也沒想太多，就直接沿用主成份分析的敘述方式，就以變異數最小來出題。但這造成了兩個問題：

1. 在高中的課綱中，沒有提到在沒有數字的情況下怎麼估計變異數。也沒有任何一本課本有提到上述無數字但要估計變異數的方式。這有超出課綱的嫌疑。
2. 變異數的大小，跟資料分佈的範圍並不是完全等價。

所以筆者仿照原題，在下面出了一個題目。而為了簡化，我們也不要再做資料點的投影了，先幫大家投影好，放在一條直線上！

### 自創題目一
:::info
「以下兩張圖，是一組二維數據，四個資料點投影到兩條直線上的點，請問這兩次投影後所成的一維數據，哪一個的變異數比較小？」
:::

圖三![ABCD的散佈圖](https://i.imgur.com/f1nvTKf.png)
圖四![A'B'C'D'的散佈圖](https://i.imgur.com/P9nxhCY.png)


我甚至還可以多告訴你，C、D跟C’、D’的位置一樣，A’在A的右邊，B’在B的左邊。AD的長度比A’D’的長度來得長。也不要刁難大家，選項也就3個就好。

(1) A、B、C、D 的變異數比較小
(2) A'、B'、C'、D' 的變異數比較小
(3) 要高中生在只有圖的情況下選出答案，是在玩我嗎？

我也不透露答案，有興趣的同學可以在兩條直線上各自定好原點，方向，單位長，然後把兩個圖中的八個點都轉成數字，再計算這兩組的變異數。幸好原點、方向都不會影響答案(能知道這一點的學生真的很有數感了)，加上兩張圖的單位長定成一樣就可以比了。但是，**原始散佈圖的兩軸，很有可能是不同單位的啊**！如X軸單位是公里，Y軸是耗油量，上面的某條直線是要如何決定其上的單位長？當然你也可以說，這個是數學問題，兩個軸都是沒有因次的單位，而單位長就是原來圖形上的單位長。但這些在題目中都．沒．有．提．到．啊！學生還得自己想到要這樣做才行。這讓我想起了之前舊課綱中，做幾何題時被題目中**沒畫出來**的一條神奇輔助線支配的恐懼。而這題的解答，大多是也以資料分佈範圍的寬窄來說明。如果真要這樣，題目描述只要考個「全距」即可，大家可以觀察出全距的大小，也避開了主成份分析，豈不美哉？如果讀著有興趣提高難度，宜蘭高中退休老師官長壽老師也提供了一個12個點的[GeoGebra的檔案](https://www.geogebra.org/m/jwagyrae)，大家也可以試試。

:::danger
在兩個人的感情世界中，你就是要猜到我的想法才是甜蜜！
嗯，數學考試也是。
:::

不過，這題倒是有很多老師覺得出得不錯！因為他們很快地猜到了出題者的想法，有種一拍即合的快感！反正感覺對了，就對了！資料分佈的範圍小，就會有比較小的變異數。但事實的真相並不是如此！

:::success
什麼時候數學變成了感覺對了，就是對的？
數感也要正確的數感才是，那是經過千錘百鍊之後對事物的洞察。
:::

筆者要強調的是，分佈較廣的資料，其標準差或變異數就會較大的直覺，不是一個正確的數感。我想看到這邊，大家也知道我剛剛出的那一題自創題目一的答案是哪一個了。下面再請大家試試，在圖五中有十組散佈圖，分別放在$y=1$到$y=10$的直線上，每一條水平線上都有40個點。但40個點太多了，筆者沒有辦法一一檢驗每個點的位置，不能保證有沒有點會重疊在一起的情況。而為了讓大家看出資料分佈有多廣，也已經將每一組資料的最小值調整到0。請問大家在圖五中，哪一條水平線上的資料，它的變異數會是最小的？各位老師覺得這個題目就跟學測第三題是否類似呢？會覺得容易嗎？真的很難！

### 自創題目二
:::info
「以下圖五中，是10組二維數據，每一組數據都是40個資料點的一維散佈圖，請問這10組中，那一組數據的變異數比較小？」
:::
![10組數據散佈圖](https://i.imgur.com/igIU8KE.jpg)
圖五：有10組數據，每組40個資料點的散佈圖，分別放在$y=1$到$y=10$上(10條水平線未在圖中呈現)

## 事實的真相
也會有人說，這個不一樣，那是筆者自己造的數據，就事論事，學測題目才沒有這麼刁鑽呢！學測題目上的數據點，看起來就是投影到$y=-\frac{1}{2}x$會最小啊。為什麼筆者還要這麼堅持呢？那就來告訴大家堅持的理由。新課綱不是要探究與實作嗎？筆者自己將所有的數據用電腦稍微估計了一下，也將投影在五個選項的直線上的點畫了出來，直線平移是為了好觀察。如下圖六。在第三題選擇(5)這個答案的人，也會說：++這看起來就是投影在選項(5)最小啊！沒毛病！++ 但**細節總是藏在魔鬼中**(大家有注意到細節嗎 XD)，請大家觀察一下圖六中的紅色點，是不是擠在同一個範圍內了？是不是有些點重覆了？(你也可以看紅色虛線的投影方向，其實上面就可以看到好幾個點會投到差不多一樣的位置了)

:::danger 
點會重覆！點會重覆！點會重覆！
(很重要所以說三次！)
:::

![原始資料點在五條直線上的投影](https://i.imgur.com/wRCqN2X.png)
圖六：原始數據投影到五個選項中的直線(直線有平移過，只是為了能明顯看出散佈圖)，而虛線為投影到該直線時所投影的方向。

讓我們再看回散佈圖。這個散佈圖中，仔細數一數應該大約有40個點，而散佈圖中也有好幾個點，疊在了差不多同一個位置，你能夠確定圖形上面的一個點，就是一個資料點嗎？不會像剛剛投影到一條直線時會重覆嗎？有做過散佈圖的人，應該會遇到好幾個資料點出現在同一個位置的情況吧。前面投影到一維，大家就認為可以疊一起，現在回到二維就一定要一個點一個資料嗎？難道這張圖不會是某個三維資料的投影嗎？給定資料，可以做出散佈圖，這個邏輯方向是對的。但給定散佈圖，可以推回去完整的資料點嗎？數學老師在教「若P則Q」的邏輯概念時，也會強調它不能「若Q則P」。現在這個散佈圖，可以推得完整資料點嗎？

:::warning
我們讓X、Y兩軸都是0到15，代表國文及英文的級分，將所有考生的成績製成散佈圖，這樣最多也是256個點啊！難道可以說我們只有256位考生？
:::

既然新課綱強調探究與實作，那麼筆者再認真地探究與實作一下。從題目的出題與散佈圖中，再造出一個投影到$y=-x$的變異數最小的情況來。透過重覆散佈圖中的某些點，就可以「嚴重」地影響到變異數！有興趣的人可以到 https://reurl.cc/oeQayQ 下載筆者製作好的Excel檔案。所以若真的考變異數，而且在目前題目的描述之下，答案不是唯一的。只要適當地選取重複的資料點，就有可能讓其他的答案都是對的。如果讀者想要自行探究一下的話，也可以試試看有沒有辦法重複其他點，讓答案變成除了(3)或(5)之外的選項。
![](https://i.imgur.com/ZdsPLNe.png)
圖七：Excel打開後的截圖，右方紅色箭頭處就是投影到(3)$y=-x$的變異數，確實比投影到(5)$y=-\frac{1}{2}x$來得小

### 有趣的反例，猜想的起源
筆者會有這樣的反例的猜想，主要來自於之前曾經看過陽明交通大學魏澤人老師分享過的一部[影片](https://youtu.be/BYQg9LRjVQs)，魏老師真的是個天才，可以讓散佈圖中出現文字，還可以得到相同的標準差！{%youtube BYQg9LRjVQs %}
除此之外，還有一部由Autodesk Research的兩位作者，Justin Matejka及George Fitzmaurice所創作的Youtube影片。在影片中展示了非常多有趣的散佈圖，不管是恐龍、五角星、橢圓、九個群聚點等等，它們投影到X、Y軸上，會有相近的平均數(影片中的X Mean，Y Mean)、標準差(影片中的X SD、Y SD，變異數是標準差的平方)、以及相關係數，這些數據在有效位數為小數下兩位時都一樣。有興趣的讀者可以點一下面所附的影片，或是點一下這個[連結](https://www.youtube.com/watch?v=DbJyPELmhJc)。
{%youtube DbJyPELmhJc %}

## 建議
### 變異數能代表資料分佈範圍，要先知道資料是何種分佈
為何課本中會提到變異數的大小能代表資料分佈範圍呢？課本中那樣的說法是必須有**前提**的。例如，原始資料是**常態分佈**，然後就可以推論出與平均數相距一個標準差(變異數開根號後的值)中會有多少資料點。在筆者自創題目二中的散佈圖，資料其實來自於不同的分佈，所以當然看不出來哪一組的變異數比較小。而如果真的要透過變異數來比較兩組資料的分佈範圍，也必須要兩組資料是在同一個分佈的前提下，再來進行分析討論。

### 素養題引入真正素養
既然新課綱想要讓學生有多方面的數學素養，出題者也花費心思，創造這類資料分析的「素養」題。筆者本身也很欣賞這題測驗的資料分析概念。但造出反例就是在告訴大家，「資料分佈範圍小與變異數小」是不等價的。也是希望藉此培養學生批判性思維的素養。而更進一步來想，做資料分析的時候，會在看到了兩個變量呈現這麼線性的結果了，卻不去找迴歸直線解釋兩變量的關係，反倒去看它投影到哪條線的變異數最小？用主成份分析的意義或素養在哪？

### 新穎試題應更謹慎審視與課綱的關聯性
若要將這新穎概念用到全國考試，在題目設計上，除非真有把握嚴格證明，不然一些細節的眉眉角角，不是紙上談兵就能搞定。更重要的，學生在高中時期，課本提到散佈圖的那一章節，只學習了迴歸直線，學測題目若改成考迴歸直線，更能讓學生體會到學以致用，也更符合課綱。

### 還給大家一個喜歡數學的機會
雖然說，一次的挫折不會影響一個真正有興趣的人，在數學奧林匹亞的考試中，多的是不怕挫折、勇往直前的數學勇士。但這種數以十萬計考生的大考，不能只去篩選出對數學真正有興趣的人；還有其他需要數學工具，但興趣卻在其他領域的學生。用考題給全體考生似是而非的概念，是非常不恰當的！測驗的目的，是讓學生們檢視學習上的不足，對知識內容的回顧。不要辜負了在數學學習上努力的學生，更莫讓許多長年努力使數學變得更親民、更有趣、更實用的老師及團體感到氣餒。超出課綱範圍的考題，著實會讓高中師生多出許多要備考的方向。當師生們要竭盡所能準備學測中無限擴張的概念，那就會像中了五條悟(咒述迴戰中的角色)的領域展開「無量空處」，在無限資訊流中導致大腦當機、身體無法動彈。請大考中心在試題上嚴格把關，審慎評估這些新穎試題，也讓數學教育與測驗能夠相輔相成，共創喜歡數學的未來，還給學生一個喜歡數學的機會。

### 五條　悟了嗎？
從**五條**直線**悟**出變異數**了嗎**？ XD

作者：舒宇宸
歡迎分享，引用時請註明出處(https://hackmd.io/@ycshu/variance)