變異數的探究與實作 --- 以2022年學測第三題為例

# 變異數的探究與實作 --- 以2022年學測第三題為例 :::warning 變異數，標準差的平方，是一個高中就出現的統計數字雖然概念很簡單，細節卻不是一張散佈圖就可以掌握 ::: ## 變異數是什麼給定一組抽樣資料$\{x_1, x_2, x_3, \cdots, x_n\}$，它的**樣本變異數**$V$(以下簡稱為變異數)，一般在課本上的定義為$$V=\sum\limits_{k=1}^n \left(x_k-\bar x\right)^2，$$其中$\bar x = \frac{1}{n}\sum\limits_{k=1}^n x_k$為樣本的平均數。而2022/1/21的學測，新課綱實施後第一次的大考，數學A的考題就有出現[(考題在這)](https://www.ceec.edu.tw/files/file_pool/1/0M021399096375234148/03-111%E5%AD%B8%E6%B8%AC%E6%95%B8%E5%AD%B8A%E8%A9%A6%E5%8D%B7.pdf)。第三題就考了變異數的概念，測驗了一組二維資料投影在五條直線上，哪一個變異數最小。完整的第三題請見下圖一。 ![圖一：2022學科能力測驗，數學A第三題](https://i.imgur.com/cdUAeUR.png) 圖一：2022學科能力測驗，數學A第三題 ## 主成份分析這個題目如果有修過大學中資料分析的人一定不陌生，因為題目要求「找到變異數最小」的概念，即是主成份分析(註: 主成分分析是找變異數**最大**的幾個方向，但本題只有二維，第二大的就是最小的。)。下面圖二中的散佈圖，紅色箭頭與綠色箭頭的兩個方向，就是主成份分析中的兩個主成份軸，將資料投影到紅色軸，變異數會最小；投影到綠色軸，變異數會最大。不過若要從數據中實際計算出這兩軸，將會用到線性代數中的奇異值分解，而在大學中，奇異值分解會在線性代數的課程中學到。(老高說：這個以後我們還會專門做一個主題給大家講解)那這樣的一個問題在學測中出現合適嗎？不過先說結論：沒做適當的假設，這一題的答案可以不同！想直接看例子的讀者可以跳過論述，往下直接看[事實的真相](#%E4%BA%8B%E5%AF%A6%E7%9A%84%E7%9C%9F%E7%9B%B8)。而這個題目，更提供了高中學生們可以用來探究與實作的好例子。 ![圖二：資料散佈圖與主成份分析的兩個主成份軸](https://i.imgur.com/tF65gcV.png) 圖二：資料散佈圖與主成份分析的兩個主成份軸 ## 用感覺猜變異數大小？因為這只是個選擇題。學生也不需要真的求出主成份軸，只要可以用課本中的做法來求得答案，也是給學生的一種挑戰。我們可以拿掉主成份分析的概念不看，也不要用到奇異值分解，就從題目要求的方式來操作。根據題目的描述，學生應該就是把直線畫出來，將資料點投影過去，然後在「沒有數字」的情況下想像變異數的大小。或許有些可以跟出題者**心靈相通**的學生們，想到擠在一起的資料變異數比較小，就猜到答案是(5)。筆者猜測出題者出這題的心境，也只是單純想要考投影資料分佈範圍的大小，然後直觀地推論出變異數的大小，所以也沒想太多，就直接沿用主成份分析的敘述方式，就以變異數最小來出題。但這造成了兩個問題： 1. 在高中的課綱中，沒有提到在沒有數字的情況下怎麼估計變異數。也沒有任何一本課本有提到上述無數字但要估計變異數的方式。這有超出課綱的嫌疑。 2. 變異數的大小，跟資料分佈的範圍並不是完全等價。所以筆者仿照原題，在下面出了一個題目。而為了簡化，我們也不要再做資料點的投影了，先幫大家投影好，放在一條直線上！ ### 自創題目一 :::info 「以下兩張圖，是一組二維數據，四個資料點投影到兩條直線上的點，請問這兩次投影後所成的一維數據，哪一個的變異數比較小？」 ::: 圖三![ABCD的散佈圖](https://i.imgur.com/f1nvTKf.png) 圖四![A'B'C'D'的散佈圖](https://i.imgur.com/P9nxhCY.png) 我甚至還可以多告訴你，C、D跟C’、D’的位置一樣，A’在A的右邊，B’在B的左邊。AD的長度比A’D’的長度來得長。也不要刁難大家，選項也就3個就好。 (1) A、B、C、D 的變異數比較小 (2) A'、B'、C'、D' 的變異數比較小 (3) 要高中生在只有圖的情況下選出答案，是在玩我嗎？我也不透露答案，有興趣的同學可以在兩條直線上各自定好原點，方向，單位長，然後把兩個圖中的八個點都轉成數字，再計算這兩組的變異數。幸好原點、方向都不會影響答案(能知道這一點的學生真的很有數感了)，加上兩張圖的單位長定成一樣就可以比了。但是，**原始散佈圖的兩軸，很有可能是不同單位的啊**！如X軸單位是公里，Y軸是耗油量，上面的某條直線是要如何決定其上的單位長？當然你也可以說，這個是數學問題，兩個軸都是沒有因次的單位，而單位長就是原來圖形上的單位長。但這些在題目中都．沒．有．提．到．啊！學生還得自己想到要這樣做才行。這讓我想起了之前舊課綱中，做幾何題時被題目中**沒畫出來**的一條神奇輔助線支配的恐懼。而這題的解答，大多是也以資料分佈範圍的寬窄來說明。如果真要這樣，題目描述只要考個「全距」即可，大家可以觀察出全距的大小，也避開了主成份分析，豈不美哉？如果讀著有興趣提高難度，宜蘭高中退休老師官長壽老師也提供了一個12個點的[GeoGebra的檔案](https://www.geogebra.org/m/jwagyrae)，大家也可以試試。 :::danger 在兩個人的感情世界中，你就是要猜到我的想法才是甜蜜！嗯，數學考試也是。 ::: 不過，這題倒是有很多老師覺得出得不錯！因為他們很快地猜到了出題者的想法，有種一拍即合的快感！反正感覺對了，就對了！資料分佈的範圍小，就會有比較小的變異數。但事實的真相並不是如此！ :::success 什麼時候數學變成了感覺對了，就是對的？數感也要正確的數感才是，那是經過千錘百鍊之後對事物的洞察。 ::: 筆者要強調的是，分佈較廣的資料，其標準差或變異數就會較大的直覺，不是一個正確的數感。我想看到這邊，大家也知道我剛剛出的那一題自創題目一的答案是哪一個了。下面再請大家試試，在圖五中有十組散佈圖，分別放在$y=1$到$y=10$的直線上，每一條水平線上都有40個點。但40個點太多了，筆者沒有辦法一一檢驗每個點的位置，不能保證有沒有點會重疊在一起的情況。而為了讓大家看出資料分佈有多廣，也已經將每一組資料的最小值調整到0。請問大家在圖五中，哪一條水平線上的資料，它的變異數會是最小的？各位老師覺得這個題目就跟學測第三題是否類似呢？會覺得容易嗎？真的很難！ ### 自創題目二 :::info 「以下圖五中，是10組二維數據，每一組數據都是40個資料點的一維散佈圖，請問這10組中，那一組數據的變異數比較小？」 ::: ![10組數據散佈圖](https://i.imgur.com/igIU8KE.jpg) 圖五：有10組數據，每組40個資料點的散佈圖，分別放在$y=1$到$y=10$上(10條水平線未在圖中呈現) ## 事實的真相也會有人說，這個不一樣，那是筆者自己造的數據，就事論事，學測題目才沒有這麼刁鑽呢！學測題目上的數據點，看起來就是投影到$y=-\frac{1}{2}x$會最小啊。為什麼筆者還要這麼堅持呢？那就來告訴大家堅持的理由。新課綱不是要探究與實作嗎？筆者自己將所有的數據用電腦稍微估計了一下，也將投影在五個選項的直線上的點畫了出來，直線平移是為了好觀察。如下圖六。在第三題選擇(5)這個答案的人，也會說：++這看起來就是投影在選項(5)最小啊！沒毛病！++ 但**細節總是藏在魔鬼中**(大家有注意到細節嗎 XD)，請大家觀察一下圖六中的紅色點，是不是擠在同一個範圍內了？是不是有些點重覆了？(你也可以看紅色虛線的投影方向，其實上面就可以看到好幾個點會投到差不多一樣的位置了) :::danger 點會重覆！點會重覆！點會重覆！ (很重要所以說三次！) ::: ![原始資料點在五條直線上的投影](https://i.imgur.com/wRCqN2X.png) 圖六：原始數據投影到五個選項中的直線(直線有平移過，只是為了能明顯看出散佈圖)，而虛線為投影到該直線時所投影的方向。讓我們再看回散佈圖。這個散佈圖中，仔細數一數應該大約有40個點，而散佈圖中也有好幾個點，疊在了差不多同一個位置，你能夠確定圖形上面的一個點，就是一個資料點嗎？不會像剛剛投影到一條直線時會重覆嗎？有做過散佈圖的人，應該會遇到好幾個資料點出現在同一個位置的情況吧。前面投影到一維，大家就認為可以疊一起，現在回到二維就一定要一個點一個資料嗎？難道這張圖不會是某個三維資料的投影嗎？給定資料，可以做出散佈圖，這個邏輯方向是對的。但給定散佈圖，可以推回去完整的資料點嗎？數學老師在教「若P則Q」的邏輯概念時，也會強調它不能「若Q則P」。現在這個散佈圖，可以推得完整資料點嗎？ :::warning 我們讓X、Y兩軸都是0到15，代表國文及英文的級分，將所有考生的成績製成散佈圖，這樣最多也是256個點啊！難道可以說我們只有256位考生？ ::: 既然新課綱強調探究與實作，那麼筆者再認真地探究與實作一下。從題目的出題與散佈圖中，再造出一個投影到$y=-x$的變異數最小的情況來。透過重覆散佈圖中的某些點，就可以「嚴重」地影響到變異數！有興趣的人可以到 https://reurl.cc/oeQayQ 下載筆者製作好的Excel檔案。所以若真的考變異數，而且在目前題目的描述之下，答案不是唯一的。只要適當地選取重複的資料點，就有可能讓其他的答案都是對的。如果讀者想要自行探究一下的話，也可以試試看有沒有辦法重複其他點，讓答案變成除了(3)或(5)之外的選項。 ![](https://i.imgur.com/ZdsPLNe.png) 圖七：Excel打開後的截圖，右方紅色箭頭處就是投影到(3)$y=-x$的變異數，確實比投影到(5)$y=-\frac{1}{2}x$來得小 ### 有趣的反例，猜想的起源筆者會有這樣的反例的猜想，主要來自於之前曾經看過陽明交通大學魏澤人老師分享過的一部[影片](https://youtu.be/BYQg9LRjVQs)，魏老師真的是個天才，可以讓散佈圖中出現文字，還可以得到相同的標準差！{%youtube BYQg9LRjVQs %} 除此之外，還有一部由Autodesk Research的兩位作者，Justin Matejka及George Fitzmaurice所創作的Youtube影片。在影片中展示了非常多有趣的散佈圖，不管是恐龍、五角星、橢圓、九個群聚點等等，它們投影到X、Y軸上，會有相近的平均數(影片中的X Mean，Y Mean)、標準差(影片中的X SD、Y SD，變異數是標準差的平方)、以及相關係數，這些數據在有效位數為小數下兩位時都一樣。有興趣的讀者可以點一下面所附的影片，或是點一下這個[連結](https://www.youtube.com/watch?v=DbJyPELmhJc)。 {%youtube DbJyPELmhJc %} ## 建議 ### 變異數能代表資料分佈範圍，要先知道資料是何種分佈為何課本中會提到變異數的大小能代表資料分佈範圍呢？課本中那樣的說法是必須有**前提**的。例如，原始資料是**常態分佈**，然後就可以推論出與平均數相距一個標準差(變異數開根號後的值)中會有多少資料點。在筆者自創題目二中的散佈圖，資料其實來自於不同的分佈，所以當然看不出來哪一組的變異數比較小。而如果真的要透過變異數來比較兩組資料的分佈範圍，也必須要兩組資料是在同一個分佈的前提下，再來進行分析討論。 ### 素養題引入真正素養既然新課綱想要讓學生有多方面的數學素養，出題者也花費心思，創造這類資料分析的「素養」題。筆者本身也很欣賞這題測驗的資料分析概念。但造出反例就是在告訴大家，「資料分佈範圍小與變異數小」是不等價的。也是希望藉此培養學生批判性思維的素養。而更進一步來想，做資料分析的時候，會在看到了兩個變量呈現這麼線性的結果了，卻不去找迴歸直線解釋兩變量的關係，反倒去看它投影到哪條線的變異數最小？用主成份分析的意義或素養在哪？ ### 新穎試題應更謹慎審視與課綱的關聯性若要將這新穎概念用到全國考試，在題目設計上，除非真有把握嚴格證明，不然一些細節的眉眉角角，不是紙上談兵就能搞定。更重要的，學生在高中時期，課本提到散佈圖的那一章節，只學習了迴歸直線，學測題目若改成考迴歸直線，更能讓學生體會到學以致用，也更符合課綱。 ### 還給大家一個喜歡數學的機會雖然說，一次的挫折不會影響一個真正有興趣的人，在數學奧林匹亞的考試中，多的是不怕挫折、勇往直前的數學勇士。但這種數以十萬計考生的大考，不能只去篩選出對數學真正有興趣的人；還有其他需要數學工具，但興趣卻在其他領域的學生。用考題給全體考生似是而非的概念，是非常不恰當的！測驗的目的，是讓學生們檢視學習上的不足，對知識內容的回顧。不要辜負了在數學學習上努力的學生，更莫讓許多長年努力使數學變得更親民、更有趣、更實用的老師及團體感到氣餒。超出課綱範圍的考題，著實會讓高中師生多出許多要備考的方向。當師生們要竭盡所能準備學測中無限擴張的概念，那就會像中了五條悟(咒述迴戰中的角色)的領域展開「無量空處」，在無限資訊流中導致大腦當機、身體無法動彈。請大考中心在試題上嚴格把關，審慎評估這些新穎試題，也讓數學教育與測驗能夠相輔相成，共創喜歡數學的未來，還給學生一個喜歡數學的機會。 ### 五條　悟了嗎？從**五條**直線**悟**出變異數**了嗎**？ XD 作者：舒宇宸歡迎分享，引用時請註明出處(https://hackmd.io/@ycshu/variance)