# 變異數的探究與實作 --- 以2022年學測第三題為例 :::warning 變異數,標準差的平方,是一個高中就出現的統計數字 雖然概念很簡單,細節卻不是一張散佈圖就可以掌握 ::: ## 變異數是什麼 給定一組抽樣資料$\{x_1, x_2, x_3, \cdots, x_n\}$,它的**樣本變異數**$V$(以下簡稱為變異數),一般在課本上的定義為$$V=\sum\limits_{k=1}^n \left(x_k-\bar x\right)^2,$$其中$\bar x = \frac{1}{n}\sum\limits_{k=1}^n x_k$為樣本的平均數。而2022/1/21的學測,新課綱實施後第一次的大考,數學A的考題就有出現[(考題在這)](https://www.ceec.edu.tw/files/file_pool/1/0M021399096375234148/03-111%E5%AD%B8%E6%B8%AC%E6%95%B8%E5%AD%B8A%E8%A9%A6%E5%8D%B7.pdf)。第三題就考了變異數的概念,測驗了一組二維資料投影在五條直線上,哪一個變異數最小。完整的第三題請見下圖一。 ![圖一:2022學科能力測驗,數學A第三題](https://i.imgur.com/cdUAeUR.png) 圖一:2022學科能力測驗,數學A第三題 ## 主成份分析 這個題目如果有修過大學中資料分析的人一定不陌生,因為題目要求「找到變異數最小」的概念,即是主成份分析(註: 主成分分析是找變異數**最大**的幾個方向,但本題只有二維,第二大的就是最小的。)。下面圖二中的散佈圖,紅色箭頭與綠色箭頭的兩個方向,就是主成份分析中的兩個主成份軸,將資料投影到紅色軸,變異數會最小;投影到綠色軸,變異數會最大。不過若要從數據中實際計算出這兩軸,將會用到線性代數中的奇異值分解,而在大學中,奇異值分解會在線性代數的課程中學到。(老高說:這個以後我們還會專門做一個主題給大家講解)那這樣的一個問題在學測中出現合適嗎?不過先說結論:沒做適當的假設,這一題的答案可以不同!想直接看例子的讀者可以跳過論述,往下直接看[事實的真相](#%E4%BA%8B%E5%AF%A6%E7%9A%84%E7%9C%9F%E7%9B%B8)。而這個題目,更提供了高中學生們可以用來探究與實作的好例子。 ![圖二:資料散佈圖與主成份分析的兩個主成份軸](https://i.imgur.com/tF65gcV.png) 圖二:資料散佈圖與主成份分析的兩個主成份軸 ## 用感覺猜變異數大小? 因為這只是個選擇題。學生也不需要真的求出主成份軸,只要可以用課本中的做法來求得答案,也是給學生的一種挑戰。我們可以拿掉主成份分析的概念不看,也不要用到奇異值分解,就從題目要求的方式來操作。根據題目的描述,學生應該就是把直線畫出來,將資料點投影過去,然後在「沒有數字」的情況下想像變異數的大小。或許有些可以跟出題者**心靈相通**的學生們,想到擠在一起的資料變異數比較小,就猜到答案是(5)。筆者猜測出題者出這題的心境,也只是單純想要考投影資料分佈範圍的大小,然後直觀地推論出變異數的大小,所以也沒想太多,就直接沿用主成份分析的敘述方式,就以變異數最小來出題。但這造成了兩個問題: 1. 在高中的課綱中,沒有提到在沒有數字的情況下怎麼估計變異數。也沒有任何一本課本有提到上述無數字但要估計變異數的方式。這有超出課綱的嫌疑。 2. 變異數的大小,跟資料分佈的範圍並不是完全等價。 所以筆者仿照原題,在下面出了一個題目。而為了簡化,我們也不要再做資料點的投影了,先幫大家投影好,放在一條直線上! ### 自創題目一 :::info 「以下兩張圖,是一組二維數據,四個資料點投影到兩條直線上的點,請問這兩次投影後所成的一維數據,哪一個的變異數比較小?」 ::: 圖三![ABCD的散佈圖](https://i.imgur.com/f1nvTKf.png) 圖四![A'B'C'D'的散佈圖](https://i.imgur.com/P9nxhCY.png) 我甚至還可以多告訴你,C、D跟C’、D’的位置一樣,A’在A的右邊,B’在B的左邊。AD的長度比A’D’的長度來得長。也不要刁難大家,選項也就3個就好。 (1) A、B、C、D 的變異數比較小 (2) A'、B'、C'、D' 的變異數比較小 (3) 要高中生在只有圖的情況下選出答案,是在玩我嗎? 我也不透露答案,有興趣的同學可以在兩條直線上各自定好原點,方向,單位長,然後把兩個圖中的八個點都轉成數字,再計算這兩組的變異數。幸好原點、方向都不會影響答案(能知道這一點的學生真的很有數感了),加上兩張圖的單位長定成一樣就可以比了。但是,**原始散佈圖的兩軸,很有可能是不同單位的啊**!如X軸單位是公里,Y軸是耗油量,上面的某條直線是要如何決定其上的單位長?當然你也可以說,這個是數學問題,兩個軸都是沒有因次的單位,而單位長就是原來圖形上的單位長。但這些在題目中都.沒.有.提.到.啊!學生還得自己想到要這樣做才行。這讓我想起了之前舊課綱中,做幾何題時被題目中**沒畫出來**的一條神奇輔助線支配的恐懼。而這題的解答,大多是也以資料分佈範圍的寬窄來說明。如果真要這樣,題目描述只要考個「全距」即可,大家可以觀察出全距的大小,也避開了主成份分析,豈不美哉?如果讀著有興趣提高難度,宜蘭高中退休老師官長壽老師也提供了一個12個點的[GeoGebra的檔案](https://www.geogebra.org/m/jwagyrae),大家也可以試試。 :::danger 在兩個人的感情世界中,你就是要猜到我的想法才是甜蜜! 嗯,數學考試也是。 ::: 不過,這題倒是有很多老師覺得出得不錯!因為他們很快地猜到了出題者的想法,有種一拍即合的快感!反正感覺對了,就對了!資料分佈的範圍小,就會有比較小的變異數。但事實的真相並不是如此! :::success 什麼時候數學變成了感覺對了,就是對的? 數感也要正確的數感才是,那是經過千錘百鍊之後對事物的洞察。 ::: 筆者要強調的是,分佈較廣的資料,其標準差或變異數就會較大的直覺,不是一個正確的數感。我想看到這邊,大家也知道我剛剛出的那一題自創題目一的答案是哪一個了。下面再請大家試試,在圖五中有十組散佈圖,分別放在$y=1$到$y=10$的直線上,每一條水平線上都有40個點。但40個點太多了,筆者沒有辦法一一檢驗每個點的位置,不能保證有沒有點會重疊在一起的情況。而為了讓大家看出資料分佈有多廣,也已經將每一組資料的最小值調整到0。請問大家在圖五中,哪一條水平線上的資料,它的變異數會是最小的?各位老師覺得這個題目就跟學測第三題是否類似呢?會覺得容易嗎?真的很難! ### 自創題目二 :::info 「以下圖五中,是10組二維數據,每一組數據都是40個資料點的一維散佈圖,請問這10組中,那一組數據的變異數比較小?」 ::: ![10組數據散佈圖](https://i.imgur.com/igIU8KE.jpg) 圖五:有10組數據,每組40個資料點的散佈圖,分別放在$y=1$到$y=10$上(10條水平線未在圖中呈現) ## 事實的真相 也會有人說,這個不一樣,那是筆者自己造的數據,就事論事,學測題目才沒有這麼刁鑽呢!學測題目上的數據點,看起來就是投影到$y=-\frac{1}{2}x$會最小啊。為什麼筆者還要這麼堅持呢?那就來告訴大家堅持的理由。新課綱不是要探究與實作嗎?筆者自己將所有的數據用電腦稍微估計了一下,也將投影在五個選項的直線上的點畫了出來,直線平移是為了好觀察。如下圖六。在第三題選擇(5)這個答案的人,也會說:++這看起來就是投影在選項(5)最小啊!沒毛病!++ 但**細節總是藏在魔鬼中**(大家有注意到細節嗎 XD),請大家觀察一下圖六中的紅色點,是不是擠在同一個範圍內了?是不是有些點重覆了?(你也可以看紅色虛線的投影方向,其實上面就可以看到好幾個點會投到差不多一樣的位置了) :::danger 點會重覆!點會重覆!點會重覆! (很重要所以說三次!) ::: ![原始資料點在五條直線上的投影](https://i.imgur.com/wRCqN2X.png) 圖六:原始數據投影到五個選項中的直線(直線有平移過,只是為了能明顯看出散佈圖),而虛線為投影到該直線時所投影的方向。 讓我們再看回散佈圖。這個散佈圖中,仔細數一數應該大約有40個點,而散佈圖中也有好幾個點,疊在了差不多同一個位置,你能夠確定圖形上面的一個點,就是一個資料點嗎?不會像剛剛投影到一條直線時會重覆嗎?有做過散佈圖的人,應該會遇到好幾個資料點出現在同一個位置的情況吧。前面投影到一維,大家就認為可以疊一起,現在回到二維就一定要一個點一個資料嗎?難道這張圖不會是某個三維資料的投影嗎?給定資料,可以做出散佈圖,這個邏輯方向是對的。但給定散佈圖,可以推回去完整的資料點嗎?數學老師在教「若P則Q」的邏輯概念時,也會強調它不能「若Q則P」。現在這個散佈圖,可以推得完整資料點嗎? :::warning 我們讓X、Y兩軸都是0到15,代表國文及英文的級分,將所有考生的成績製成散佈圖,這樣最多也是256個點啊!難道可以說我們只有256位考生? ::: 既然新課綱強調探究與實作,那麼筆者再認真地探究與實作一下。從題目的出題與散佈圖中,再造出一個投影到$y=-x$的變異數最小的情況來。透過重覆散佈圖中的某些點,就可以「嚴重」地影響到變異數!有興趣的人可以到 https://reurl.cc/oeQayQ 下載筆者製作好的Excel檔案。所以若真的考變異數,而且在目前題目的描述之下,答案不是唯一的。只要適當地選取重複的資料點,就有可能讓其他的答案都是對的。如果讀者想要自行探究一下的話,也可以試試看有沒有辦法重複其他點,讓答案變成除了(3)或(5)之外的選項。 ![](https://i.imgur.com/ZdsPLNe.png) 圖七:Excel打開後的截圖,右方紅色箭頭處就是投影到(3)$y=-x$的變異數,確實比投影到(5)$y=-\frac{1}{2}x$來得小 ### 有趣的反例,猜想的起源 筆者會有這樣的反例的猜想,主要來自於之前曾經看過陽明交通大學魏澤人老師分享過的一部[影片](https://youtu.be/BYQg9LRjVQs),魏老師真的是個天才,可以讓散佈圖中出現文字,還可以得到相同的標準差!{%youtube BYQg9LRjVQs %} 除此之外,還有一部由Autodesk Research的兩位作者,Justin Matejka及George Fitzmaurice所創作的Youtube影片。在影片中展示了非常多有趣的散佈圖,不管是恐龍、五角星、橢圓、九個群聚點等等,它們投影到X、Y軸上,會有相近的平均數(影片中的X Mean,Y Mean)、標準差(影片中的X SD、Y SD,變異數是標準差的平方)、以及相關係數,這些數據在有效位數為小數下兩位時都一樣。有興趣的讀者可以點一下面所附的影片,或是點一下這個[連結](https://www.youtube.com/watch?v=DbJyPELmhJc)。 {%youtube DbJyPELmhJc %} ## 建議 ### 變異數能代表資料分佈範圍,要先知道資料是何種分佈 為何課本中會提到變異數的大小能代表資料分佈範圍呢?課本中那樣的說法是必須有**前提**的。例如,原始資料是**常態分佈**,然後就可以推論出與平均數相距一個標準差(變異數開根號後的值)中會有多少資料點。在筆者自創題目二中的散佈圖,資料其實來自於不同的分佈,所以當然看不出來哪一組的變異數比較小。而如果真的要透過變異數來比較兩組資料的分佈範圍,也必須要兩組資料是在同一個分佈的前提下,再來進行分析討論。 ### 素養題引入真正素養 既然新課綱想要讓學生有多方面的數學素養,出題者也花費心思,創造這類資料分析的「素養」題。筆者本身也很欣賞這題測驗的資料分析概念。但造出反例就是在告訴大家,「資料分佈範圍小與變異數小」是不等價的。也是希望藉此培養學生批判性思維的素養。而更進一步來想,做資料分析的時候,會在看到了兩個變量呈現這麼線性的結果了,卻不去找迴歸直線解釋兩變量的關係,反倒去看它投影到哪條線的變異數最小?用主成份分析的意義或素養在哪? ### 新穎試題應更謹慎審視與課綱的關聯性 若要將這新穎概念用到全國考試,在題目設計上,除非真有把握嚴格證明,不然一些細節的眉眉角角,不是紙上談兵就能搞定。更重要的,學生在高中時期,課本提到散佈圖的那一章節,只學習了迴歸直線,學測題目若改成考迴歸直線,更能讓學生體會到學以致用,也更符合課綱。 ### 還給大家一個喜歡數學的機會 雖然說,一次的挫折不會影響一個真正有興趣的人,在數學奧林匹亞的考試中,多的是不怕挫折、勇往直前的數學勇士。但這種數以十萬計考生的大考,不能只去篩選出對數學真正有興趣的人;還有其他需要數學工具,但興趣卻在其他領域的學生。用考題給全體考生似是而非的概念,是非常不恰當的!測驗的目的,是讓學生們檢視學習上的不足,對知識內容的回顧。不要辜負了在數學學習上努力的學生,更莫讓許多長年努力使數學變得更親民、更有趣、更實用的老師及團體感到氣餒。超出課綱範圍的考題,著實會讓高中師生多出許多要備考的方向。當師生們要竭盡所能準備學測中無限擴張的概念,那就會像中了五條悟(咒述迴戰中的角色)的領域展開「無量空處」,在無限資訊流中導致大腦當機、身體無法動彈。請大考中心在試題上嚴格把關,審慎評估這些新穎試題,也讓數學教育與測驗能夠相輔相成,共創喜歡數學的未來,還給學生一個喜歡數學的機會。 ### 五條 悟了嗎? 從**五條**直線**悟**出變異數**了嗎**? XD 作者:舒宇宸 歡迎分享,引用時請註明出處(https://hackmd.io/@ycshu/variance)