# 什麼?!貓貓的鬍鬚滿足常態分布嗎? ###### tags: `開源社` 如果我跟你說,經過統計,貓咪臉上的鬍鬚的長度會形成一個鐘形曲線,甚至接近常態分布,你會相信嗎?如果我接著和你說,只要有五隻任人擺布的貓,並且平均每隻貓肉眼可見的鬍鬚數量約50根,可以一次得到超過250筆數據可以作圖,那我所分析出來的結果,是否就比較可信呢?  **貓貓和常態分佈的超splendid組合**?很酷耶不是嗎? 先分享給朋友再說啦! 。 。 。 。 。 等等,拜託別去! 這個數據是假的,**假的啦!** 我只是想要利用聽起來平易近人的常態分佈和貓貓騙取各位關注而已 ~(owo)~ 但這個數據到底「假」在哪裡,大家能辨識的出來嗎?如果只有一份圖表而沒有其他任何說明,我們應該從哪個面向、從什麼角度來討論數據的真實性呢? #假數據#假新聞#數據與解讀#數據篇之一 ## 一、「這個數據是真的嗎」 在假新聞和各種誤導訊息盛傳的今天,當大家看到一個讓人驚奇的結果時,如果它是像是「貓貓鬍鬚長度」這種無關利益的主題,我們可能會單純地為這個研究結論感到驚訝,然後心想:「哦!原來如此!」,然而,大部分的提問多少都會牽涉到某些利益,這時多數人應該都會問這樣一個問題:「真的假的啊?」 「**這個數據是真的嗎?**」是我們經常對明確主張某件事實的論述所提出的疑問,並希望從某個消息來源得到答案。可是,這個問題問起來很單純,但實際要回答起來卻不是那麼容易。 ### 1. 真與假的意義 其實不論是所謂硬科學或軟科學,在正常的研究情境之下,一般我們不會討論一個數據是「真的」或「假的」,而是說它是「**合理的**」或「**錯的**」。當數據取得的過程中有「人為刻意的介入操弄」,這個數據才會被稱作是假的或**偽造的數據**;而當一份數據被刻意以錯誤的方式解讀,或是當錯誤解讀的數據進到了知識傳播的領域時,才是通常被我們以「真」或「假」論之的錯誤消息、**假新聞**等,而「假數據」一詞在這個認知脈絡之下才有明確的意義,意即「**因遭到錯誤解讀而構成假新聞的數據**」或是「**為了製造假新聞而刻意捏造的數據**」。 ### 2. 如果「假」指的是偽造,那誤差再大的數據都是真的 在知識傳播的場域,通常我們對「假數據」的認知是與假新聞或假資訊綁在一起的。那麼,為什麼只有在「假新聞」這個脈絡之下,「假數據」一詞才有明確意義呢?以下有一個例子供大家參考: > 假設在遙遠的東方有個逮丸國,這個逮丸國的國王由於愛貓成癡,於是想要調查**國內松鼠的平均數量**,以判斷**逮丸國對野貓的環境負載力有多高**(作者註:松鼠對不起qq),於是她派人(1)**將逮丸國沿著經緯線劃分為1000個取樣區** 並從中(2)**隨意選取77個樣區以捉放法進行松鼠數量估計**,並(3)**藉此數據算出全國松鼠數量共1013.7隻**,考慮松鼠的繁殖速度並(4)**假設每隻貓一天僅需獵捕一隻松鼠**,逮丸國的研究人員得出一個結論:國內可以容納(5)**25隻野貓**,並且(6)**在往後的半年間野貓的數量也確實地在20-30隻上下**。 不論我們的專業是什麼,單憑我們各自的理性大概就能發現這段論述的各種可疑之處: > (1)(2)(3) 在不明白逮丸國國土大小及地理人文的情況下,若沿著經緯線劃分樣區,每個樣區的異質性可能很高,松鼠族群的分布可能會有很大的差異,在這個情況下還隨機選取樣區以估計全國松鼠數量,實在不合理。 >(4) 會爬樹的獵物中,我好像只看過蜥蜴和小鳥成為貓咪爪下亡魂;而且技術好的貓可以一天抓好幾隻,抓完再跑去吃飼料。 > (5)(6) 回到該論述最初的提問----環境負載力的問題,某一特定時刻的族群數量並不足以說明該地區的環境負載力大小,當然更不能僅由這單一筆數據與研究結果相符來論證研究的合理性。 數據的每次測量一定都伴隨著**誤差**,而誤差的性質會隨著研究對象本身的性質以及實驗/採樣環境的選擇而有所不同,**甚至會讓數據的偏差大到「誤差」一詞根本沒有意義,甚至可以說這份數據是「錯的」;在這個情況下「數據」與「模型」的擬合還有意義嗎?** 因此, #### 由於誤差和研究方法的不同,關於同一個研究對象的數據可以相當不一樣;解讀方式的差異,也可能讓數據指涉的是截然不同的事物。。 當每筆數據都得自真實世界而沒有人為**刻意**操作,它們都可以被稱呼為「真數據」,但全部的數據皆被稱為真的的時候,「真」這個標籤卻對我們理解數據及其背後反映的現實沒有實質的貢獻。這就是為什麼在做研究時,比起討論真假,我們更常問一份數據「**是否合理**」---- 我們在乎的是它如何且在多大程度上反映了真實世界的情況。 ## 二、「這份數據合理嗎?」才是比較理想的提問方式 現在讓我們回到「貓咪鬍鬚長度符合常態分布」這件事,我們可以相信這個結論嗎?對於這個結論以及支持它的數據,你會想提出哪方面的問題以觀察/質疑/支持/反對該結論呢? >A. 實驗環境與量測方式 B. 處理數據的方式 C. 數據解讀的過程與合理性 D. 完蛋,我完全沒想法OAQ E. 其他 例如我會選(A),因為我才不相信5隻貓都會乖乖地給你抓鬍鬚... 你選好了嗎?歡迎在下方留言區發表自己的選擇!如果願意的話可以簡短論述你的想法,讓更多的人能一起參與討論owo覺得別人講得不錯的話可以幫他們按個讚表示贊同喔!
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up