CHANCING IT: The Laws of Chance and How They Can Work For You === 在古埃及時代就有機率的遊戲,但到了 17 世紀才有人敢挑戰亞里斯多德的觀點 --- 『There can be no demonstrative knowledge of chance.』 :::info **Demonstrative knowledge** is when we perceive the agreement or disagreement indirectly through a series of intermediate ideas. For example, I know that A is greater than B and B is greater than C, thus I know demonstratively that A is greater than C. ::: 為什麼可靠的機率理論直到最近才出現? 機率通常是如此的違反我們的直覺,舉個例子: 1. 一個足球隊 (22 人) 中有兩個人生日相同的機率是多少? 直覺地來說我們會認為 22/365 所以機率小於 0.1,但根據機率定律,真正的答案約為 0.9。 2. 給一塊公平的硬幣,在小跑時硬幣正面朝上投擲,使得背面更容易出現。 在很多方面我們都可望『確定』,但事實上這並不存在,不過也不用因此而成為命定論者。 若要讓機率定律作為我們的後盾,我們就需要知道它的極限以及何時會被濫用。 ## 平均定律的意義 我們都知道投擲一個硬幣,其出現正反面的機率是 50-50,而這就是我們所熟知的平均定律。 曾經有個投擲硬幣的實驗結果如下表所示 | 投擲次數 | 出現正面次數 | 出現反面次數 | 正反面相差次數 | | -------- | -------- | -------- | -------- | |10|4|6|-2|40%| | 100 | 44 | 56 | -12 | | 500 | 255 | 245 | +10 | | 1000 | 502 | 498 | +4 | | 5000 | 2533 | 2467 | +66 | | 10000 | 5067 | 4933 | +134 | 從這個實驗可以發現隨著投擲次數的增加出現正反面的次數卻沒有更接近一半一半。 一般很多人認為平均定律指的就是 --- 「長遠下來,所有結果出現的次數會相同。」 從平均定律我們可以發現一個了解機率運作的一個關鍵。 我們沒辦法確定每次的投擲會出現正面或反面,或者我們會投擲出幾次正面幾次反面。我們應該說的是正面和反面出現的頻率會相似。 所以平均定律告訴我們的是,想要了解機率是如何運作於事件上,我們不應該著重在每個個別的事件而是這些事件的相對頻率,也就是說我們要瞭解的是每個事件出現的次數跟所有事件出現的次數的比例。 | 投擲次數 | 出現正面次數 | 出現反面次數 | 正反面相差次數 | 正面出現頻率| | -------- | -------- | -------- | -------- | -------- | |10|4|6|-2|40%| | 100 | 44 | 56 | -12 | 44% | | 500 | 255 | 245 | +10 | 51% | | 1000 | 502 | 498 | +4 | 50.2% | | 5000 | 2533 | 2467 | +66 | 50.66% | | 10000 | 5067 | 4933 | +134 | 50.67% | ----- ## 書本裡的一些額外知識 數學家跟一般人不同的點 --- 數學家永遠想著證明 > **證明**指的是數學證明 > 數學家堅持對一些我們直覺認為是對的問題進行證明,像是 Jordan Curve Theorem * 什麼是 Jordan Curve Theorem? 若在平面上畫一個簡單閉曲線,其會把平面分成兩部分,一個內部區域及一個外部區域。 但這些執著的結果卻會有些驚人的發現,舉例來說,從 1 一直加到無限的結果是多少? > $1+2+3+4+...=-\frac{1}{12}$ 證明影片: {%youtube w-I6XTVZXww %} ## Bernoulli's Golden Theorem 機率令人感到有意思的是它的多變性,我們對於機率的定義會隨著我們問的問題而不同。 假設我們今天問一顆骰子要骰出 2 的機率是多少? 這個答案很簡單,就是前面我們提到的把它想成是出現的頻率。骰子總共有六種結果,2 是其中一種所以出現頻率為 $\frac{1}{6}$。 但如果我們今天問的是一匹賽馬贏得比賽的機率呢? 又或是天氣預報說有 60% 機率明天會下雨是什麼意思呢? > 這段話的意思我沒有理解到答案是什麼。 ---- Girolamo Cardano 將提出機率事件用相對頻率來描述的方便。 Jacob Bernoulli 證明相對頻率對於理解機率事件來說是重要的,同時也證明建立機率時越多的資料越好,隨著資料的累積,頻率的變化幅度會變小。 > Bernoulli's Theorem 又被稱作 Weak Law of Large Number (弱大數法則) Bernoulli 定理的證明是機率中少數的跟直覺相符的。依常理來說,我們都知道資料越多越好。 但 Bernoulli 定理更告訴我們一件事 --- **我們沒辦法知道很肯定的機率,我們能做的是收集更多的資料來將失誤的風險降低到可接受的程度。** 現在,我們要問的是 --- 「**資料越多越好,但到底要多少才足夠呢?**」 想像有一個箱子裡面裝有 2000 個白球跟 3000 個黑球,我們可以知道要拿到一顆黑球的機率是 0.6,但如果今天我們不知道這個箱子裡分別裝有幾顆白球幾顆黑球呢的話,我們需要拿幾顆球才能**自信的**認為得到**接近正確**的白球跟黑球的機率呢? 首先,我們要先把「**自信的**跟**接近正確**」這個模稜兩可的形容詞做一個定義。對於「**接近正確**」我們一般定義在正確答案的正負 5% 以內或更少,至於「**自信的**」代表我們需求的準確性,可能是我們能夠達到得到的標準十次中九,也就是 90% 的成功率或更高。 也許你會想達到百分百的成功率或百分百的正確答案,但如同一開始說的,沒有肯定的答案。 Bernoulli 最後得到的答案是要實驗超過 25500 次,這是非常大的數字,但若我們想降低實驗次數那就意味著我們要將低我們所需要的成功率或放寬接近正確答案的範圍。 :::info Bernoulli 定理暗藏著一個事實就是當我們要得到想要的機率效果,我們要不是增加實驗的次數就是降低我們的標準。 ::: ### Weak Law of Large Number 弱大數法則的數學解釋: $$\text{For }\epsilon>0,\,P(|M_n-\mu|\ge\epsilon)\rightarrow 0,\, n\rightarrow\infty$$ 其中 $M_n$ 可理解為 $n$ 次實驗的平均,也就是我們對一機率事件實際進行 $n$ 次實驗而得的統計平均,而 $\mu$ 為該機率事件的理論平均。 現在讓我們用白話的方式來解釋上面的數學表示。首先, $$P(|M_n-\mu|\ge\epsilon)$$表示實驗統計的平均跟理論平均有落差的機率,而以我們對於機率的直覺告訴我們,隨著我們實驗的次數越多其結果會越接近理論結果。而弱大數法則也確實證實了這件事,當我們實驗次數趨近無限次的時候,實驗統計的平均跟理論平均有落差的機率就會趨近於 0。 換句話說,獨立且重複地觀測一發生機率為 $p$ 之事件 $A$,當觀測次數趨近至 $\infty$,事件發生之相對頻率接近 $p$ 之機率,將趨近 1。 ## The First Law of Lawlessness **當我們試著了解機率事件,忽略事件發生的次數而是其發生的相對頻率。** The first law of lawlessness 警告我們要警惕那些基於事件發生次數的主張。 這邊舉了一個實際的例子來說明 the first law of lawlessness: 2008 年英國政府決定讓青春期前的女性施打人類乳突病毒疫苗,這一項政策每年有可能助於拯救數以百計的女性。但在施行後,媒體卻發表一件引人注目的證據表示這是過於樂觀的看法,他們報導了一件關於 14 歲女孩在施打疫苗後幾個小時內便死亡的慘劇,因此他們提倡要取消這項計畫。 有些人會堅持預防原則,只要不施打疫苗就不會有人死於施打疫苗了。然而這便落入了所謂的「後此謬誤」(Post hoc fallacy) 的陷阱。 真正的原因總是先於結果,但顛倒其邏輯就有危險性。人們發生車禍事故時通常會繫上安全帶,但不代表繫上安全帶會導致車禍發生。 我們來看施打疫苗這項計畫,當時再發生這不幸的事件前已經有 130 萬女性施打疫苗,基於 the first law of lawlessness 告訴我們的要看的不是事件發生次數而是其相對頻率,這不幸的事件發生的頻率是 130 萬分之 1。 ---- 有時候**事件是否合理還需要比較其相對頻率**,這邊舉一個例子: 1980 年後期,有一間英國 GEC-Marconi 國防工業公司的某個科學部門有超過 20 人的科學家自殺,死亡或消失,這在當時掀起了一陣陰謀論。一樣的根據 the first law of lawlessness 我們要去看的是相對頻率。這間公司當時的規模有超過 3 萬人,而這些死亡的人數分布於 8 年左右,這樣計算下來當時調查結果認為這並不是什麼神秘的死亡事件。 這時我們要問: 「這樣的自殺或死亡率是正常的嗎? 我們應該用怎樣的相對頻率來做衡量比較呢?」或許我們應該用當時國家自殺率,或者是特定年紀範圍的自殺率來比較。 :::success 所以這邊的重點是『**不要以數量來衡量事件的合理性要用相對頻率,更甚者我們還需要有對照的相對頻率來衡量比較。**』 ::: ## 巧合 許多巧合看似是在我們之間有許多不可見的連結,但這些不可見的連結主要是因為我們沒有去看它。 巧合其實就是 the first law of lawlessness 的另一種表現。The first law of lawlessness 告訴我們該怎麼做才能理解機率事件,而巧合則是告訴我們這有多困難做到。 當遇到巧合時,the first law of lawlessness 告訴我們要先分析它的頻率,真正的驚人的巧合我們期望其機率是非常低的。但當我們要這麼做來分析巧合的機率時,我們會遇到一些困難 --- **我們該怎麼去計算這些事件發生的次數**。 當然我們也要先去理解,怎樣的巧合算是「驚人的」。 曾經費曼先生給了一個很實際的例子: 「今天晚上有一件最驚人的事情發生在我身上。當我在來這上課的路上,我經過了一個停車場。你可能不會相信,我看到了一輛車牌為 ARW 356 的車子! 在幾百萬輛的車子裡,我能遇到這個車牌的車子的機率有多少? 太驚人了!」 通常我們會認為一件事情是巧合總是在我們體驗了那件事之後,也就是我們評論這件事總是在事後 (post hoc),而這可能會令人誤導。因為我們體驗到的事情,可能在我們沒看見的地方做過了無數次。 其實我們人類是天生的追尋者,傾向於在沒意義的雜訊中看到意義。這其實就是心理學家所說的幻想性錯覺(apophenia)。 :::success 我們不應該只在我們遇到一件事後才去認為它是多驚人的巧合。 ::: ## The Second Law of Lawlessness 2013 年 9 月在英國,John Winfeild 在廚房將他從外面買回來的六顆蛋拿來料理,但驚人的是這六顆蛋竟然都是雙黃蛋!! 當時根據英國統計,平均來說出現雙黃蛋的機率是千分之一,所以要連續出現六顆雙黃蛋的機率是: $$ P(\text{6 double yolkers})=(\frac{1}{1000})^6=\frac{1}{10^{18}} $$ 這個機率非常的低,但其實在 John Winfeild 發現連續六顆雙黃蛋的三年前也有同樣的事情發生過。 所以,連續出現六顆雙黃蛋的機率真的有這麼低嗎? 或許是我們在計算連續六顆雙黃蛋的機率時給錯了假設。$(\frac{1}{1000})^6$ 這個機率的計算是假設每個蛋是雙黃蛋的機率是獨立,也就是不因其他蛋是否是雙黃蛋影響。但實際上若一顆蛋是雙黃蛋可能代表這顆蛋是從比較容易生出雙黃蛋的養雞場產出的,而跟這顆蛋放在一起的其他蛋也就比較有可能是雙黃蛋。 :::success **The second law of lawlessness** 提的是,當遇到看似隨機的事件我們不應隨意的就假設他們是獨立事件。 ::: ## 從樂透了解隨機這件事 從 1988 年開始的佛羅里達州樂透,產生了很多的百萬富翁,但在 2011 年 3 月 21 號,樂透使得當地人掀起了一陣陰謀論,在那天晚上的開獎使得他們知道為什麼得獎的不是他們,因為開獎的結果是固定而非隨機的。就在那天晚上樂透開出來的五個數字是: 14, 15, 16, 17, 18。要知道隨機產生的中獎數字的機率是 $\frac{1}{377000}$。 很多的樂透是 49 個數字選 6 個,直覺上我們會覺得中獎的機率是 $\frac{6}{49}$,但實際上是: $$ \frac{1}{49 \choose 6}=\frac{1}{49}\times\frac{1}{48}\times\frac{1}{47}\times\frac{1}{46}\times\frac{1}{45}\times\frac{1}{44}\times 720 $$ ### 我們如何定義隨機? 『沒有原因、無法預測的、沒有任何模式。』 這些定義都對,但有個問題,這需要在很大的尺度下才能證明 (通常我們會說是無限)。在其他尺度下,這看似沒有原因的隨機卻有可能看似有些模式。 ### The Third Law of Lawlessness 真正的隨機是找不到任何原因的,也沒有任何模式,但這不代表在任何規模上都是沒有模式的。事實上,在我們能遇見的隨機性的規模,其非常容易出現某些規律,從而使得我們產生其存在某些模式的錯覺。 ---- 以英國 2014 年 6 月開出的 8 次的樂透為例 ``` 1: 14, 19, [30, 31], [47, 48] 2: 5, 10, 16, 23, 31, 44 3: 11, [13, 14], 28, 40, 42 4: 9, 18, [22, 23], 29, 33 5: [10, 11], 18, 23, 26, 37 6: 3, 7, 13, 17, 27, 40 7: 5, 15, 19, 25, 34, 36 8: 8, 12, 28, 30, 39, 43 ``` 我們可以看到 8 次樂透裡面有 4 次的樂透出現了相連的兩個數字。這看似打破了我們對隨機是沒有任何模式的認知,但實際上以排列組合來分析,49 選 6 個數字的排列組合裡面大概有一半都是會有連續兩個數字。 計算方法如下: 首先,我們可以計算 49 個數字取任意 6 個數字的組合為 $$ {49 \choose 6} = \frac{49!}{6!43!} = \frac{49\times 48\times 47\times 46\times 45\times 44}{6\times 5\times 4\times 3\times 2\times 1} $$ 接著我們計算 49 個數字取 6 個數字且兩兩不為相鄰的數字的組合為 $$ {44 \choose 6} = \frac{44!}{6!38!} = \frac{44\times 43\times 42\times 41\times 40\times 39}{6\times 5\times 4\times 3\times 2\times 1} $$ 為什麼是 44 取 6 呢? 我們把 49 個數字分成 43 個數字跟 6 個數字,而這 6 個數字是安插在這 43 個數字的任意兩個數字之間,也就是說會有 44 個空格來放這 6 個數字。 最後我們把這兩個組合相減就是 49 個數字取 6 個數字其中有兩個數字相連的組合。 由上面的例子,我們可以學到關於隨機裡的模式這件事: 1. 隨機中可能有些模式,而且出奇的普遍 2. 很多的隨機樣本其實存在很多的模式,只是我們認為這些模式不重要 3. 當我們明確的(例如: 中獎的 6 個數字)想從隨機中知道些什麼降低了我們得到它的機會,反而只有模糊(例如: 任何連續的數字)能增加我們得到的機會 --- 很多數學家認為玩樂透是很愚蠢的,因為你要中獎的機率是 14 billion 分之 1,但你也可以說如果你玩樂透那你中獎的機率就從 0 提升到 14 billion 分之 1 了。 ## 因果關係 2014 年有個 16 歲小孩自殺,而這起自殺跟其他起孩童自殺有一個共同點 -- 他們都玩了一個電動遊戲 Call of Duty (這是一個擁有百萬粉絲的遊戲),因此有人建議家長讓孩童遠離這個遊戲。 上面的邏輯合理嗎?這個遊戲有百萬個小孩在玩,所以裡面有幾個小孩自殺並不一定是如此意外。要理解這個觀點,我們用一個類比:「很多小孩穿牛仔褲,所以穿牛仔褲會使小孩自殺。」 有時候我們在某些事情的因果關係連結上只專注在某一個部分而沒有看到全部。以上面為例,他們只注意到自殺的小孩高機率也玩了 Call of Duty。 如果今天我們要得出結論 Y 的原因 X 很常見,要注意不一定就是 X 導致 Y,反之亦然,如果結論 Y 很常見那有可能是很多種原因導致。 ## 驚人的事情終歸於平凡 你可能有遇過這樣的情況。你的朋友跟你說哪一間餐廳他們上禮拜去吃覺得非常好吃,但你去吃了一次之後卻只覺得一般般。 平均定律告訴我們要量測一受隨機影響的事件我們需要盡可能地收集資訊,但並不是任何資訊都有用,必須是具有代表性的資訊,像是一些極端情況就不具代表性。 如果我們只基於一些極端情況來評斷事情,那便會成為我們稱為「回歸平均」的犧牲品。 ## 交給隨機 > 2002 年美國國防部長 Donald Rumsfeld 被問到關於伊拉克提供恐怖份子大規模毀滅性武器的危險性的時候,他這樣回到:「如我們所知,有些已知的已知,就是我們知道一些我們知道的事情。也有些已知的未知,就是我們知道一些我們不知道的事情。但還是有些未知的未知,就是我們不知道一些我們不知道的事情。」 這段回答聽起來很可笑,但這卻也是關於知識的可靠性的令人不安的真相的簡潔的解釋 -- 有無知,然後是對自己無知的無知。面對後者,我們什麼都做不了,我們根本不知道該怎麼對抗這些我們甚至不知道是什麼的事情。但事實上,我們還是能做點什麼來多少減少這些未知的未知的威脅 -- ***交給隨機***。 引入隨機能讓我們擺脫潛藏的假設,這能最具體的體現出我們的無知,這也是為什麼隨機是如此的具有價值。 Ronald Aylmer Fisher 一位奠定現代統計學的人,在 1925 年出版的一本統計相關的教科書 "Statistical Method for Research Workers" 其中就有推薦一項工具 -- 隨機分派 (randomisation)。 在醫學實驗上這項工具尤其常見,在醫學實驗上我們要怎麼定義有相同特徵的人呢? 畢竟每個人都有各種先天上的不同,而這些不同可能就是前面所說的未知的未知。這時隨機就派上用場了,現今引入隨機的實驗就叫做 "randomised controlled trials (RCT)"。 但即便隨機也沒辦法防止發表偏差,也就是有些研究是否被發表取決於該研究的結果是否顯著。這便會使的有心人士會為了得到較為顯著或對的結果去設計 RCT。 ## 觀察性研究 (Observational Study) 並不是所有的研究都有辦法使用 RCT,例如我們沒辦法為了研究吃素對人體的影響而讓一群人從此開始吃素。這時我們能做的就是觀察性研究,觀察性研究正如其名就是觀察兩個群體,比較他們來證明研究結果。這樣的做法看起來跟 RCT 很像,但相對於 RCT 的方法少了很重要的特性 -- 隨機性。 觀察性研究因為少了隨機性來處理未知,導致我們常看到這類研究的結果常常反復無常。 下面列出兩種觀察性研究。 ### 病例對照研究 (case-control study) 為回溯性研究。這個研究的建立包含一組具有研究結果條件的群體 (cases),以及另一組沒有此結果的群體 (controls),而我們要觀察的是具有該條件的群體是否以前也有較高的比例暴露於要研究的成因之中,也就是以結果來推論成因。 病例對照研究的優點是快速且便宜。 ![](https://i.imgur.com/GSeJMab.png) ### 前瞻性隊列研究 (prospective cohort study) 為前瞻性研究。這個研究一樣分成兩組,這兩組都不知道是否會發生結果,但一組已經暴露在預期可能導致結果發生的成因下,而另一組沒有。 相較於病例對照研究可靠性較高。 ![](https://i.imgur.com/J2DtSkB.png) :::info 上面兩張圖的來源:[Case-control and Cohort studies: A brief overview](https://s4be.cochrane.org/blog/2017/12/06/case-control-and-cohort-studies-overview/) ::: ### Making sense of health headlines 我們要如何分辨一項研究結果的可靠性? 1. 是哪一種觀察性研究? 2. 該研究是否對先前未知的健康影響有出乎意料的說法? 3. 該研究的規模? 4. 影響有多大? 5. 因果關聯是否穩固? 6. 研究在哪裡發表? --- 觀察性研究永遠沒辦法有如 RCT 一樣可靠,但卻常常是很多重要問題唯一的研究方法。如果觀察性研究是有足夠規模、好的規劃、且得到的結果沒有偏離太遠,其仍然還是值得相信。 ## 群體智慧 > 西元 1906 年 Francis Galton 在英國的一個市集看到了一項有趣的活動,猜測一隻公牛的重量 (被支解過後的重量),入場費為 5 英鎊。Galton 在其中有了驚人的發現,雖然每個人的答案都不太一樣,範圍很廣,但平均的結果跟實際重量誤差卻在 1% 以內,也就是所參與群眾的猜測幾乎準確!Galton 認為結果能夠如此在於**有入場費**,這篩選掉了認為根本沒機會猜中的人而減少了單純是亂猜的人,同時活動的**報酬**讓參與者盡可能的表現最好。 群體智慧衍伸出所謂的[預測市場](https://zh.wikipedia.org/wiki/%E9%A2%84%E6%B5%8B%E5%B8%82%E5%9C%BA)。 預測市場因為有誘因及門檻所以可以蒐集到較相關的資訊,且因為能夠持續的參與直到結果出爐的前一刻也能夠避免參與者前後不一的情況。但預測市場缺乏隨機取樣,且樣本數可能不一定很多。 所以比起只相信一位專家所說的,不如建立一個預測市場。研究顯示蒐集群體的智慧會比起單獨的個人更可靠。 ## 貝氏定律 Bayes's Rule: $$ \text{Pr}(B|A)=\text{Pr}(A|B)\times \frac{\text{Pr}(B)}{\text{Pr}(A)} $$Likelihood Ratio:$$ LR = \frac{\text{Pr}(E|C)}{\text{Pr}(E|\bar{C})} $$白話解釋就是,$C$ 事件發生時觀察到 $E$ 事件跟 $C$ 事件沒發生時觀察到 $E$ 事件的比例。 下面為 likelihood ratio 跟 bayes's rule 的關係: $$\begin{align} \text{Pr}(C|E)&=\frac{\text{Pr}(C)\text{Pr}(E|C)}{\text{Pr}(E)}\\ &=\frac{\text{Pr}(C)\text{Pr}(E|C)}{\text{Pr}(C)\text{Pr}(E|C)+\text{Pr}(\bar C)\text{Pr}(E|\bar C)}\\ &=\frac{\text{Pr}(C)\frac{\text{Pr}(E|C)}{\text{Pr}(E|\bar C)}}{\text{Pr}(C)\frac{\text{Pr}(E|C)}{\text{Pr}(E|\bar C)}+\text{Pr}(\bar C)}\\ &=\frac{\text{Pr}(C)\cdot LR}{\text{Pr}(C)\cdot LR+\text{Pr}(\bar C)} \end{align}$$ 這個[網頁](https://leemeng.tw/intuitive-understandind-of-bayes-rules-and-learn-from-experience.html#%E8%AE%93%E6%88%91%E5%80%91%E5%B8%B6%E9%BB%9E%E6%95%B8%E5%AD%97%E9%80%B2%E5%8E%BB)有個簡單的範例來解釋 likelihood 跟 bayes'rule。 ### Problem of Priors? Bayes's theorem 告訴我們,一事件我們認為可能的事前機率 $\text{Pr}(C)$ 會隨著我們觀察到的新的證據而更新我們認為的可能機率 $\text{Pr}(C|E)$,但這個公式右邊的事前機率該是多少? #### Principle of Indifference 如果不知道初始的機率那就把每個結果的出現機率是為相等。 ### 條件機率對調不一定相等 發生 A 事件的條件下發生 B 事件的機率很高,並不一定代表發生 B 事件的條件下發生 A 事件的機率也很高。 例如,我們觀察到有腦瘤的人頭痛的機率很高,並不一定代表有頭痛的人就有高機率有腦瘤。