Calculus for Machine Learning and Data Science(Week3: Lesson 1 - Optimization in Neural Networks and Newton's Method)

# Probability & Statistics for Machine Learning & Data Science(Week 1 - Introduction to Probability) ###### tags: `coursera` `Linear Algebra` `math` [Week1 - Lession1 - Introduction to Probaility](https://www.coursera.org/learn/machine-learning-probability-and-statistics/home/week/1) ## What is Probability? [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/BT5Wc/what-is-probability) ### Introduction to Probability ![image.png](https://hackmd.io/_uploads/BywoMIOXp.png) 機率是一種衡量事件發生可能性的指標。用一個範例來說明，假設學校有10個小孩，3個踢球，7個不踢，隨便挑一個讓你挑中踢球的小孩的機率有多少？在數學上可以用$\mathbf{P}(\text{soccer})$來表示，10個小孩中有3個踢，所以機率就是$\dfrac{3}{10}=0.3$。其中分子的部份為Event，而分母的部份則為Sample space。 ### Introduction to Probability - Venn Diagram ![image.png](https://hackmd.io/_uploads/S1ht7IOm6.png) 這邊用文氏圖，也就是Venn Diagram的概念來表述。綠色的長方形包含有個樣本空間，圈圈的部份則是我們感興趣的部份，也就是Event，佔了30%。 ### Introduction to Probability - Coin Example 1 ![image.png](https://hackmd.io/_uploads/S1Y1SU_Xp.png) 這邊用硬幣來做說明，硬幣不是正面就是反面，但，因為一切的結果都還不確定，所以我們將之稱為實驗。對機率來說，實驗是產生不確定結果的一個過程。所以投擲硬幣本身就是一種實驗。以$\mathbf{P}(\text{heads})$表示出現正面的機率。上面範例來看，丟了兩次的硬幣，一次是我們感興趣的正面，所以是$\dfrac{1}{2}=0.5$ ### Introduction to Probability - Coin Example 2 ![image.png](https://hackmd.io/_uploads/rJAur8_mp.png) 把問題複雜一點來看，第一次會是正面或是反面，但不管你的第一次是正還是反，第二次都還會是正面或是反面。組合起來的話會有四種排列組合。 ### Introduction to Probability - Coin Example 2 ![image.png](https://hackmd.io/_uploads/rJLAHLum6.png) 從這樣的排列組合來看，兩次都丟到正面的機率就是1/4。 ### Introduction to Probability - Coin Example 3 ![image.png](https://hackmd.io/_uploads/Bk2XL8d7p.png) 如果再複雜一點，丟三次，那就有八種的可能結果。 ### Introduction to Probability - Coin Example 3 ![image.png](https://hackmd.io/_uploads/H14wIUdX6.png) 三次都丟到正面的機率就會是1/8 ## What is Probability? - Dice Example [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/KlliF/what-is-probability-dice-example) ### Introduction to Probability - Dice Example 1 ![image.png](https://hackmd.io/_uploads/SkMbXgsQa.png) 以骰子來看的話，如果我們想要骰到6，那機率就是1/6，因為有6個面。 ### Introduction to Probability - Dice Example 2 ![image.png](https://hackmd.io/_uploads/BJTvQliXT.png) 如果是兩個骰子要同時都骰到6的話，那整個樣本空間就有36種組合，而兩次都骰到6的組合只有1個，所以這個機率就是1/36。 ## Complement of Probability [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/lB3m3/complement-of-probability) ### Complement of Probability ![image.png](https://hackmd.io/_uploads/H1YSExima.png) 機率的總和會是1，以剛剛提過的踢球學生為例，10個學生有3個踢球7個不踢球，隨便抓一個是踢球的機率是0.3，不踢的機率就是0.7，兩個相加就會是1，這就是Complement rule，也就是互補法則。 ### Complement of Probability ![image.png](https://hackmd.io/_uploads/BktJSxi7T.png) 互補法則說明著，不發生的機率就會是1-發生的機率，所以剛剛抓到不踢球學生的機率就可以寫成1-抓到踢球學生的機率0.3。 ### Complement of Probability ![image.png](https://hackmd.io/_uploads/rywoHli7a.png) 所以整個概念就會是如上圖所示那般： $\mathbf{P}(A')=1-\mathbf{P}(A)$ 其中$\mathbf{P}(A')$就是事件$\mathbf{P}(A)$的互補。 ### Complement of Probability - Venn Diagram ![image.png](https://hackmd.io/_uploads/BJZfLxjQa.png) 如果以Venn Diagram來表示的話，整個樣本空間是100%，踢球的人佔了30%，那剩餘不踢球的人就是佔了70%。 ### Complement of Probability - Coin Example 1 ![image.png](https://hackmd.io/_uploads/SJMt8xom6.png) 回頭看硬幣的範例，連續丟三次都不是正面的機率有多少？換個方式思考，連續丟三次都是正面的機率是1/8，那不是的機率就是1-1/8=7/8。 ### Complement of Probability - Dice Example 1 ![image.png](https://hackmd.io/_uploads/HJ108gj7a.png) 投一次骰子得到不是6的機率有多少？一樣的，得到6的機率是1/6，那不是6的機率就是1-1/6=5/6。 ## Sum of Probabilities (Disjoint Events) [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/99wPB/sum-of-probabilities-disjoint-events) ### Sum of Probabilities - Quiz 1 ![image.png](https://hackmd.io/_uploads/BkK1YgjXp.png) 課程說明機率的加總，舉例來說，學校有兩種運動，足球或是籃球，學生就只能選擇一種玩，踢球的孩子的機率是0.3，打籃球的孩子的機率是0.4，那你路邊隨便抓一個小孩是有在運動的機率有多少？ ### Sum of Probabilities - Quiz 1 Solution ![image.png](https://hackmd.io/_uploads/Hyi2cJJVp.png) 這問題的思路就是，每個小孩就只能選擇一種運動，所以十個小孩有三個踢球四個打球三個不運動，也就是十個小孩有七個運動三個不運動，那就代表你路邊隨便抓一個小孩就會70%的機率是有運動的。這很明顯就是打球與踢球的機率相加。 ### Sum of Probabilities - Quiz 1 Solution ![image.png](https://hackmd.io/_uploads/rJsSiyyEp.png) 以Venn Diagram來看的話，兩個機率的相加以$\cup$(union)來表示，即$\mathbf{P}(A\cup B)=\mathbf{P}(A)+\mathbf{P}(B)$ ### Sum of Probabilities - Dice Example 1 ![image.png](https://hackmd.io/_uploads/SJXf2yyN6.png) 假設你有一個公平的骰子，骰到偶數跟5的機率是多少？這個範例有兩個事件，一個是偶數，是一個5，出現偶數的機率是3/6，而出現5的機率是1/6，兩個相加即可。 ### Sum of Probabilities - Dice Example 2 ![image.png](https://hackmd.io/_uploads/r1OChJy4a.png) 這個範例的問題是，兩顆骰子的總和是7或10的機率有多少？一樣的，我們把兩個骰子的所有事件列出來，然後計算各自發生的機會。總和為7的機率是6/36，而總和為10的機率是3/36，兩個相加即可。 ### Sum of Probabilities - Dice Example 3 ![image.png](https://hackmd.io/_uploads/H1L86JkVa.png) 這個範例的問題是，兩顆骰子骰出來的值相差一或是二的機率有多少？作法都是一樣的，就不多做說明，直接看圖說故事即可。 ## Sum of Probabilities (Joint Events) [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/sik57/sum-of-probabilities-joint-events) ### Sum of Probabilities (joint Events) - Quiz 1 ![image.png](https://hackmd.io/_uploads/ry8vAky46.png) 一樣是學校小孩踢球的範例，不同的是，這次並沒有限制一個學生只能選擇一個運動，他想怎麼打就怎麼打，踢球的小孩機率是0.6，打球的小孩機率是0.5，問題：小孩打球或是踢球的機率有多少？ ### Sum of Probabilities (joint Events) - Quiz 1 Solution ![image.png](https://hackmd.io/_uploads/BJnA5Ne4p.png) 事實上這個問題所給定的資訊是無法計算的。 ### Sum of Probabilities (joint Events) - Quiz 1 Solution ![image.png](https://hackmd.io/_uploads/rJjqo4xET.png) 如果你用Venn Diagram來看的話，好像是有這麼一回事，但是事實上如果把兩個機率加總那是超過100%，比學校的人數還來的多了。主要是我們並不知道兩種球類同時參加的學生有幾個，所以這個交集區域，可能是一個學生，也可以是兩個、三個、blablabla。所以我們需要這個資訊，只要能夠知道有幾個學生是同時踢球也打球的，那就可以計算。 ### Sum of Probabilities (joint Events) - Quiz 2 ![image.png](https://hackmd.io/_uploads/r1DXhVgVp.png) 現在重新提出問題，十個學生，有六個踢球，五個打球，三個又踢又打，那打球或是踢球的學生有幾個？ ### Sum of Probabilities (joint Events) - Quiz 2 Solution ![image.png](https://hackmd.io/_uploads/rJCdh4xNT.png) 一樣的，圖畫一畫圈一圈就會有感覺，就是八個人不是踢就是打。 ### Sum of Probabilities (joint Events) - Quiz 2 Solution ![image.png](https://hackmd.io/_uploads/HJgEaVlNT.png) 以Venn Diagram來看的話就是會有一個交集，這個交集區域中有三個人，公式來看就是6個踢+5個打-3個交集=8個人不是踢就是打。 ### Disjoint Events vs Joint Events ![image.png](https://hackmd.io/_uploads/B1iI04eNT.png) 上圖左是沒有交集的，也就是Mutually exclusive，這種計算相對簡單，沒有交集，或者可以想成是空交集，就是把兩個機率相加就行。上圖右是有交集的，也就是Non-mutually exclusive，這種計算就要考慮交集的部份，所以兩個機率相加之後還要減掉重覆計算的交集區域。 ### Sum of Probabilities (joint Events) - Dice Example 1 ![image.png](https://hackmd.io/_uploads/Hy-fJBlET.png) 再回到骰子範例，兩次骰子得到加總7以及相差1的機率有多少。一樣的把兩個事件的所有可能列出，然後區域重疊，不難發現會有重疊，所以這個計算就必需要把重疊的交集區域刪掉。 ## Independence [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/2m3W1/independence) ### Independence - Quiz 1 ![image.png](https://hackmd.io/_uploads/H1I9lHxEa.png) 如果一個事件的發生不受另一個事件的影響，那就稱為independence。舉例來說，丟硬幣，第二次是正面還是反面跟第一次是正面還是反面是沒有相關性的，這就是independence；而下棋的話，第十步棋路會影響你怎麼下第十一步棋路，那這就不是independence。假設，學校有100個學生，50個踢球，50個不踢球，現在，把小孩隨機拆分到兩間相同大小的房間，那房間內踢球的學生人數最佳估計會是多少？因為是『最佳估計』，因此每一間房間的踢與不踢都會是跟母體的機率一致，所以每一間房的人數50個人就應該會有25個人踢，25個人不踢。 ### Independence - Quiz 2 ![image.png](https://hackmd.io/_uploads/S1RraYWEp.png) 假設，現在換成是40個人踢球，60個人不踢，一樣的隨機把學生分成兩群，一群30人，一群70人，小群30人中可能踢球的人會有幾個？ ### Quiz 2 Solution ![image.png](https://hackmd.io/_uploads/rJpkAtbET.png) 我們已經預期有40%的人踢，60%的人不踢，所以小間房30人裡面就應該或許可能會有30x40%的人踢，也就是12人會踢球。 ### Independence Events ![image.png](https://hackmd.io/_uploads/BJ8gxcWNT.png) 現在更直觀來看這個問題，100個學生有40個踢(黃色群)，60個不踢，這就是兩個群。然後把學生拆分為30個人(藍色群)跟70個人，這也是兩個群。我們希望找出的就是小房間中踢球的人的機率，很明顯的我們的目標就是找出兩個群的交集，也就是$\mathbf{P}(S \cap R_1)$，這個交集就是兩個機率相乘，也就是$\mathbf{P}(S) \times \mathbf{P}(R_1)$，其中踢球的機率$\mathbf{P}(S)=0.4$，然後小群30人的機率$\mathbf{P}(R_1)=0.3$，相乘得到0.12。這邊說明的即是兩個事件的交集，這兩個事件互不相關，互相獨立。 ### Product Rule (for Independent Events) ![image.png](https://hackmd.io/_uploads/Bycvxcb4p.png) Product Rule說明的是兩個事件的交集，就是兩個機率的相乘。 ### Independence Events - Coin Example 1 ![image.png](https://hackmd.io/_uploads/SJ51W5WNp.png) ![image.png](https://hackmd.io/_uploads/ByxfbqZVT.png) 連續丟五次硬幣都是正面的機率是多少？就是1/2乘5次，因為每次都是獨立事件，每次的機率都是1/2，機率就是1/32。 ### Independence Events - Dice Example 1 ![image.png](https://hackmd.io/_uploads/SynVf5bVa.png) 如果丟骰子，連續兩次都是6的機率是多少？就是1/6乘1/6，也就是1/36。 ### Independence Events - Dice Example 2 ![image.png](https://hackmd.io/_uploads/rJ-FGcZ4p.png) 如果你真的抓狂想要連續丟出10個6，那機率會非常非常非常小，也就是1/6的10次方。 ## Birthday problem [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/UoQhf/birthday-problem) ### Quiz ![image.png](https://hackmd.io/_uploads/H1rTrOYN6.png) 假設你有30個朋友，你想知道有兩個人生日是同一天或者沒有人生日是同一天的機率那一個比較高。當然，一個重要的假設就是我們不考慮229。 ### Probability That Everyone Has a Different Birthday ![image.png](https://hackmd.io/_uploads/SkWsPOtET.png) 結果來看，是有這30個朋友中有兩個人生日同一天的機率比較高。沒有人生日是同一天的機率是30%，換句話說，有兩個人生日同一天的機率就是70%。上圖為例，我們假設上面有365個盒子： * 如果只有一個人的話，那這個人的生日跟自己一樣的機率都是1 * 兩個人的話，這個新加入的人跟第一個人的生日不一樣的機率就是$\dfrac{364}{365}$ * 三個人的話，這個新加入的人跟第一、二個人的生日不一樣的機率就是$\dfrac{363}{365}$ 這樣一直推論下去，如果有九個人的話，這九個人的生日都不在同一天的機率就是0.905。 ### Probability That no Two People Have the Same Birthday ![image.png](https://hackmd.io/_uploads/By85_uFVp.png) 把這個結論畫出來看的話我們可以得到，30個人沒有任意兩個人生日是同一天的機率是0.294，也就是大約30%。到50個人的話已經大約剩0.03，也就是3%仔了。如果是366個人的話，那機率已經是0了，因為一定肯定必然會有重覆。 ## Conditional Probability - Part 1 [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/ukMkU/conditional-probability-part-1) ### Conditional Probability - Coin Example 1 ![image.png](https://hackmd.io/_uploads/H1_x5OtVT.png) 所謂的conditional probability就是一件事情發生的機率是在給定另一件事情發生的前提下。這是我們看過的硬幣範例，現在的問題是，在第一次丟硬幣是正面的情況下，第二次丟還是正面的機率有多少？因為有個前提條件了，也就是第一次丟硬幣是正面的情況下，那就代表我們的樣本空間不再是4，而是2，因為前提是『第一次丟硬幣是正面的情況』，所以第二次再丟正面的機率就是1/2。 ### Conditional Probability - Coin Example 1 ![image.png](https://hackmd.io/_uploads/HyIkiuF4p.png) 在機率中我們以$\mathbf{P}(HH\vert 1\text{st is }H)$，來表示，其中$\vert 1\text{st is }H$就是我們所說的給定條件。這邊我們所給的當然就是指第一次丟硬幣是正面的情況。 ### Conditional Probability - Coin Example 1 ![image.png](https://hackmd.io/_uploads/ryy_odKVT.png) 直觀一點來看就是上面這個矩陣，丟兩次硬幣的整個樣本空間是4個，但是因為我們的前提條件是第一次丟是正面，所以是不需要去關注反面的部份，也因此樣本空間才會是2。 ### Conditional Probability - Coin Example 2 ![image.png](https://hackmd.io/_uploads/BJqe2OFVT.png) 再來一個問題是，如果第一次丟的是反面，那兩次都是正面的機率有多少？很明顯的，答案就是0，因為第一次已經是反面了，分子為0。 ### Conditional Probability - Coin Example 2 ![image.png](https://hackmd.io/_uploads/HJALTuKNa.png) 一樣的可以用矩陣來表示這個問題，因為條件是第一次為反面，所以第一次為正面就可以畫掉，然後樣本空間為2，但是已經不會有兩次正面了，因此分子為0，機率即為0。 ### Product Rule (for Independent Events) ![image.png](https://hackmd.io/_uploads/H1GDAOFVT.png) 當兩個事件為各自獨立(independent)的時候，兩個機率的交集就是兩個機率相乘，這就是機率的Product Rule，也就是$\mathbf{P}(A\cap B) = \mathbf{P}(A) \cdot \mathbf{P}(B)$。不過這並不總是這樣。 ### Conditional Probability - Dice Example 3 ![image.png](https://hackmd.io/_uploads/ByylkYFNa.png) 這邊給出一個non-independent的範例。丟兩次骰子，第一次為6，並且總和為10的機率有多少？這代表第二次必需是4。展開整個樣本空間不難發現，結果就是1/36。 ### Conditional Probability - Dice Example 3 ![image](https://hackmd.io/_uploads/B1NYOMnVp.png) 我們嚐試從不同角度來看，用著剛剛提過的Product Rule。第一個條件是，丟第一個骰子是6，所以機率會是6/36，然後總和必需是10，那就是1/6，這兩個相乘得到的自然就是1/36。 ### Conditional Probability - Dice Example 3 ![image](https://hackmd.io/_uploads/SyUctz2Ep.png) 這樣我們得到一個結論，也就是$\mathbf{P}(A\cap B)=\mathbf{P}(A) \cdot \mathbf{P}(B\vert A)$，意思就是兩個事件的交集機率會是事件$A$的機率乘上給定事件$A$的情況下發生$B$的機率。 ### The General Product Rule ![image](https://hackmd.io/_uploads/S1lP9G24p.png) 所以這個公式有些許的不同，但是較為通用： $\mathbf{P}(A\cap B)=\mathbf{P}(A) \cdot \mathbf{P}(B\vert A)$ 當這兩個事件是相互獨立的時候，$\mathbf{P}(B\vert A)=\mathbf{P}(B)$，因為相互獨立的情況下，事件$A$對於事件$B$是沒有任意影響的。 ### Conditional Probability - Dice Example 1 ![image](https://hackmd.io/_uploads/rJAIoz3VT.png) 這是之前看過的範例，丟兩次骰子得到總和是10的機率，得到10的次數有3個，樣本空間有36個，所以答案是3/36。如果現在多個條件，那就是第一次丟得到的必需是6，那在第一次丟到是6並且總和是10的機率為何？把式子寫出來，$\mathbf{P}(\text{sum}=10\vert \text{1st is } 6)$，因為有條件，第一次丟到必需是6，那樣本空間就只會有6個，總和為10的結果就只有1個，所以答案就是1/6。 ## Conditional Probability - Part 2 [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/xEx4h/conditional-probability-part-2) ### Quiz - 1 ![image](https://hackmd.io/_uploads/rkXMaG2NT.png) 假設有100個學生，50個喜歡踢球，50個不喜歡，現在有兩間房間，一間撥放世界杯，一間撥放電影，讓學生各自決定去那，也許或許可能maybe會出現的極端就是50個踢球的學生都會去看世界杯，然後另外50個學生就會去看電影。原本學生踢不踢球的事件跟房間是沒有關係的，但是現在它們變成是相依的。原本之前的範例並沒有說房間有放什麼影片，所以學生可以是隨機進房的，是獨立的，但現在有條件給房間了，那就變成是相依了。 ### Quiz - 2 ![image](https://hackmd.io/_uploads/SyNFaMnE6.png) 假設100個學生中有40個踢球，60個不踢，然後這40個踢球的學生中有80%的人喜歡穿慢跑鞋，那你說說有幾個學生是愛穿慢跑鞋的？很明顯的就是40\*80%=32 ### Conditional Probability ![image](https://hackmd.io/_uploads/HyDRRzn46.png) 我們從條件機率來看這個問題： 1. 40個愛踢球：$\mathbf{P}(S)=0.4$ 2. 60個不踢球：$\mathbf{P}(\text{not }S)=0.6$ 3. 40個踢球的人有80%穿慢跑鞋：$\mathbf{P}(R\vert S)=0.8$ 這個機率的交集就是$\mathbf{P}(S\cap R)=\mathbf{P}(S) \cdot \mathbf{P}(R\vert S)=0.4\times 0.8=0.32$ ### Conditional Probability ![image](https://hackmd.io/_uploads/HJRWlQ2Vp.png) 延伸這個問題，如果不踢球的人裡面喜歡穿慢跑鞋的有50%，那不踢球並且穿慢跑鞋的機率有多少？一樣的，把數學式寫出來，$\mathbf{P}(\text{not }S\cap R)=\mathbf{P}(\text{not }S)\cdot \mathbf{P}(R\vert \text{not }S)=0.6\times 0.5=0.3$ ### Conditional Probability ![image](https://hackmd.io/_uploads/rysvxX3N6.png) 這個問題我們可以用tree來表示，學生分成踢球與不踢球，踢球與不踢球又各自分為穿不穿慢跑鞋。 ### Independent vs Dependent Events ![image](https://hackmd.io/_uploads/Sy3q-Q2Ea.png) 一開始我們只是把學生分成踢球不踢球： 1. 然後就兩間房間給他們自己去選，這是兩個獨立事件，因為學生去那個房間跟踢不踢球無關 2. 然後踢不踢球跟穿不穿慢跑鞋則是有相關性的，因為踢球的人明顯比較有機會去穿慢跑鞋 3. 最後房間的設計變成一間是撥放世界杯，一間是撥放電影，這也跟學生去那一間房間會有相關性 ## Bayes Theorem - Intuition [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/aNyvQ/bayes-theorem-intuition) ### Bayes Theorem - Intuition ![image](https://hackmd.io/_uploads/H1BRowaNa.png) 假設總人口數為1000000，其中每10000人就會有1人得到一種特殊疾病，醫生檢驗有沒有中這種病的有效機率為99%，這意思就是說： 1. 醫生每檢核100人確認，其中99人就是真的確認，只有1人會是誤診 2. 每100個健康的人，就會有1人被誤診為生病，99人是真的健康現在的問題是，醫生說你有病，那你真的有病的機率有多少？確切的說，在給定你檢測結果的前提之下，你真的有病的機率有多少？ ### Bayes Theorem - Intuition ![image](https://hackmd.io/_uploads/B1JF3wa4T.png) 上面的圖示說明著，這100萬人口中，每1萬人就會有1人有病，意思就是說這100萬人口中有999900人是健康的，有100人是有病的。 ### Bayes Theorem - Intuition ![image](https://hackmd.io/_uploads/Hyb_TwTV6.png) 根據剛剛我們得到的資訊可以整理出： 1. 999900健康的人裡面有1%是會被誤診，有99%的人是真的健康，也就是有9999人會被誤診，其實他應該沒病但是會被驗到有病，然後有989901人是健康的 2. 100個被診斷有病的人有99人真的是有病，而有1人是有病但被驗到沒病 ### Bayes Theorem - Intuition ![image](https://hackmd.io/_uploads/r1uzfOpEa.png) 所以針對我們的問題，當醫生說你有病而你真的有病的機率有多少？ 99人真的生病，然後有9999人會被誤診，所以樣本空間有9999+99，因此機率為$\dfrac{99}{9999+99}$，也就是0.0098。 ### Bayes Theorem - Intuition ![image](https://hackmd.io/_uploads/rkg_fdTVa.png) 總的來看，這個問題中真的有病的計算就是，真的有病的人去除被歸到有病的人(真的有病跟假的有病)。 ### Bayes Theorem - Intuition ![image](https://hackmd.io/_uploads/B1JTzO6N6.png) 一樣的，這問題我們可以用tree來表述。 ### Bayes Theorem - Intuition ![image](https://hackmd.io/_uploads/rJUJXOTET.png) ## Bayes Theorem - Mathematical Formula [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/n8wAb/bayes-theorem-mathematical-formula) ### Bayes Theorem - Formula ![image](https://hackmd.io/_uploads/BJOi13zrp.png) 承接稍早的範例，整理一下手上有的訊息： 1. 這病是每10000人就會有1人中獎 2. 人口數有1000000 3. 這檢核對生病或是健康的人都有99%的機率是有效的根據上面的資訊我們知道： 1. 生病的機率，也就是$\mathbf{P}(\text{sick})=0.01%$ 2. 沒病的機率，也就是$\mathbf{P}(\text{not sick})=99.99%$ 3. 生病，而且檢核為生病的機率，也就是$\mathbf{P}(\text{diagnosed sick} \vert \text{sick})=99%$ 4. 沒病，但是被檢核生病的機率，也就是$\mathbf{P}(\text{diagnosed sick} \vert \text{not sick})=1%$ 問題：被檢核為生病機率情況下，你真的有病的機率有多少？ ### Bayes Theorem - Formula ![image](https://hackmd.io/_uploads/Byug-nfr6.png) 用數學來表示，首先我們假設$A$就代表你生病，$B$就代表你被檢核為生病，所以這個問題就可以以$\mathbf{P}(A\vert B)$來表示，那根據條件機率我們可以得到： * $\mathbf{P}(A\vert B) = \dfrac{\mathbf{P}(A \cap B)}{\mathbf{P}(B)}$ * ### Bayes Theorem - Formula ![image](https://hackmd.io/_uploads/BJPrznzST.png) 也就是生病並且被檢核為生病的交集除上被檢核為生病的機率，那又根據條件機率我們知道： * $\mathbf{P}(A\cap B) = \mathbf{P}\cdot \mathbf{P}(B\vert A)$，也就是有病的機率乘上有病的情況下被檢核出有病的機率 ### Bayes Theorem - Formula ![image](https://hackmd.io/_uploads/B1JTzO6N6.png) ![image](https://hackmd.io/_uploads/SyI9X2zra.png) 可以回頭看一下tree，被檢核為有病的事件有兩個，一個是真的有病而且真的被抓出來，一個是沒病但是被檢核為有病，這是兩個disjoin的事件，因此被檢核為有病的機率就是這兩個事件的機率相加。 ### Bayes Theorem - Formula ![image](https://hackmd.io/_uploads/rkEl4nGSa.png) ![image](https://hackmd.io/_uploads/SJxQEhzSp.png) 然後就是拉拉哩拉拉，把兩個事件的相加放到分母就得到最終的公式。 ## Bayes Theorem - Spam example [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/TDXGG/bayes-theorem-spam-example) ### Bayes Theorem - Spam example ![image](https://hackmd.io/_uploads/BJPq2y2ra.png) 這個範例我們要用bayes theorem來找出垃圾郵件。我們發現到，垃圾郵件中總是會出現"lottery"(抽獎)這個詞彙。資料集共有100封郵件，其中： * 80封正常，其中10封郵件內容中有lottery這個詞彙 * 20封垃圾，其中14封郵件內容中有lottery這個詞彙問題：當郵件內容中有lottery這個詞彙出現的時候，它是垃圾郵件的機率有多少？也就是計算出$\mathbf{P}(\text{span}\vert\text{lottery})$ ### Bayes Theorem - Spam example (Initution Solution) ![image](https://hackmd.io/_uploads/ry5FRy3H6.png) 直觀來看這個問題，我們在意的就只有內容中是否存在lottery這個詞彙，也就是說，我們在意的目標就只有那24封存在lottery這個詞彙的郵件。然後我們要計算的機率就是給定lottery的情況下，其為垃圾郵件的機率，也就是$\mathbf{P}(\text{span}\vert\text{lottery})=\mathbf{P}(A\vert B)=\dfrac{\mathbf{P}(A\cap B)}{\mathbf{P}(B)}=\dfrac{\text{spam and lottery}}{\text{all lottery}}=\dfrac{14}{24}=\dfrac{7}{12}=0.583$。分母的部份很明顯就是所有存在lottery這個詞彙的郵件總數，分子的部份就是存在lottery並且為垃圾郵件的總數。 ### Bayes Theorem - Spam example (Formula Solution) ![image](https://hackmd.io/_uploads/r1bYfenrT.png) 剛剛我們用著非常直觀的方式來計算機率，因為我們的條件是給定存在lottery的情況下，該郵件為垃圾郵件的機率，所以我們只需要關注這部份。這邊我們用數學式來討論。 Bayes Theorem展開來看是這樣的： $\mathbf{P}(A\vert B)=\dfrac{\mathbf{P}(A)\cdot\mathbf{P}(B\vert A)}{\mathbf{P}(A)\cdot\mathbf{P}(B\vert A)+\mathbf{P}(A')\cdot\mathbf{P}(B\vert A')}$ 其中$A$表示為垃圾郵件，$B$表示內容中存在lottery這個單詞。 ### Bayes Theorem - Spam example (Formula Solution) ![image](https://hackmd.io/_uploads/ByF5Qg3H6.png) 現在我們要利用剛剛的數學式來計算其結果跟我們直觀計算結果是否相同。我們知道： 1. 垃圾郵件有20封，代表有20%的機率是垃圾郵件 2. 正常郵件，1-0.2=0.8，即80%的機率是正常郵件 3. 是垃圾郵件並且含有lottery這個詞彙的機率為$\dfrac{14}{20}=0.7$ 4. 是正常郵件並且含有lottery這個詞彙的機率為$\dfrac{10}{80}=0.125$ 這稱為prior，這是一種你不需要什麼其它資訊，直接從原始資料就能知道的機率。 ### Bayes Theorem - Spam example (Formula Solution) ![image](https://hackmd.io/_uploads/BJqyEg3Sp.png) 現在我們有所有的prior，就可以帶入剛剛所寫出的數學式驗證。 ## Bayes Theorem - Prior and Posterior [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/YXnFm/bayes-theorem-prior-and-posterior) ### Bayes Theorem ![image](https://hackmd.io/_uploads/HJDwaKRSp.png) 這邊先總結一下提過的觀念： 1. $\mathbf{P}(A)$：piror(先驗)，這邊提到的prior就是我們可以先計算出來的原始機率 2. $E$：event，提供我們機率的信息 3. $\mathbf{P}(A\vert E)$：有了上面兩個，我們就可以計算posterior ### Prior and Posterior ![image](https://hackmd.io/_uploads/SkpGRFCBp.png) 用垃圾郵件為例來說明： * prior指的就是有20%的機率是垃圾郵件，80%是正常郵件 * event指的就是我們給定垃圾郵件中常見含有lotter這個詞彙 * posterior指的就是給定有lotter這個詞彙的情況下是垃圾郵件的機率 posterior得到的機率通常比較真實，那是因為我們多了event所給定的信息。 ### Prior and Posterior ![image](https://hackmd.io/_uploads/SJX1gq0H6.png) 再來看另一個範例，丟兩個骰子，我們希望得到是10的機率，當然我們知道這個機率是$\dfrac{3}{36}$。如果現在有個event說，希望丟第一次得到的是6，那posterior就變成是$\dfrac{1}{6}$，因為樣本空間已經完成不一樣了。 ## Bayes Theorem - The Naive Bayes Model [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/ebd30/bayes-theorem-the-naive-bayes-model) ### What About 2 Events? ![image](https://hackmd.io/_uploads/Syf4WqCH6.png) 垃圾郵件案例中我們提到，垃圾郵件的內容很常出現lotter這個詞彙，那如果有另一個詞彙winning也很常出現，而我們也計算出它的事後機率，那要怎麼結合兩個機率讓它們成為一個更厲害的分類器？ ### What About 2 Events? ![image](https://hackmd.io/_uploads/r1MgXcCS6.png) 我們可以很簡單的計算出存在lottery與winning這兩個詞彙的信件是屬於垃圾郵件的機率有多少，簡單說就是有這兩個詞彙是垃圾郵件的總數除上有這兩個詞彙是垃圾郵件加上有這兩個詞彙出現但不是垃圾郵件。簡單說，這就是貝氏定理。 ### What About More Than 2 Events? ![image](https://hackmd.io/_uploads/Hkg7xkxI6.png) 但如果不是2個詞彙，而是100個呢？那就頭皮發麻了，而且有時候要一封郵件要有100個字實在也是困難，如果沒有這種資料，那分子就是0，機率就永遠是0了，這不好。 ### Is There a Quicker Way To Estimate the Probability? ![image](https://hackmd.io/_uploads/HkNgmJeUp.png) 我們先把問題拉回來兩個詞彙。我們的計算目標是紅框處，在沒有辦法確實的計算的情況下，最少最少我們希望可以估測它們，採用的方法就是Naive assumption，也稱為Naive Bayes。這個假設就是，這兩個詞彙，也就是lotter與winning的出現是各自獨立的，互不相關，雖然很明顯的並不是這樣，詞彙的出現應該還是有一定的相依性，不過這種假設的情況下，數學上確實是可以得到不錯的效果。 ### Is There a Quicker Way To Estimate the Probability? ![image](https://hackmd.io/_uploads/BypfXkgIa.png) 現在，當我們想確認給定垃圾郵件的情況下，其內容含有lotter與winning的機率的時候，就只需要計算兩個事件機率的乘積。也就是我們只需要計算是垃圾郵件的情況下，內容含有lotter的機率乘上是垃圾郵件的情況下，內容含有winning的機率。突然間，問題好像變簡單了。 ### Is There a Quicker Way To Estimate the Probability? ![image](https://hackmd.io/_uploads/ByP7VygUa.png) 現在，就算詞彙有很多個也可以算出來了，因為我們計算的目標變成是給定是垃圾郵件的情況下，包含每一個詞彙的所有機率的乘積，這就是Naive Bayes。 ### Naive Bayes - Spam Example ![image](https://hackmd.io/_uploads/S1Qytkx86.png) 回到我們一開始說過的範例，100封郵件，20封是垃圾郵件(14封有lottery)，80封是正常郵件(10封有lottery)。各種的事件機率也就如上圖所示那般。 ### Naive Bayes - Spam Example ![image](https://hackmd.io/_uploads/Sy9DYkeUp.png) 這是郵件中含有winning的各種事件機率。 ### Naive Bayes - Spam Example ![image](https://hackmd.io/_uploads/BJpv91lI6.png) 現在就可以按著我們剛剛說的Naive Bayes來計算，每個詞彙的出現都是獨立的，所以就可以很簡單的把機率相乘。 ## Probability in Machine Learning [課程連結](https://www.coursera.org/learn/machine-learning-probability-and-statistics/lecture/Dk0ZH/probability-in-machine-learning) ### Bayes Theorem ![image](https://hackmd.io/_uploads/rJcTNAmLT.png) 先前的課程中我們已經知道說，我們會有prior，也就是垃圾郵件的比例。然後event，也就是信件中存在某一些特殊詞彙。最後我們利用prior與event來計算posterior。如果我們從一個比較高階的角度來看的話，其實我們就是利用一些給定的資料來建構一個機器學習分類器。 ### Example Problem ![image](https://hackmd.io/_uploads/ryDTHC7IT.png) 舉例來說，影像辨識，判斷照片裡面有貓的機率有多少，這就像是給定一張照片(prior)，然後根據像素(event)來計算有沒有貓咪的機率。 ### Example Problem ![image](https://hackmd.io/_uploads/H19V8AQ8T.png) 醫療領域也可以用，根據給定的資料分析病人是否健康，利用病人的症頭跟病史來計算他們健康的機率。 ### Example Problem ![image](https://hackmd.io/_uploads/rkj5IRQUT.png) 語句分析，根據給定的句子判斷這個句子是開心還是傷心。 ### Example Solution ![image](https://hackmd.io/_uploads/H1rPP07Lp.png) 上面那些範例我們要做的就是建構一個模型，以分析照片中是否有貓貓為例，我們就是根據給定的照片下去計算某一個pixel是有貓的可能性。所以機器學習要做的就是找出那個條件機率。特別是在監督式學習上，我們是會給定答案的方式來訓練。 ### Example Problem: Generative Models ![image](https://hackmd.io/_uploads/SkByOAXIT.png) Generative Models是一個蠻特殊的應用，它可以生成非常精美的照片。就像你現在所看到的人臉，那並不是真的，而是由模型所生成。