# 統計與資料分析 綜合補充 ###### tags: `20200711` `statistics` 吳漢銘 台北大學統計學系 副教授 ## 為什麼人工智慧時代我們要學好機率統計? 學習機率分佈的語言對於理解,甚至是創造新的機器學習和算法都有著重要作用。 假設檢定的原理==>因為我們不會用 回歸分析不是因果關係這需要特別注意 ## 實例: Curve Fitting 利用常態分布去預測疫情結束 ## 玩數據? 老師常看PTT 數據完全符合一條曲線(笑) 光看數據看不出甚麼,一定要畫圖 ## 新瓶舊酒? 背後精神不變,還是統計 > 要有好的應用,統計才被重視 ## 統計vs機器學習 > 人工智慧就是數學 > 人工智慧就是統計 > 但不能劃上等號。是基礎 數學很重要 ## Statistical learning 統計學習 本身是統計的學員多念一下 ## 林共進教授之演講 大數據,材料是資料,烹煮的工具是電腦,統計思維是技巧 ## Terminology 統計名詞跟資工名詞的對比 名詞很重要 ## Different culture 推廣數學很難的 ## 網路文章的說法 ## 吳喜之教授 隨用隨學 機器學習的五個層次 數學知識>統計學知識>算法知識>工具知識>哲學思考 哲學思想知識,對經理人很重要 ## Decision Tree (決策樹) 統計跟演算法一樣不一樣的地方(三個方法) 案例:用一些因子來確認這個人是否會拖欠銀行借款 用決策樹 決策樹,就是把資料作空間的分割 然後就可以來預測 ## The Class Probability Mass Function for a Partition 用暴力法全部列出來 ## Estimate the Class PMFs (在決策樹的的分析中,數據分析的順序或決策的順序,會影響統計的結果嗎?) ## Decision Tree (決策樹) CART法。就是用暴力去計算,相鄰兩個數的中心點,當閥值做分類樹。 QUEST法。用統計的方法去做分類樹,會快很多。 ## 簡單線性迴歸 (Simple Linear Regression) > 老師在抱怨 (X y=b0+b1x 最小平方法 =>讓誤差最小的方法 在統計上,會給一個誤差,然後讓這個誤差最小的可能性函數最大的機率==> 最大概似法 兩個方法得到的結論相同,但統計法可以有分佈就有標準就能檢定。 ## 小結 機器學習、統計模型的目的不同,儘管使用了相似的方法來達到目標 如果希望找出便量之間的關係,或從數據中獲得推論,選擇統計模型會比較好 ## K-means: special case of EM applied to Gaussian mixtures > 數學式隱藏在背後 ## Mixture Densities ## Supervised and Unsupervised Learning 用統計觀點去看監督式和非監督式 ## K-means Clustering 1. 先隨機選擇四個點來分群。 2. 分完群之後重新計算中心點。 3. 得到新中心點後再次分群。 4. 重複步驟1-3直到收斂或100次。 ## Expectation-Maximization (EM) 統計上,是找數值在這個群中最小的機率 ## EM Algorithm ## E-Step ## M-step ## EM in Gaussian Mixtures ## 數據科學家 > AI很花時間很有用 > 統計很花時間沒有用 > **這是不對的** ## 統計真的有這麼難嗎? 話都書上寫的 不要害怕,有人會就好了 ## 統計學超簡單 給恨統計學的人看的 ## 科普書籍 機率思考:大數據時代,不犯錯的決斷武器 統計之美:人工智慧時代的科學思維 ## Deep Learning with R ## 有本書超棒 機器學習的數學基礎:AI 深度學習打底必讀 醫學統計.... 深度學習的統計 日本人寫的 教育部  ## 資料科學家 恩~很大的一張圖 ## 其他 YC Chen https://www.ycc.idv.tw/ 
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up