# 統計與資料分析 Lecture2 ###### tags: `20200711` `statistics` 吳漢銘 台北大學統計學系 副教授 ## 大綱-參數估計與假設檢定 主題1 * 點估計(動差法、最大概似法、最小平方法) * 評斷準則: 不偏性、有效性、一致性、最小變異不偏性、充份性。 * 區間估計 >參數估計 (parameter estimation) >(利用樣本統計量及其抽樣分配來對母體參數 進行推估, 以暸解母體的特性) 主題2 * 貝式定理 * 貝式估計法 主題3 * 統計假設檢定(HypothesisTesting) * 平均數檢定(t檢定) 主題4 * 單因子變異數分析 (One-way Analysis of Variance, ANOVA) * R程式範例 主題5 \[進階選讀] * Non-parametricModels * Non-parametric TestsL: Wilcoxon Signed-Rank Test (paired) * 事後比較檢定 (Post Hoc Tests): Tukey's HSD Test 主題6 * 常態分佈檢定(TestforNormality) * 卡方檢定(Chi-SquareTest) --- ## 概似函數 (The Likelihood Function) 看密度函數的角度不一樣,稱為蓋似函數 ![](https://i.imgur.com/UZxGPXZ.jpg) 觀察到這個函數最大可能性的方法 最大概述估計量 對數的可能性函數,讓可能性函數最大的可能性是多少 ## 最大概似估計法 Maximum Likelihood Estimation (MLE) 積分裡面最基礎的 (我在哪裡,這是哪裡) (微積分還給老師了阿) ## MLE of ( μ, σ2 ) from a normal population > N個觀察值來自常態分布 > 全部連乘 > 取Log > 微分之後等於零 > 娃哦~變成樣本平均數了 **詳細不懂無所謂,但要了解大概** 不滿足不偏性,所以要乘上(n/n-1) 就變成樣本變異數,才符合不偏性 ## 區間估計(Interval Estimation) 每抽一次,會產生一個信賴區間 當我抽100次中,有95次會能夠找到參數。(u,σ之類的) (Andy表示:左耳進右耳出) ## 範例: 老年人看電視的時間 跳過 ## 貝氏定理 (Bayes' Theorem) 講的就是條件機率,神經網路幾乎都使用貝氏定理的基礎。 P(A|B) => 給定B這個條件,A的機率,稱為A的事後機率 ∩ 交集符號 P(A|B)=P(A∩B)/P(B)=P(B|A)xP(A)/P(B) P(A)與P(B)為事先就知道的機率 從一個甕中抽出兩個紅球的機率(https://ccjou.wordpress.com/) ## Bayesian Statistics貝式統計 考了60~70次都是60分,所以就會從60分開始算。 貝氏定理是依據條件機率,所以需要事先知道某些條件發生的機率 貝式把某個未知的參數也當作貝式去估計。 ## Bayes Estimator for the Mean of a Normal Distribution u未知,同樣也是假設為常態分布 目的是要算f(u|x1...xn) 很複雜不用看也沒關係,是個很典型的過程,課本裡都會有。 資料是常態分布,用貝氏的方法,又假設平均數為常態分布 MLE對平均數沒有任何的假設 在深度學習中,當這一層的計算與前一段的條件有關係時,便會用到貝氏定理,因為這就是一種條件機率 跟時間性相關的會常遇到 ## 假設檢定 Hypothesis Testing 是通用的 油價調查出來跟假設差一點點,這樣是對的嗎? 差一點點的標準在哪裡? 假設檢定就是給一個標準 虛無假設(null hypothesis) 某一個數字 ex Ho:u=2.5 擇一假設,前兩個單尾檢定 Ha:u>0.25 ; Ha:u<0.25,ㄧ雙尾檢定 要有一個標準,alpha (顯著水準) 假設檢定一定會誤判 ## 型一誤差、型二誤差 會有做對,做錯 型一誤差:假設是對的,但你判定是錯的(偽陽性) 型二誤差:假設是錯的,但你判定是對的(偽陰性) 沒有足夠證據拒絕你 (Fail to Reject的真正意義) 型一誤差與型二誤差是互相的,拒絕域可以用顯著水準來標定 ## The p-values p-values用來拒絕虛無假設的最小顯著水準 p值<alpha則拒絕假設 **p值越小,越要拒絕。** ## 平均數檢定 in R 很多,只講一個T檢定 母體又分**配對的**跟**不配對的** 配對的==>如事件在發生前與發生後的差異 **有母數**跟**無母數** 有母數,檢定力會大於無母數 ## T檢定 (t-test) one sample t-test 例如,某一個基因的表現量是否是200;例如某一科的考試的分數的平均值是否為60 H0:u=uo H1:u not equal u0 u population mean alpha = 0.05 > 簡而言之就是要用,p值去規範拒絕域,當P值小於alpha,t0落在拒絕域,就拒絕虛無假設。 > **聽不懂沒關係,旁邊的也聽不懂** ## Assumptions of t-test 為什麼要有分布 ==> 因為才有標準可以設定 假設資料來至於常態分布,如果不是,機率就會錯誤 **然後跳過好多** ## ***t.test {stats}***: Student's t-Test 跳過 ## Test Homogeneity of Variances 跳過 ## Other t-Statistics 生物晶片,人類哪一個基因,控制哪一個疾病。 晶片很貴,所以樣本很少 個數是個很大的問題,樣本太少T檢定就不能使用。 所以其他檢定都是因為成本關係,延伸而來。 ## 單因子變異數分析 (One-Way ANOVA) 講一下好了,然後就沒有然後了,下一頁 ## ANOVA Table 當我有一群數字,觀察數字之間的關係 ANOVA是對誤差來討論 變異數分析的重要假設:每一組數據的變異數都一樣 ANOVA table F值,要符合F分布,看F分布的p-value > 只要假設不合,就沒有意義 ## 兒童小圓藍細胞腫瘤 Small Round Blue Cell Tumors (SRBCT) Dataset 跳過 ## Apply ANOVA to SRBCT data 跳過 ## Formal Tests for Normality 跳過 ## ***nortest*** Packages: Tests for Normality 跳過 ## 卡方檢定: ***chisq.test*** 跳過(只講獨立性檢定) 用來檢定兩個變數獨不獨立。 ## Chi-Square Test for Independence 想要檢定性別跟政黨傾向有沒有關係 表內括弧內的數字是「期望的數字」 ex 703.7=(1246*1557)/2757 >符合普瓦松分布 > **有分佈=>有標準=>決定要不要拒絕** --- ### 以下跳過 ## 進階選讀 ### 無母數統計 Non-parametric Statistics ### Wilcoxon Signed-Rank Test (paired) ### Parametric vs. Non-Parametric Test ### 事後檢定 (Post Hoc Tests) Tukey’s Honestly Significant Difference (HSD) Test ### 範例: ANOVA + Post Hoc Test ### Pairwise Comparisons ### Which Normality Test Should I Use?