# 單元1-統計學的基本概念、資料蒐集、資料呈現 ## 1-1 統計學基本介紹 ==統計是一種思考的方式== ### 統計與解決問題 * 使蒐集到的資訊變得有意義 * 可以協助我們解釋、預測許多現象 * 可以做為<font color="#f00">決策支援</font>的基礎 * 對商管學院學生而言,統計在經營決策中的應用相當廣泛,各種企業相關活動,都可利用統計協助決策 ==我們在一生當中,常要根據不完整的資訊做決定== ### 課程內容 * **敘述統計** 抽樣後,分析資料,以了解各變量之觀察值集中與分散的情況 * **機率** 事件出現的可能性 * **推論統計** 根據樣本資料,推論母體特徵的方法 ## 1-2 統計學的資料蒐集 ### 變數類型 * **離散變數(discrete variable)** 數值只能用<font color="#f00">自然數</font>或<font color="#f00">整數</font>單位計算 例:性別、教育程度、人數 * **連續變數(continuous variable)** 在一定<font color="#f00">區間內可以任意取值</font>的變數 例:身高、距離、溫度 ### 測量尺度(measurement scales) ![](https://i.imgur.com/ThXmcaY.png) ### 問卷範例 ![](https://i.imgur.com/e4rCVo9.png) ### 母體與樣本 * **母體(population)**:想要研究的對象 特徵:參數(parameters) * **樣本(sample)**:實際收集資料的部分 特徵:統計量(statistics) ### 抽樣方法(sampling methods ![](https://i.imgur.com/iYB9jWW.png) ## 1-3 統計學的資料呈現(圖表) ### 離散(類別, categorical)變數的表格 ![](https://i.imgur.com/W3PGmgU.png) ### 連續(定量, numerical)變數的表格 ![](https://i.imgur.com/YS9gt2u.png) ![](https://i.imgur.com/9KLCR2T.png) ### 離散(類別, categorical)變數的圖形 ![](https://i.imgur.com/REZozrC.png) ![](https://i.imgur.com/LU8mXfd.png) ![](https://i.imgur.com/UQVT2HQ.png) ### 連續(定量, numerical)變數的圖形 ![](https://i.imgur.com/AwXhzKF.png) ![](https://i.imgur.com/gSDB6bo.png) ![](https://i.imgur.com/KpkcBBK.png) ![](https://i.imgur.com/g1iatk2.png) ### 總結 * **離散變數的表格**:彙總表、列聯表 * **連續變數的表格**:次數分配表、相對次數分配表、累積分布 * **離散變數的圖形**:長條圖、柏拉圖、(並排)圓形圖、(並排環圈圖) * **連續變數的圖形**:莖葉圖、直方圖、次數多邊圖、肩形圖、散佈圖、時間序列圖 ## 1-4-1 統計學的資料呈現(敘述統計1) ### 集中趨勢(central tendency)的測量 * **平均數(mean)** $$ \bar X =\frac {\sum_{i=1}^n Xi}{n} $$ $$X_1=任意數$$ * **中位數(median)** $$ \frac {n+1}{2} $$ * **眾數(mode)** 出現最多的值 * **幾何平均數(geometric mean)** $$ \bar XG=\sqrt[n]{X_1\times X_2 \times··· \times X_n } $$ 應用時機:一段時間內(經濟指標、營業額、投資報酬率、薪資)的<font color="#f00">變化率或成長率</font>的平均 :::warning 例題: 假設某地儲蓄年利率(複利計算):3%持續2年,2%持續1年,1%持續1年。請問此4年內該地**平均儲蓄年利率**? <font color="#f00">1.0598%</font> $\sqrt[4]{3^2\times 2^1 \times 1^1}-1=1.0598$ ::: ### 離散趨勢的測量 * **全距(range)** 最大值-最小值 * **樣本變異數(sample variance)** $$ S^2=\frac {\sum_{i=1}^n (Xi-\bar X)^2}{n-1} $$ * **樣本標準差(sample standard deviation)** $$ S $$ :::success **自由度:** 以**樣本的統計量**來估計**母體的參數**時,樣本中獨立或能自由變化的數據的個數。 <font color="#f00">獨立變數減掉其衍生量數</font>(n-x) ::: * **變異係數(coefficient of variation)** $$ CV=\frac {S}{\bar X}\times 100\% $$ 用途:可以用來比較兩組(或以上)不同單位參數的<font color="#f00">變異程度</font> :::warning 例題: A股票的平均數為10,標準差為5;B股票的平均數為20,標準差為15,哪個股票**變動程度大**? <font color="#f00">B=75%>A=50%</font> ::: * **四分位數(quartiles)** $$ Q_1=\frac {n+1}{4} \\Q_3=\frac {3(n+1)}{4} $$ * **四分位距(interquartile range)IQR** $$ Q_3 - Q_1 $$ 用途:可以對不同的資料集進行比較,而且比較結果不會被異常值扭曲(相對於全距)。可以畫<font color="#f00">盒形圖</font>。 ### Z分數(Z scores)與資料的形狀(shape) * **Z分數(Z score)** $$ Z=\frac {X-\bar X}{S} $$ 用途:是一種可以看出某分數在分布中相對位置的方法。 :::warning 例如: 期中考考了75分(班上平均60,標準差15);期末考考了60 (班上平均50,標準差5),哪一次考得比較好?<font color="#f00">期末考Z=2>期中考Z=1</font> ::: * **偏態係數(skewness)** $$ SK=3(\frac {\bar X-Me}{S})\\ \begin{cases} SK<0,& 左偏 \\ SK=0,& 對稱 \\ SK>0,& 右偏 \end{cases} $$ * **峰態係數(kurtosis)** $$ CK=\frac {\sum(Xi-\bar X)^4/n}{S^4} \\ \begin{cases} CK<3,&低闊峰 \\ CK=3,&常態峰\\ CK>3,&高狹峰 \end{cases} $$ ### 資料的形狀(shape) ![](https://i.imgur.com/fWBc8Lm.png) ## 1-4-2 統計學的資料呈現(敘述統計2) ### 五數彙總(five-number summary)與盒形圖(boxplot) ![](https://i.imgur.com/lDjFIPg.png) 用途:顯示一組<font color="#f00">數據分散情況</font>資料的統計圖,可用於品質管理。 ### 母體參數的測量 * **母體平均數(population mean)** $$ \mu=\frac {\sum_{i=1}^n Xi}{N} $$ * **母體變異數(population variance)** $$ \sigma^2=\frac {\sum_{i=1}^n(Xi-\mu)^2}{N} $$ * **母體標準差(population standard deviation)** $$ \sigma $$ ### 經驗法則(empirical rule) ==常態分配時使用== | 平均數加減標準差 | 涵蓋範圍 | |:----------------:|:--------:| | $\mu\pm\sigma$ | 68.26% | | $\mu\pm2\sigma$ | 95.44% | | $\mu\pm3\sigma$ | 99.72% | ### 謝比雪夫定理(chebyshev’s theorem) ==非常態分配==(更不精確的估計) $(1-\frac {1}{k^2})\times 100\%$ | 平均數加減標準差 | 涵蓋範圍 | |:----------------:|:--------:| | $\mu\pm\sigma$ | 至少0% | | $\mu\pm2\sigma$ | 至少75% | | $\mu\pm3\sigma$ | 至少88.89% | ### 共變異數(covariance) $$ Cov(X,Y)=\frac {\sum_{i=1}^n(Xi-\bar X)(Yi-\bar Y)}{n-1} \\ \begin{cases} Cov(X,Y)\gt0,&X,Y正相關 \\ Cov(X,Y)\lt0,&X,Y負相關 \\ Cov(X,Y)=0,&兩變數無線性關係 \end{cases} $$ ### 相關係數(coefficient of correlation) $$ r=\frac {Cov(X,Y)}{S_xS_y}\\ \begin{cases} 0\lt r\le 1,&X,Y正相關\\ r=0,&X,Y不相關\\ -1\le r\lt 0,&X,Y負相關 \end{cases}\\ S_x=\sqrt{\frac {\sum_{i=1}^n(Xi-\bar X)^2}{n-1}}\\ S_y=\sqrt{\frac {\sum_{i=1}^n(Yi-\bar Y)^2}{n-1}} $$ ## 1-5 敘述統計的軟體操作1:統計數據 Excel:arrow_right:檔案:arrow_right:選項:arrow_right:增益集:arrow_right:執行:arrow_right:分析工具箱:arrow_right:資料:arrow_right:資料分析:arrow_right:輸入資料:arrow_right:敘述統計:arrow_right:選擇資料範圍、輸出選項、及輸出項目:arrow_right:輸出報表 ==解釋報表是重點== **財務觀點:** 平均數:期望報酬 標準差:風險 # 單元2-基本機率 ## 2-1 基本機率概念 ### 事件與樣本空間 * **機率** 定義:不確定事件發生的機會(0≤P(A)≤1) 例子:明天下雨機率30% * **事件** 定義:每一個可能的結果 例子:{正面}, {反面}, { }, {正面,反面} * **簡單事件** 定義:利用單一特性描述事件 例子:擲一公正的骰子,出現點數4的事件 * **互補事件** 定義:某事件之「餘事件」 例子:擲一公正的骰子,點數不是4的事件 * **聯合事件** 定義:同時擁有兩個(或以上)的特性 例子:撲克牌中的紅心A * **樣本空間** 定義:所有可能事件的集合 例子:Ω={正面,反面} ### 互斥與完全窮盡 MECE全稱「Mutually Exclusive Collectively Exhaustive」,中文意思為「彼此獨立,互無遺漏」。在思考會對問題產生影響的關鍵因素,或是提出解決問題的方法和證據時,各個觀點能夠做到不重疊、不遺漏的分類,而且能夠借此有效把握問題的核心,並解決問題的方法。 * **互斥(mutually exclusive)** 定義:事件不會同時發生(等於空集合{ }) 例子:擲骰子時,不會同時擲出2點和3點 * **完全窮盡(collectively exhaustive)** 定義:包含所有的事件(等於樣本空間) 例子:擲一公正的骰子,出現點數1,2,3,4,5,6的事件 * **互斥且完全窮盡** 定義:隨機實驗的樣本空間**包含所有可能的結果**,這些結果必須是互斥且完全窮盡 例子:擲一公正骰子的樣本空間S = {1, 2, 3, 4, 5, 6},且機率P(A)+P(B)+P(C )=1 ### 機率的種類 * **先驗機率(priori probability)** 定義:在事情發生前所預判的機率。可以基於歷史數據統計、背景常識、人的主觀觀點給出。另一種情況是理論機率,亦稱<font color="#f00">古典機率</font>。 例子:擲骰子前,運用理論機率可知每面出現機率相等,為1/6。 * **經驗機率(empirical probability)** 定義:經驗機率是指根據經驗估計的事件成功或失敗的機率。在取樣空間中,給定一個事件A,事件A的經驗機率=事件A發生次數/全部觀測次數。 例子:擲骰子1000次,其中4點出現200次,此時的經驗機率為200/1000,也就是1/5,而非理論機率。 * **主觀機率(subjective probability)** 定義:是一種主觀的心理評價,即人們相信事件將會發生的可能性大小的程度。 例子:某個球隊會得到總冠軍的機率,根據個人判斷為0.6。 ### 邊際機率與聯合機率 * **邊際機率(marginal probability)** 在有兩個以上的事件的樣本空間中,若僅考慮某一事件個別發生的機率,稱為邊際機率。 ![](https://i.imgur.com/nsUrXbY.png) * **聯合機率(joint probability)** 兩個以上的事件都發生的機率,稱為聯合機率。 例:$P(A\cap B)$ ### 文氏圖及加法法則 **文氏圖**:表示集合(或類)的一種草圖 ![](https://i.imgur.com/LPSCVga.png =350x200) $P(A\cup B) = P(A)+P(B)- P(A\cap B)$ 若A, B互斥,則$P(A\cup B) = P(A) + P(B)$ ## 2-2 條件機率 ### 條件機率(conditional probability)的計算 若A,B為樣本空間中二事件,且P(B)>0。則在給定B發生之下,A之條件機率。(A在B發生的條件下發生的機率) **定義為:** $$ P(A|B)=\frac{P(A\cap B)}{P(B)} $$ $$ P(B|A)=\frac{P(A\cap B)}{P(A)} $$ :::warning **例子:** 總共有100筆交易 A=有60比買啤酒的交易 B=有50比買尿布的交易 A and B=有45比同時買了啤酒和尿布的交易 請問在買了啤酒後,又同時買尿布的機率?<font color="#f00">P(B|A)</font> ::: ### 決策樹(decision tree) ![](https://i.imgur.com/ly6ZCRu.png) $$ P(A|B)=\frac{P(A\cap B)}{P(A)}=\frac {0.45}{0.6}=0.75 $$ ### 獨立(independence) 當B事件已經發生的情況下再發生A事件的機率,等於A事件的機率,代表B發生與否和A無關,稱為<font color="#f00">獨立事件</font>。 **公式:** $$ P(A|B)=P(A) $$ :::warning **例子:** | 性別 | 支持班遊(B) | 不支持班遊 | 總計 | |:----:| --------:| ----------:| ----:| | 男(A) |<font color="#f00">64</font>| 16 | 80 | | 女 | 80 | 4 | 20 | | 總計 |<font color="#f00">80</font>|20 | 100 | 性別與支持班遊是否為獨立事件?<font color="#f00">是</font> $P(A|B)=\frac {P(A|B)}{P(B)}=\frac {0.64}{0.8}=0.8$ $P(A)=0.8$ $\to P(A|B)=P(A)$ ::: ### 乘法法則(multiplication rules) **公式:** $$ \begin{split}P(A\cap B)=P(A)P(B|A)\\=P(B)P(A|B)\end{split} $$ 如果A與B相互獨立,則$P(A∩b)=P(A)P(B)$ ## 2-3 貝式定理 ### 貝氏定理(Bayes’Theorem)的觀念 **例子:** 如果沒有「 」,潔西卡就不會發生車禍了。 事件: ``` 「路人甲不要忘記帶外套」 「路人乙不要睡過頭」 「服務生不要忘了包裝」 「潔西卡不要等同事綁鞋帶」 ``` 條件機率: ``` P(黛西發生車禍|女人忘記帶外套) P(黛西發生車禍|男人睡過頭) P(黛西發生車禍|服務生忘了包裝) P(黛西發生車禍|黛西等同事綁鞋帶) ``` 貝氏定理: <font color="#f00">P( 服務生忘了包裝l黛西發生車禍)</font> ### 貝氏定理的公式 $$ P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A|B)P(B)}{P(A)} $$ $$ P(A|B)=\frac{P(A|Bi)P(Bi)}{P(A|B1)P(B1)+P(A|B2)P(B2)+···+P(A|Bk)P(Bk)} $$ 貝氏定理的原理就是在[先驗機率](###機率的種類)的基礎上,以新事件的資訊來更新先驗機率,而算出來的機率便叫做後驗機率(posterior probability)。 他的公式看似繁雜,背後邏輯其實很單純,就是將「給定A事件已發生的前提下,B事件發生的條件機率」轉變為「給定B事件已發生的前提下,A事件發生的條件機率」的過程。換言之,貝氏定理就是在算反機率。 ### 表格化計算 假設: $P(F)=0.4$ $P(F')=0.6$ $P(C|F)=0.8$ $P(C|F')=0.3$ | 事件 | 先驗機率 P(Fi) | 條件機率 P(C l Fi) | 聯合機率 P(C l Fi)P(Fi) | 後驗機率 P(Fi l C) | | ---- |:--------:|:--------:|:--------:|:--------:| | F | 0.4 | 0.8 | 0.32 | 0.64 | | F' | 0.6 | 0.3 | 0.18 | 0.36 | ### 決策樹計算 ![](https://i.imgur.com/xM7GpxV.png) 後驗機率:$P(F|C)=\frac{P(F\cap C)}{P(C)}=\frac {0.32}{(0.32+0.18)}=0.64$ ## 2-4 計次法則 ### 計次法則的概念 在古典機率中,因為個別出象具有相同的發生機率,此時透過計次法則們計算出象(outcome) 的總數。其中,計算出象 (outcome) 的數目就是計算機率的根本。 :::warning **例子:** 一個餐廳的菜單,包括前菜、主餐、點心,如果有5種前菜,8種主餐,6種點心,請問總共會有多少個出象? <font color="#f00">5×8×6=240</font> ::: ### 排列 ==有順序問題,使用排列== 公式: $$ P_n^m=\frac{n!}{(n-m)!} $$ :::warning **例子:** 有6個人,但是只有4個座位,請問總共會有多少種排列的方法? <font color="#f00">$\frac{6!}{(6-4)!}=\frac {(6×5×4×3×2×1)}{(2×1)}=360$</font> ::: ### 組合 ==沒有順序問題,使用組合== 公式 : $$ C_m^n=\frac{m!}{n!(m-n)!} $$ :::warning **例子:** 有6個人,但是只有4個座位,如果不考慮順序問題,請問總共會有多少種排列的方法?</font> <font color="#ff00"> $\frac{6!}{(6-4)!×4!}=\frac {(6×5×4×3×2×1)}{(2×1)(4×3×2×1)}=15$</font> ::: ## 2-5 利用EXCEL模擬機率事件 ### 模擬擲銅板 1. 在A欄輸入函數 **=RAND()** 產生亂數 ![](https://i.imgur.com/UT9bmPn.png) 2. 在C欄輸入函數 **=ROUND(A1,0)** 將亂數四捨五入到整數位 ![](https://i.imgur.com/xymPcCy.png) ### 模擬擲骰子 在E欄輸入函數 **=ROUND(6*RAND()+0.5,0)**,6代表骰子的六個面,+0.5則是使0可以四捨五入到1,以符合骰子1~6的點數範圍,0將亂數曲到整數位 ![](https://i.imgur.com/wYnL8kl.png) ### 模擬抽樸克牌 同擲骰子,只是將6改成13,以符合13張撲克牌 ![](https://i.imgur.com/TJBfpwc.png) # 單元3-機率分配 ## 3-1 離散型與連續型機率分配 ### 離散變數的機率分配 :::warning **例子:** 如果我們關心初生嬰兒的體重,收集大量的資料(100,000個觀察值),建立它的機率分配,圖形看起來就會像個<font color="#f00">常態分配</font> ::: ### 常態分配圖例 ![](https://i.imgur.com/Y0urvnb.png =180x150) ### 離散變數的期望值、變異數、標準差 | 期望值 | =發生個數×發生機率 | | ---------- |:------------------------------------:| | **標準差** | ![](https://i.imgur.com/W0BajhK.png) | | **變異數** | ![](https://i.imgur.com/HZsVlRM.png) | ## 3-2 二項分配(Binomial) ### 二項分配的概念 將一個實驗重複且獨立試行n次,每次試行<font color="#f00">只有成功或失敗</font>二種互斥結果 $$ 成功機率:0≤P≤1 \\ 失敗機率:1-P $$ * 題目 題目是10題選擇題,每個單選題只有一個正確選項,如果都次用猜的,答對6題的機率是多少? * 計算 $\frac{10!}{6!4!}×(0.25)^6×(0.75)^4=0.016222$ ## 3-3 卜瓦松分配(Poisson) ### 卜瓦松分配的觀念 在<font color="#f00">某時間區段</font>內,平均會發生若干次<font color="#f00">事件</font>。有時很少,有時很多,事件發生的次數是一個隨機便促,其所對應的函數機率函數,稱為卜瓦松分配 * 題目 公車每10分鐘會開出一班,那麼等了<font color="#f00">5分鐘公車就出現</font>的機率是多少? * 公式 $$ f(x)=\frac {e^{-\lambda}×\lambda^x}{x!},(x=0,1,2...) $$ * 計算 $$ f(x) =\frac {e^{-0.5}×0.5^1}{1!}=0.3033 $$ ## 3-4 超幾何分配(hypergeometric distribution) ### 超幾何分配的觀念 在有限母體(finite population)中,採取抽取不放回(withoutreplacement) * 題目 在一個袋子裡裝有10個球,其中有4個紅球,6顆白球。你從中摸出5個球。摸到至少3個紅球就中獎,那麼中獎的機率是多少? * 計算 ![](https://i.imgur.com/PUG9rmR.png =350x100 ) ## 3-5 常態分配(Normal) :::warning 標準常態分配 : | μ |$\ σ^2$| | -------- | -------- | | 0 | 1 | * 平均數=中位數=眾數 ::: * 題目 如果你的女寶寶頭圍為33.2cm,跟別的女寶寶比起來如何?假 設平均數為32.2,標準差為0.5 * 計算 ![](https://i.imgur.com/mZEvp3z.png) * 查Z分配表 ![](https://i.imgur.com/FXEJzVV.png) ## 3-6 均勻分配(Uniform) ### 均勻分配的觀念 假設一隨機變數X在某一區間[a,b]內發生的機率皆相同,則X的機率分配稱為均勻分配(矩型分配) * 題目 如果女朋友抵達約會地點的時間在18:00~18:30分之間,且在 此時段中任何時點到的可能性均相同,你會等女朋友超過10分鐘的機率?==可以用連續型均勻分配來解答== * 計算 ![](https://i.imgur.com/FFks6QW.png) ![](https://i.imgur.com/Wty3TEs.png) ## 3-7 指數分配(Exponential) 表示獨立隨機事件發生的<font color="#f00">時間間隔</font> * 題目 如果排隊買電影片票,平均等候時間為4分鐘,且滿足指數分配 ,那麼排隊(1)大於3分鐘的機率是多少?(2)少於3分鐘的機率是多少? * 公式: ![](https://i.imgur.com/WUrkSif.png) # 單元4-抽樣分配與信賴區間 ## 4-1 抽樣分配 ### 抽樣分配(Sampling Distributions)的觀念 * 由母體中取得樣本的方法稱為<font color="#f00">抽樣</font> * 抽取<font color="#f00">具有代表性</font>的樣本 * 找出最佳估計量來推測<font color="#f00">母體的參數</font> * 控制估計量與母數間的<font color="#f00">誤差</font>,並以<font color="#f00">機率的觀念</font>來評估與表示推測結果的準確度 * 樣本統計量的機率分配 ### 抽樣方法 ![](https://i.imgur.com/VR1PU9A.png) ### 抽樣分配的應用 1. 行政院主計總處歷年人力資源調查 如:勞動力、就業者、失業率 2. 選舉的民意調查 如:支持度、好感度、信任度、適合度 3. 抽樣檢驗 如:從一批產品中隨機抽取少量產品(樣本)檢驗,判斷該批產品是否合格 ## 4-2 樣本平均數的抽樣分配 ### 樣本平均數的觀念 * N=4, X=18, 20, 22, 24 * $\mu =\frac {18+20+22+24}{4}=21$ * $\sigma=\sqrt \frac {\sum(Xi-\mu)^2}{N}=2.236$ * 抽取2個(n=2)值當作一組樣本 * 總共<font color="#f00">16個</font>樣本平均數 ![reference link](https://i.imgur.com/HXYKpt6.png =250x230) $X_1=20,X_2=22,\bar x=21$ ### $\bar X$的期望值、標準差與母體平均數、標準差的關係 $$ \mu_\bar x =\frac {18+19+19+···+24}{16}=21\\ \sigma_\bar x=\sqrt \frac {(18-21)^2+(19-21)^2+···+(24-21)^2}{16}=1.58 $$ $\mu=\mu_\bar x=21$為[不偏估計](https://murphymind.blogspot.com/2011/10/estimation.html)(Unbiased Estimator) <font color="#f00">$\sigma_\bar x=\frac{\sigma}{\sqrt n}$</font> $\sigma=2.236 \space\space \sigma_\bar x=1.58 \space\space \frac{2.236}{\sqrt 2}=1.58$ n越大則$\sigma_\bar x$越小 ![](https://i.imgur.com/dgCuppn.png =250x270) ### 樣本平均數抽樣分配的Z值 $$ Z=\frac {(\bar X-\mu_\bar x)}{\sigma_\bar x}=\frac {(\bar X-\mu)}{\frac {\sigma}{\sqrt n}} $$ ### 中央極限定理(Central Limit Theorem) ![](https://i.imgur.com/PKHfG2Y.png =350x200) * 當樣本數變得夠大時($n\ge 30$) * 不管母體的形狀,樣本平均數的抽樣分配,會變得接近[常態分配](###常態分配圖例) ### 樣本平均數的抽樣分配應用 * **題目:** 假設某大學的大學部學生每個月平均生活費為<font color="#f00">8000</font>元,標準差為 <font color="#f00">2500</font>元。如果隨機選取<font color="#f00">100</font>位學生,這些學生的每個月平均生活 費在<font color="#f00">7500</font>元到<font color="#f00">8500</font>元的機率為何? * **計算:** $$ \begin{align} P(7500\lt\bar X\lt 8500 ) & =P(\frac {7500-8000}{\frac {2500}{\sqrt 100}}\lt\frac {\bar X-\mu}{\frac {\sigma}{\sqrt n}}\lt\frac {8500-8000}{\frac {2500}{\sqrt 100}})\\ & =P(-2\lt Z\lt 2)\\ & =0.9772-0.0228\\ & =0.9544 \end{align} $$ * **查Z分配表** ![](https://i.imgur.com/ntMjyhm.png =350x200) * **示意圖:** ![](https://i.imgur.com/M2mwJtg.png =405x200) ## 4-3 樣本比例的抽樣分配 ### 樣本比例(Proportions)抽樣分配的計算 * **題目:** 國人平均過重與肥胖比例為<font color="#f00">0.4</font>,隨機抽樣<font color="#f00">200</font>人,過重與肥胖比例介於<font color="#f00">0.4至0.5的機率</font>? <font color="#f00">答 : 0.4981</font> * **公式 :** :::warning 注意 : <font color="#f00">$μ_p$=p</font> ::: ![](https://i.imgur.com/TwMiKes.png =275x100) * **計算:** 令 n=200 , p=0.4 , p̂=0.5 ![](https://i.imgur.com/LOj3HWI.png =405x75) ![](https://i.imgur.com/bVeFLXb.png) * **查Z分配表:** ![](https://i.imgur.com/0JLsHcV.png =405x200) * **示意圖:** ![](https://i.imgur.com/WQwejKl.png =405x200) ## 4-4 平均數的信賴區間估計(母體已知) ### 點估計與區間估計(Interval Estimates)的觀念 * <font color="#f00">點估計</font>是一個單一的值。如: 7/1的溫度是30°C * <font color="#f00">信賴區間</font>是對於估計的變動性,且提供額外資訊。如:7/1的溫度是27°C~30°C ![](https://i.imgur.com/TIqqiXu.png) ### 信心水準(Confidence Level)的觀念 * **95% (1 - α)的信心水準** 如果我們<font color="#f00">重複抽樣很多次</font>,每次都會得到一個<font color="#f00">信賴區間</font>, 那麼這麼多的信賴區間中,約有 95%的區間會涵蓋<font color="#f00">真正的母體參數(μ或P)</font> * **顯著水準5%(α)** <font color="#f00">重犯下型I錯誤的機率</font>,也就是虛無假設是對的,我們卻拒絕了它。如:某甲是個成績不錯的學生,我們卻當掉他。 ![](https://i.imgur.com/OZ784sJ.png) ### 點估計與區間估計的計算 * **題目** 我們從台北7月的溫度資料中,抽出100個樣本,得到樣本平均溫度是30 ℃。我們知道過去母體溫度的標準差是5 ℃,如果我們想要找出母體真正平均溫度的95%信賴區間,請問是介於多少溫度之間? * **公式** $$ \bar X±{Z_{1\over 2} }=\frac {\delta}{\sqrt{n}} $$ $$ \bar X:點估計 {Z_{1\over 2}}:臨界值  \frac {\delta}{\sqrt{n}}:標準誤 $$ * **計算** ![](https://i.imgur.com/DJ8AG0y.png) * **圖例** ![](https://i.imgur.com/12zagJT.png =405x200) ## 4-5 平均數的信賴區間估計(母體未知) :::warning * <font color="#f00">不適用</font>Z檢定的時機 1.==母體標準差未知== 不論樣本數量大或小,皆可用t檢定 2.==小樣本(n<30)== 必須改用t檢定以求準確 ::: ### t分配的觀念 * t值比Z值大,隨著自由度增加,越來越接近Z值 ![](https://i.imgur.com/6r1Y6nS.png =405x200) ### t分配的計算 * **題目** 某大學想要了解商學院大二學生的統計學成績,如果隨機抽取25名學生,得到樣本平均分數為50分,標準差為8分。如何形成真正母體平均的95%信賴區間? * **公式** $$ \begin{align} \bar X±{t_{1\over 2} }=\frac {S}{\sqrt{n}}\\ & \end{align} $$ * **計算** ![](https://i.imgur.com/2XMwYj8.png =305x150) * **查t分配表** :::warning 因n=25,又n-1=24。故查表需查df=24 ::: ![](https://i.imgur.com/paEWV08.png =375x250) * **圖例** ![](https://i.imgur.com/7ZNmx9p.png) ## 4-6 比例的信賴區間估計 ### 樣本比例與區間估計的觀念 ![](https://i.imgur.com/78vmtib.png) ### 樣本比例與區間估計的計算 * **題目:** 如果我們隨機抽出<font color="#f00">100</font>個大學畢業生,得到樣本失業率是<font color="#f00">5%</font>。請問母體真正失業率的<font color="#f00">95%</font>信賴區間,是介於多少之間? * **公式:** $$ \hat p\pm Z_\frac{\sigma}{2} \sqrt \frac{\hat p(1-\hat p)}{n} $$ > $\hat p=點估計\quad Z_\frac{\sigma}{2}=臨界值\quad \sqrt \frac{\hat p(1-\hat p)}{n}=標準誤\quad Z_\frac{\sigma}{2} \sqrt \frac{\hat p(1-\hat p)}{n}=邊際誤差$ * **計算:** 1. $n=100\,,\hat p=0.05\,,1-\hat p=0.95\,,1-\alpha=0.95$ 2. $0.05\pm 1.96 \sqrt \frac{0.05\times 0.95}{100}=(0.0073,0.0927)$ * **示意圖:** ![](https://i.imgur.com/jNMHYWU.png =350x200) ### 樣本比例與區間估計的應用 * 想要了解小學生<font color="#f00">近視比例</font> * 想要了解國人<font color="#f00">高血壓比例</font> * 想要知道國人<font color="#f00">不吃早餐的比例</font> * 想要知道國人<font color="#f00">過重的比例</font> # 單元5-假設檢定 ## 5-1 假設檢定概念 :::warning * 名詞解釋 1. 假設:為有關母體參數的宣稱 2. 虛無假設:對未知母恕罪初提出的假設,常有被否定的可能,以<font color="#f00">$H_0$</font>表示 3. 對立假設:虛無假設以外的其他可能數值,以<font color="#f00">$H_1$</font>表示 ::: * 假設處理原則 1. 「=」放在<font color="#f00">$H_0$</font> 2. 將想要的結果放在<font color="#f00">$H_1$</font> 3. 將抽樣後可能存在的結果放在<font color="#f00">$H_1$</font> * 應用:司法審判裡的無罪推論,先假設被告是無罪的。法官依據雙方所提出的證據,決定要不要否定被告是無罪的虛無假設 ### h3假設檢定(Hypothesis Testing)的型式 | 檢定 | 示意圖 | |:--------:|:------------------------------------:| | 雙尾檢定 | ![](https://i.imgur.com/Lv5FxaO.png) | | 右尾檢定 | ![](https://i.imgur.com/jdH89N6.png) | | 左尾檢定 | ![](https://i.imgur.com/Bf8gDJF.png) | :::warning **題目** 氣象局$宣稱$台北7月均溫為$30 ℃$,為了檢定這個說法,我們從台北7月的溫度資料中,抽出$100$個樣本,得到樣本平均溫度是$29.84 ℃$。如果已知母體溫度的$標準差是0.8 ℃$,在α=0.05的情況下,是否可以接受氣象局的宣稱? ::: ### 使用臨界值(critical value)的方法進行檢定(σ已知) 1. $n=100\,,$$\bar X=29.84$$\,,$$\sigma=0.8$$\,,\alpha=0.05$ 2. $H_0$:$\mu$=30 $H_1$:$\mu$≠30 3. 帶入公式 $$ Z=\frac {\bar X-\mu}{\frac {\sigma}{\sqrt n}}=\frac {29.84-30}{\frac {0.8}{\sqrt 100}}=\frac {-0.16}{0.08}=-2.0 $$ 4. 畫表比較與所求<font color="#f00">$-2.0$</font>比較 ![](https://i.imgur.com/MU5FinK.png) 5.因為$Z$</font>=-2.0<$-Z_\frac {\alpha}{2}$=-1.96 所以$拒絕H_0$,表示不能接受氣象局的宣稱 ### 使用P值(p-value)的方法進行檢定(σ已知) > 前三項與臨界值的方法相同 4. 畫表比較與所求![](https://i.imgur.com/qTtY1Oh.png) 5. 因為$p$值=0.0228+0.0228=0.0456<>α=0.05 所以$拒絕H_0$,表示不能接受氣象局的宣稱 ## 5-2 平均數的T檢定 :::warning **題目** 網路資料宣稱台灣男性平均身高為174.5公分,為了檢定這個說法,我們隨機抽出25個樣本,得到樣本平均高度是175.5公分。如果已知樣本的標準差是3公分,在α=0.05的情況下,是否可以接受網路資料的宣稱? ::: ### 使用臨界值的方法進行檢定(σ未知) 1. $n=25,\bar x=175.5,s=3,\alpha=0.05$ 2. $H_0:\mu=174.5\\H_1:\mu\neq174.5$ 3. 帶入公式 $$t^0=\frac {\bar X-\mu}{\frac {s}{\sqrt n}}=\frac {175.5-174.5}{\frac {3}{\sqrt 25}}=\frac {1}{0.6}=1.6667 $$ 4. 畫表比較與所求![](https://i.imgur.com/COBIhop.png) 5. 因為$t^0=1.6667\lt t_{n-1,\frac {\sigma}{2}}=2.0639$,所以接受$H_0$ ,表示可以接受網路資料的宣稱 ### 使用P值(p-value)的方法進行檢定(σ未知) 1. $n=25,\bar x=175.5,s=3,\alpha=0.05$ 2. $H_0:\mu=174.5\\H_1:\mu\neq174.5$ 3. 帶入公式 $$ t^0=\frac {\bar X-\mu}{\frac {s}{\sqrt n}}=\frac {175.5-174.5}{\frac {3}{\sqrt 25}}=\frac {1}{0.6}=1.6667 $$ 4. $t_0=1.667$,查t分配表,找到自由度24那一列,發現$\frac {p}{2}$值落在0.10(1.3178)到0.05(1.7109)之間,因此p值將落在0.20到0.10之間 5. 因為p值>$\alpha=0.05$,所以接受$H_0$,表示可以接受網路資料的宣稱 ### 使用信賴區間的方法進行檢定(σ未知) 1. $n=25,\bar x=175.5,s=3,\alpha=0.05$ 2. $H_0:\mu=174.5\\H_1:\mu\neq174.5$ 3. $175.5-2.0639\frac {3}{\sqrt {25}}\sim 175.5+2.0639\frac {3}{\sqrt {25}}\to 174.26\le \mu\le176.74$ 4. 因為信賴區間包含174.5,所以接受$H_0$,表示可以接受網路資料的宣稱 ## 5-3 單尾檢定 :::warning **題目** 網路資料$宣稱$大學女生平均體重$高於52公斤$,為了檢定這個說法,我們隨機抽出$25個樣本$,得到樣本平均體重是$53公斤$如果已知樣本的$標準差是3公斤$,在α=0.05的情況下,是否可以接受網路資料的宣稱? ::: ### 使用臨界值的方法進行檢定(σ未知) 1. $n=25\,,$$\bar X=53$$\,,$$\sigma=0.8$$\,,\alpha=0.05$ 2. $H_0:\mu\le 52\\H_1:\mu \gt52$ 3. $$t=\frac {\bar X-\mu}{\frac {\sigma}{\sqrt n}}=\frac {53-52}{\frac {3}{\sqrt 25}}=\frac {1}{0.6}=1.6667$$ 4. 畫表比較與所求 ![](https://i.imgur.com/jWPoC1p.png) 5. 因為<font color="#f00">$t$</font>=1.6667<<font color="#f00">$t_{24, 0.05}$</font>=1.7109,所以接受$H_0$,表示可以接受網路資料的宣稱 ### 使用P值(p-value)的方法進行檢定(σ未知) > 前三項與臨界值的方法相同 4. t=1.6667,<font color="#f00">$查t分配表,找到自由度$</font> * 24那一列,發現p值落在0.10(1.3178)到 0.05(1.7109)之間 5. 因為<font color="#f00">$p值> α$</font>=0.05,所以接受$H_0$,表示可以接受網路資料的宣稱 ## 5-4 比例的Z檢定 :::warning **題目** 網路資料宣稱國內成人過重及肥胖盛行率為50% ,為了檢定這個 說法,我們隨機抽出100個樣本,得到樣本過重比例是55%。在α=0.05的情況下,是否可以接受網路資料的宣稱? ::: ### 使用臨界值(critical value)的方法進行檢定 1. $n=100,\hat p=0.55,\alpha=0.05,\\np=100\times0.05=50\ge5,\\n(1-p)=100\times0.05=50\ge5$ 2. $H_0:P=0.5\\H_1:P\neq0.5$ 3. 帶入公式 $$Z^0=\frac {\hat p-P}{\sqrt {\frac {P(1-P)}{n}}}=\frac {0.55-0.5}{\sqrt {\frac {0.5(1-0.05)}{100}}}=1 $$ 4. 畫圖與所求比較 ![](https://i.imgur.com/vMjlkBT.png) 5. 因為$Z^0=1\leZ_{0.025}=1.96$,所以接受$H_0$,表示可以接受網路資料的宣稱 ### 使用P值(p-value)的方法進行檢定 1. $n=100,\hat p=0.55,\alpha=0.05,\\np=100\times0.05=50\ge5,\\n(1-p)=100\times0.05=50\ge5$ 2. $H_0:P=0.5\\H_1:P\neq0.5$ 3. $Z^0=\frac {\hat p-P}{\sqrt {\frac {P(1-P)}{n}}}=\frac {0.55-0.5}{\sqrt {\frac {0.5(1-0.05)}{100}}}=1$ 4. 畫表與所求比較 ![](https://i.imgur.com/1zWwnAa.png) 5. 因為p值=0.1587+0.1587=0.3174>$\alpha$=0.05,所以接受$H_0$,表示可以接受網路資料的宣稱 ## 5-5 二個獨立母體的平均數比較 ### 獨立樣本假設檢定的觀念介紹 :::warning **「男生的抽象思維能力整體上優於女生」、「女生整體能力發揮穩定於男生」到底誰說的對?** ::: $$ t^0=\frac {(\bar X_1-\bar X_2)-(\mu_1-\mu_2)}{ {\sqrt{\sigma_p^2(\frac {1}{n_1}+\frac {1}{n_2})}}} $$ * 虛無假設:$\mu_1-\mu_2$=0 > 虛無假設先假設兩組成績無差異 | σ1and σ2 未知,但假設相等| 使用Sp來估計未知的σ | 合併變異數t檢定(Pooled Variance) | | -------- | -------- | -------- | | σ1and σ2 未知,但假設不相等 | 使用S1和S2來估計未知的σ1 和 σ2 | 個別變異數t檢定(Separate Variance) | :::warning **題目** 想要回答高中男女生的學習成績,到底誰比較好這個問題,我們找 了一個班級,其中有21個男生,平均成績是65分,標準差5分;有25個女生,平均成績70分,標準差10分。假設兩個母體接近常態,且變異數相等,在α=0.05的情況下,是否可以接受男女生學習成績相等的假說? ::: ### 獨立樣本(變異數相等)的假設檢定 1. $n_1=21\,,$$\bar X=65$$\,,$$\sigma=5$$\,,\alpha=0.05$ $n_2=25\,,$$\bar X=70$$\,,$$\sigma=10$ 2. $H_0$:$\mu_1-\mu_2$=0 $H_1$:$\mu_1-\mu_2$≠0 3. 帶入公式 $$ t^0=\frac {(\bar X_1-\bar X_2)-(\mu_1-\mu_2)}{ {\sqrt{\sigma_p^2(\frac {1}{n_1}+\frac {1}{n_2})}}}\\t^0=\frac {(65-70)-(0)}{ {\sqrt{65.9091(\frac {1}{21}+\frac {1}{25})}}}=-2.0806 $$ 4. 畫圖與所求比較 ![](https://i.imgur.com/L4PVf97.png) 5. 因為$t_0$</font>=-2.0806$t_0$<$-t_44, 0.025$</font> = -2.0154 所以拒絕$H_0$,表示拒絕接受男女生學習成績相等的假說 故女生學習成績較好 ### 使用信賴區間的方法進行檢定 > 前2步驟與獨立樣本(變異數相等)的假設檢定相同 3. 帶入公式 $$ (\bar X_1-\bar X)±t_{\frac {\alpha}{2}}\sqrt{\sigma_p^2(\frac {1}{n_1}+\frac {1}{n_2})}=-5±2.0154×2.0431=(-9.8432,-0.1568) $$ 4. 因為信賴區間不包含0,所以拒絕$H_0$,表示拒絕接受男女生學習成績相等的假說;女生學習成績較好。 ### 兩個母體平均,獨立樣本(變異數不相等)的假設檢定 > 前2步驟與獨立樣本(變異數相等)的假設檢定相同 3. 假設 $$ t^0=\frac {(\bar X_1-\bar X_2)-(\mu_1-\mu_2)}{ {\sqrt{\sigma_p^2(\frac {1}{n_1}+\frac {1}{n_2})}}}\\=\frac {(65-70)-(0)}{ {\sqrt{(\frac {5^2}{21}+\frac {10^2}{25})}}}=-2.1946 \\v=\frac {(\frac {{\sigma_1^2}}{n_1}+\frac {\sigma_2^2}{n_2})^2}{{{(\frac {(\frac {\sigma_1^2}{n_1})^2}{n_1-1}+\frac {(\frac {\sigma_2^2}{n_2})^2}{n_2-1})}}}\\=\frac {(\frac {{5^2}}{21}+\frac {10^2}{25})^2}{{{(\frac {(\frac {5^2}{21})^2}{20}+\frac {(\frac {10^2}{25})^2}{24})}}}\\=36.5256 $$ :::success 取自由度**36** ::: 4. ![](https://i.imgur.com/PRdBItl.png) 5. 因為$t_0$=-2.1946<-t36, 0.025 = -2.0281 所以拒絕$H_0$, 表示拒絕接受男女生學習成績 相等的假說 故女生學習成績較好 ## 5-6 二個相關母體的平均數比較 ### 成對樣本假設檢定的觀念介紹 公式: $$ H_0:\mu_D=0\quad H_1:\mu_D\neq0\\t_0=\frac {\bar D-\mu_D}{\frac {S_D}{\sqrt n}} $$ 1. 成對養本之間的差異 $$ D_i=X_{1i}-X_2i $$ 2. 所有樣本差異的平均值 $$ \bar D=\sum_{i=1}^n D_i $$ 3. 所有樣本差異的標準差 $$ S_D=\sqrt {\frac {\sum_{i=1}^n(D_i-\bar D)^2}{n-1}} $$ :::warning **題目** 想要知道瘦身成效到底好不好,我們找了5個人,分別記錄其(瘦身前、瘦身後)的體重,得到資料如下:A(78, 76), B(90,76), C(51, 50),D(60,60),E(68, 65),在α=0.05的情況下,是否可以接受瘦身前後體重不相等的假說? ::: ### 成對樣本假設檢定的計算 1. $n=5,\bar D=\frac{(-2-14-1-0-3)}{5}=-4,S_D=5.70,\alpha=0.05$ 2. $H_0:\mu_D=0\\H_1:\mu_D\neq 0$ 3. 帶入公式 $$ t_0=\frac {\bar D-\mu_p}{\frac {S_D}{\sqrt n}}=\frac {-4-0}{\frac {5.70}{\sqrt 5}}=-1.57 $$ 4. 畫圖與所求比較 ![](https://i.imgur.com/IHFvy4Z.png) 5. 因為$t_0=-1.57\lt-t_{4, 0.025}=-2.7764$,所以接受$H_0$,表示接受瘦身前後體重相等的假說;瘦身成效不明顯。 ### 使用信賴區間的方法進行檢定 1. $n=5,\bar D=\frac{(-2-14-1-0-3)}{5}=-4,S_D=5.70,\alpha=0.05$ 2. $H_0:\mu_D=0\\H_1:\mu_D\neq 0$ 3. 帶入公式 $$\bar D\pm t_{\frac {\alpha}{2}}\frac {S_D}{\sqrt n}=-4\pm 2.7764\frac {5.70}{\sqrt 5}=(-11.0773,3.0773) $$ 4. 因為信賴區間包含0,所以接受H0,表示接受瘦身前後體重相等的假說;瘦身成效不明顯。 ## 5-7 二個變異數檢定的F比較 ### 兩個變異數比率的F檢定的計算 ``` * 回答高中男女生的學習成績,誰的變異程度較大這個問題 ``` :::warning **題目** 一個班級,其中有$21$個男生,平均成績是$65$分,標準差$5$分;有<$25$個女生,平均成績$70$分,標準差10分。假設兩個母體接近常態,在α=0.05的情況下,是否可以接受男女生學習成績變異程度相等$</font>的假說? ::: 1. $n_1=21\,,$$\bar X=65$$\,,$$\sigma=5$$\,,\alpha=0.05$ $n_2=25\,,$$\bar X=70$$\,,$$\sigma=10$ 2. $H_0$:$\sigma_1^{2}$=$\sigma_2^{2}$ $H_1$:$\sigma_1^{2}$=$\sigma_2^{2}$ 3. $F^{0}$=$\frac {\sigma_1^{2}}{\sigma_2^{2}}$=$\frac {130^{2}}{116^{2}}$=1256 4. 畫圖與所求比較 ![](https://i.imgur.com/V92JwCg.png) 5. 因為$F_0$</font>=1.256<$F_0.025$</font> = 2.33,所以$接受H0$, 表示可以接受男女生學習成績變異程度相等的假說 ### 查表應用 ![](https://i.imgur.com/5GViWqK.png) # 單元6-變異數分析 ## 6-1 單因子變異數分析 ### 單因子變異數分析(One-Way ANOVA )的觀念 > 將觀測值以<font color="#f00">一個標準為分類</font>基礎 ![](https://i.imgur.com/KrFQvou.png) 1. 先假設樣本無差別:$H_0$:μ1 = μ2 = μ3 = … = μk 對立假設:H1:不是所有的μj 是相等的 2. 基本假設 ![](https://i.imgur.com/GWL8YUN.png) ### 單因子變異數分析表(One-Way ANOVA Table) ![](https://i.imgur.com/Ay3JE9c.png) ![](https://i.imgur.com/c3i5x9e.png) #### 單因子變異數分析應用 :::warning 為了解答不同家便利商店,服務品質是一樣的嗎?我們找了3家便利商店,每家抽出5位顧客,根據其服務品質評分(1表示很差,2表示差,3表示普通,4表示好,5表示很好)。在α=0.05的情況下,是否可以接受3家便利商店服務品質相等的假說? ::: | A店 | B店 | C店 | | --- | ---- | ---- | | 5 | 3 |5 | | 4 | 2 | 5 | | 3 | 4 | 5 | | 4 | 3 | 5 | | 4 | 3| 5 | ![](https://i.imgur.com/LDBqZHI.png) * 計算 1.假設 H0:μ1 = μ2 = μ3 H1: μ1, μ2, μ3不完全相等 2.帶入公式 $F^{0}$$=\frac {MSC}{MSE}$=$\frac {5}{0.3333}$=15.0015 3.因為$F_0$=15.0015>F 0.05;2,12 = 3.89 所以拒絕H0,表示不能接受不同家便利商店,服務品質是一樣的假說。 ## 6-2 雙因子變異數分析 ### 二因子未重複實驗的觀念 > 1. 將觀測值以<font color="#f00">兩個分類標準分類</font>基礎(在對應分類交叉項只做1次實驗),本法與一因子集區設計做法相同,只是將集區視為一個影響因子 > 2. 本法與二因子未重複實驗的差異,在於每一個處理因子 的交集項內,對每個樣本(Xij)<font color="#f00">做2次以上</font>的實驗,因其主要是探討二個處理因子間是否具有<font color="#f00">交互作用</font> > ![](https://i.imgur.com/o0McjLp.png) ### 二因子重複實驗變異數分析表(ANOVA Table) ![](https://i.imgur.com/4w2kBxf.png) ![](https://i.imgur.com/52l3MGC.png) # 單元7-卡方檢定 ## 7-1 兩個比例差的卡方檢定 ### 卡方(Chi-Square, $x^2$)適合度檢定的觀念 * 檢定母體的分配是否適合某種理論分配 * 檢定<font color="#f00">實驗次數分配</font>與假設的<font color="#f00">理論分配</font>是否能夠相吻合 ### 卡方($x^2$)適合度檢定的應用 我們想要知道民眾在喜歡寵物的態度上是否有差別? 因此我們抽樣了100位有養寵物的民眾,得到以下資料。 ![](https://i.imgur.com/Z62OyWs.png =405x200) :::warning 每個格子至少要<font color="#f00">大於5</font> ::: $H_0$: 母體為均勻分配 $H_1$: 母體不為均勻分配 $$ \begin{align} X_i^k & =\sum \frac {(o_i-e_i)^2}{e_i}\\ & =\frac {(45-50)^2}{50}+\frac {(55-50)^2}{50}\\ & =1 \end{align} $$ ### 卡方($x^2$)適合度檢定計算 ![](https://i.imgur.com/25YQnRJ.png =405x200) 因為$X_0^2=1\lt X_{0.05,1}^2=3.841$ 因此接受$H_0$,表示民眾在喜歡寵物的態度上並<font color="#f00">無差別</font> :::success [自由度](###離散趨勢的測量):K-1-m=2-1-0=1(2-1)=2 m:用估計量來取代未知母數的個數 ::: ## 7-2 卡方獨立性檢定 ### 卡方(Chi-Square,$x^2$)獨立性檢定的觀念 * 檢驗兩個分類標準是否獨立 * 常編成聯立表(Contingency Table)來陳述,又稱聯立表檢 ![](https://i.imgur.com/Ddc7EUG.png) ### 卡方($x^2$)獨立性檢定的應用 我們想要知道男性與女性在喜歡寵物的態度上是否有差別? 因此我們抽樣了100人,得到以下資料。 ![](https://i.imgur.com/Y97mEdI.png) 紅色數值為<font color="#f00">期望值</font>(計算方式:$15.75=\frac {男性總數\times 喜歡養狗總數}{人數總數}=\frac {35\times 45}{100}$) $H_0$: 性別與喜歡寵物的類別**獨立**(無關) $H_1$: 性別與喜歡寵物的類別**不獨立**(有關) $$ \begin{align} X_0^2 & =\sum \frac {(o_i-c_i)^2}{c_i}\\ & =\frac {(20-15.75)^2}{15.75}+\frac {(15-20.25)^2}{20.25}+\frac {(10-11.25)^2}{11.25}+\frac {(15-19.25)^2}{19.25}+\frac {(25-22)^2}{22}+\frac {(15-13.75)^2}{13.75}\\ & =4.1078 \end{align} $$ ### 卡方($x^2$)獨立性檢定的計算 ![](https://i.imgur.com/DMXHmyr.png =405x200) 因為$X_0^2=4.1078\lt X_{0.05,2}^2=5.991$ 因此接受$H_0$,表示民眾在喜歡寵物的態度上並<font color="#f00">無差別</font> :::success [自由度](###離散趨勢的測量):(c-1)(r-1)=(3-1)(2-1)=2 :::