# 單元1-統計學的基本概念、資料蒐集、資料呈現
## 1-1 統計學基本介紹
==統計是一種思考的方式==
### 統計與解決問題
* 使蒐集到的資訊變得有意義
* 可以協助我們解釋、預測許多現象
* 可以做為<font color="#f00">決策支援</font>的基礎
* 對商管學院學生而言,統計在經營決策中的應用相當廣泛,各種企業相關活動,都可利用統計協助決策
==我們在一生當中,常要根據不完整的資訊做決定==
### 課程內容
* **敘述統計**
抽樣後,分析資料,以了解各變量之觀察值集中與分散的情況
* **機率**
事件出現的可能性
* **推論統計**
根據樣本資料,推論母體特徵的方法
## 1-2 統計學的資料蒐集
### 變數類型
* **離散變數(discrete variable)**
數值只能用<font color="#f00">自然數</font>或<font color="#f00">整數</font>單位計算
例:性別、教育程度、人數
* **連續變數(continuous variable)**
在一定<font color="#f00">區間內可以任意取值</font>的變數
例:身高、距離、溫度
### 測量尺度(measurement scales)

### 問卷範例

### 母體與樣本
* **母體(population)**:想要研究的對象
特徵:參數(parameters)
* **樣本(sample)**:實際收集資料的部分
特徵:統計量(statistics)
### 抽樣方法(sampling methods

## 1-3 統計學的資料呈現(圖表)
### 離散(類別, categorical)變數的表格

### 連續(定量, numerical)變數的表格


### 離散(類別, categorical)變數的圖形



### 連續(定量, numerical)變數的圖形




### 總結
* **離散變數的表格**:彙總表、列聯表
* **連續變數的表格**:次數分配表、相對次數分配表、累積分布
* **離散變數的圖形**:長條圖、柏拉圖、(並排)圓形圖、(並排環圈圖)
* **連續變數的圖形**:莖葉圖、直方圖、次數多邊圖、肩形圖、散佈圖、時間序列圖
## 1-4-1 統計學的資料呈現(敘述統計1)
### 集中趨勢(central tendency)的測量
* **平均數(mean)**
$$
\bar X =\frac {\sum_{i=1}^n Xi}{n}
$$
$$X_1=任意數$$
* **中位數(median)**
$$
\frac {n+1}{2}
$$
* **眾數(mode)**
出現最多的值
* **幾何平均數(geometric mean)**
$$
\bar XG=\sqrt[n]{X_1\times X_2 \times··· \times X_n }
$$
應用時機:一段時間內(經濟指標、營業額、投資報酬率、薪資)的<font color="#f00">變化率或成長率</font>的平均
:::warning
例題:
假設某地儲蓄年利率(複利計算):3%持續2年,2%持續1年,1%持續1年。請問此4年內該地**平均儲蓄年利率**? <font color="#f00">1.0598%</font>
$\sqrt[4]{3^2\times 2^1 \times 1^1}-1=1.0598$
:::
### 離散趨勢的測量
* **全距(range)**
最大值-最小值
* **樣本變異數(sample variance)**
$$
S^2=\frac {\sum_{i=1}^n (Xi-\bar X)^2}{n-1}
$$
* **樣本標準差(sample standard deviation)**
$$
S
$$
:::success
**自由度:**
以**樣本的統計量**來估計**母體的參數**時,樣本中獨立或能自由變化的數據的個數。
<font color="#f00">獨立變數減掉其衍生量數</font>(n-x)
:::
* **變異係數(coefficient of variation)**
$$
CV=\frac {S}{\bar X}\times 100\%
$$
用途:可以用來比較兩組(或以上)不同單位參數的<font color="#f00">變異程度</font>
:::warning
例題:
A股票的平均數為10,標準差為5;B股票的平均數為20,標準差為15,哪個股票**變動程度大**? <font color="#f00">B=75%>A=50%</font>
:::
* **四分位數(quartiles)**
$$
Q_1=\frac {n+1}{4} \\Q_3=\frac {3(n+1)}{4}
$$
* **四分位距(interquartile range)IQR**
$$
Q_3 - Q_1
$$
用途:可以對不同的資料集進行比較,而且比較結果不會被異常值扭曲(相對於全距)。可以畫<font color="#f00">盒形圖</font>。
### Z分數(Z scores)與資料的形狀(shape)
* **Z分數(Z score)**
$$
Z=\frac {X-\bar X}{S}
$$
用途:是一種可以看出某分數在分布中相對位置的方法。
:::warning
例如:
期中考考了75分(班上平均60,標準差15);期末考考了60 (班上平均50,標準差5),哪一次考得比較好?<font color="#f00">期末考Z=2>期中考Z=1</font>
:::
* **偏態係數(skewness)**
$$
SK=3(\frac {\bar X-Me}{S})\\
\begin{cases}
SK<0,& 左偏 \\
SK=0,& 對稱 \\
SK>0,& 右偏
\end{cases}
$$
* **峰態係數(kurtosis)**
$$
CK=\frac {\sum(Xi-\bar X)^4/n}{S^4} \\
\begin{cases}
CK<3,&低闊峰 \\
CK=3,&常態峰\\
CK>3,&高狹峰
\end{cases}
$$
### 資料的形狀(shape)

## 1-4-2 統計學的資料呈現(敘述統計2)
### 五數彙總(five-number summary)與盒形圖(boxplot)

用途:顯示一組<font color="#f00">數據分散情況</font>資料的統計圖,可用於品質管理。
### 母體參數的測量
* **母體平均數(population mean)**
$$
\mu=\frac {\sum_{i=1}^n Xi}{N}
$$
* **母體變異數(population variance)**
$$
\sigma^2=\frac {\sum_{i=1}^n(Xi-\mu)^2}{N}
$$
* **母體標準差(population standard deviation)**
$$
\sigma
$$
### 經驗法則(empirical rule)
==常態分配時使用==
| 平均數加減標準差 | 涵蓋範圍 |
|:----------------:|:--------:|
| $\mu\pm\sigma$ | 68.26% |
| $\mu\pm2\sigma$ | 95.44% |
| $\mu\pm3\sigma$ | 99.72% |
### 謝比雪夫定理(chebyshev’s theorem)
==非常態分配==(更不精確的估計)
$(1-\frac {1}{k^2})\times 100\%$
| 平均數加減標準差 | 涵蓋範圍 |
|:----------------:|:--------:|
| $\mu\pm\sigma$ | 至少0% |
| $\mu\pm2\sigma$ | 至少75% |
| $\mu\pm3\sigma$ | 至少88.89% |
### 共變異數(covariance)
$$
Cov(X,Y)=\frac {\sum_{i=1}^n(Xi-\bar X)(Yi-\bar Y)}{n-1} \\
\begin{cases}
Cov(X,Y)\gt0,&X,Y正相關 \\
Cov(X,Y)\lt0,&X,Y負相關 \\
Cov(X,Y)=0,&兩變數無線性關係
\end{cases}
$$
### 相關係數(coefficient of correlation)
$$
r=\frac {Cov(X,Y)}{S_xS_y}\\
\begin{cases}
0\lt r\le 1,&X,Y正相關\\
r=0,&X,Y不相關\\
-1\le r\lt 0,&X,Y負相關
\end{cases}\\
S_x=\sqrt{\frac {\sum_{i=1}^n(Xi-\bar X)^2}{n-1}}\\
S_y=\sqrt{\frac {\sum_{i=1}^n(Yi-\bar Y)^2}{n-1}}
$$
## 1-5 敘述統計的軟體操作1:統計數據
Excel:arrow_right:檔案:arrow_right:選項:arrow_right:增益集:arrow_right:執行:arrow_right:分析工具箱:arrow_right:資料:arrow_right:資料分析:arrow_right:輸入資料:arrow_right:敘述統計:arrow_right:選擇資料範圍、輸出選項、及輸出項目:arrow_right:輸出報表
==解釋報表是重點==
**財務觀點:**
平均數:期望報酬
標準差:風險
# 單元2-基本機率
## 2-1 基本機率概念
### 事件與樣本空間
* **機率**
定義:不確定事件發生的機會(0≤P(A)≤1)
例子:明天下雨機率30%
* **事件**
定義:每一個可能的結果
例子:{正面}, {反面}, { }, {正面,反面}
* **簡單事件**
定義:利用單一特性描述事件
例子:擲一公正的骰子,出現點數4的事件
* **互補事件**
定義:某事件之「餘事件」
例子:擲一公正的骰子,點數不是4的事件
* **聯合事件**
定義:同時擁有兩個(或以上)的特性
例子:撲克牌中的紅心A
* **樣本空間**
定義:所有可能事件的集合
例子:Ω={正面,反面}
### 互斥與完全窮盡
MECE全稱「Mutually Exclusive Collectively Exhaustive」,中文意思為「彼此獨立,互無遺漏」。在思考會對問題產生影響的關鍵因素,或是提出解決問題的方法和證據時,各個觀點能夠做到不重疊、不遺漏的分類,而且能夠借此有效把握問題的核心,並解決問題的方法。
* **互斥(mutually exclusive)**
定義:事件不會同時發生(等於空集合{ })
例子:擲骰子時,不會同時擲出2點和3點
* **完全窮盡(collectively exhaustive)**
定義:包含所有的事件(等於樣本空間)
例子:擲一公正的骰子,出現點數1,2,3,4,5,6的事件
* **互斥且完全窮盡**
定義:隨機實驗的樣本空間**包含所有可能的結果**,這些結果必須是互斥且完全窮盡
例子:擲一公正骰子的樣本空間S = {1, 2, 3, 4, 5, 6},且機率P(A)+P(B)+P(C )=1
### 機率的種類
* **先驗機率(priori probability)**
定義:在事情發生前所預判的機率。可以基於歷史數據統計、背景常識、人的主觀觀點給出。另一種情況是理論機率,亦稱<font color="#f00">古典機率</font>。
例子:擲骰子前,運用理論機率可知每面出現機率相等,為1/6。
* **經驗機率(empirical probability)**
定義:經驗機率是指根據經驗估計的事件成功或失敗的機率。在取樣空間中,給定一個事件A,事件A的經驗機率=事件A發生次數/全部觀測次數。
例子:擲骰子1000次,其中4點出現200次,此時的經驗機率為200/1000,也就是1/5,而非理論機率。
* **主觀機率(subjective probability)**
定義:是一種主觀的心理評價,即人們相信事件將會發生的可能性大小的程度。
例子:某個球隊會得到總冠軍的機率,根據個人判斷為0.6。
### 邊際機率與聯合機率
* **邊際機率(marginal probability)**
在有兩個以上的事件的樣本空間中,若僅考慮某一事件個別發生的機率,稱為邊際機率。

* **聯合機率(joint probability)**
兩個以上的事件都發生的機率,稱為聯合機率。
例:$P(A\cap B)$
### 文氏圖及加法法則
**文氏圖**:表示集合(或類)的一種草圖

$P(A\cup B) = P(A)+P(B)- P(A\cap B)$
若A, B互斥,則$P(A\cup B) = P(A) + P(B)$
## 2-2 條件機率
### 條件機率(conditional probability)的計算
若A,B為樣本空間中二事件,且P(B)>0。則在給定B發生之下,A之條件機率。(A在B發生的條件下發生的機率)
**定義為:**
$$
P(A|B)=\frac{P(A\cap B)}{P(B)}
$$
$$
P(B|A)=\frac{P(A\cap B)}{P(A)}
$$
:::warning
**例子:**
總共有100筆交易
A=有60比買啤酒的交易
B=有50比買尿布的交易
A and B=有45比同時買了啤酒和尿布的交易
請問在買了啤酒後,又同時買尿布的機率?<font color="#f00">P(B|A)</font>
:::
### 決策樹(decision tree)

$$
P(A|B)=\frac{P(A\cap B)}{P(A)}=\frac {0.45}{0.6}=0.75
$$
### 獨立(independence)
當B事件已經發生的情況下再發生A事件的機率,等於A事件的機率,代表B發生與否和A無關,稱為<font color="#f00">獨立事件</font>。
**公式:**
$$
P(A|B)=P(A)
$$
:::warning
**例子:**
| 性別 | 支持班遊(B) | 不支持班遊 | 總計 |
|:----:| --------:| ----------:| ----:|
| 男(A) |<font color="#f00">64</font>| 16 | 80 |
| 女 | 80 | 4 | 20 |
| 總計 |<font color="#f00">80</font>|20 | 100 |
性別與支持班遊是否為獨立事件?<font color="#f00">是</font>
$P(A|B)=\frac {P(A|B)}{P(B)}=\frac {0.64}{0.8}=0.8$
$P(A)=0.8$
$\to P(A|B)=P(A)$
:::
### 乘法法則(multiplication rules)
**公式:**
$$
\begin{split}P(A\cap B)=P(A)P(B|A)\\=P(B)P(A|B)\end{split}
$$
如果A與B相互獨立,則$P(A∩b)=P(A)P(B)$
## 2-3 貝式定理
### 貝氏定理(Bayes’Theorem)的觀念
**例子:**
如果沒有「 」,潔西卡就不會發生車禍了。
事件:
```
「路人甲不要忘記帶外套」
「路人乙不要睡過頭」
「服務生不要忘了包裝」
「潔西卡不要等同事綁鞋帶」
```
條件機率:
```
P(黛西發生車禍|女人忘記帶外套)
P(黛西發生車禍|男人睡過頭)
P(黛西發生車禍|服務生忘了包裝)
P(黛西發生車禍|黛西等同事綁鞋帶)
```
貝氏定理:
<font color="#f00">P( 服務生忘了包裝l黛西發生車禍)</font>
### 貝氏定理的公式
$$
P(A|B)=\frac{P(A\cap B)}{P(B)}=\frac{P(A|B)P(B)}{P(A)}
$$
$$
P(A|B)=\frac{P(A|Bi)P(Bi)}{P(A|B1)P(B1)+P(A|B2)P(B2)+···+P(A|Bk)P(Bk)}
$$
貝氏定理的原理就是在[先驗機率](###機率的種類)的基礎上,以新事件的資訊來更新先驗機率,而算出來的機率便叫做後驗機率(posterior probability)。
他的公式看似繁雜,背後邏輯其實很單純,就是將「給定A事件已發生的前提下,B事件發生的條件機率」轉變為「給定B事件已發生的前提下,A事件發生的條件機率」的過程。換言之,貝氏定理就是在算反機率。
### 表格化計算
假設:
$P(F)=0.4$
$P(F')=0.6$
$P(C|F)=0.8$
$P(C|F')=0.3$
| 事件 | 先驗機率 P(Fi) | 條件機率 P(C l Fi) | 聯合機率 P(C l Fi)P(Fi) | 後驗機率 P(Fi l C) |
| ---- |:--------:|:--------:|:--------:|:--------:|
| F | 0.4 | 0.8 | 0.32 | 0.64 |
| F' | 0.6 | 0.3 | 0.18 | 0.36 |
### 決策樹計算

後驗機率:$P(F|C)=\frac{P(F\cap C)}{P(C)}=\frac {0.32}{(0.32+0.18)}=0.64$
## 2-4 計次法則
### 計次法則的概念
在古典機率中,因為個別出象具有相同的發生機率,此時透過計次法則們計算出象(outcome) 的總數。其中,計算出象 (outcome) 的數目就是計算機率的根本。
:::warning
**例子:**
一個餐廳的菜單,包括前菜、主餐、點心,如果有5種前菜,8種主餐,6種點心,請問總共會有多少個出象? <font color="#f00">5×8×6=240</font>
:::
### 排列
==有順序問題,使用排列==
公式:
$$
P_n^m=\frac{n!}{(n-m)!}
$$
:::warning
**例子:**
有6個人,但是只有4個座位,請問總共會有多少種排列的方法?
<font color="#f00">$\frac{6!}{(6-4)!}=\frac {(6×5×4×3×2×1)}{(2×1)}=360$</font>
:::
### 組合
==沒有順序問題,使用組合==
公式 :
$$
C_m^n=\frac{m!}{n!(m-n)!}
$$
:::warning
**例子:**
有6個人,但是只有4個座位,如果不考慮順序問題,請問總共會有多少種排列的方法?</font>
<font color="#ff00"> $\frac{6!}{(6-4)!×4!}=\frac {(6×5×4×3×2×1)}{(2×1)(4×3×2×1)}=15$</font>
:::
## 2-5 利用EXCEL模擬機率事件
### 模擬擲銅板
1. 在A欄輸入函數 **=RAND()** 產生亂數

2. 在C欄輸入函數 **=ROUND(A1,0)** 將亂數四捨五入到整數位

### 模擬擲骰子
在E欄輸入函數 **=ROUND(6*RAND()+0.5,0)**,6代表骰子的六個面,+0.5則是使0可以四捨五入到1,以符合骰子1~6的點數範圍,0將亂數曲到整數位

### 模擬抽樸克牌
同擲骰子,只是將6改成13,以符合13張撲克牌

# 單元3-機率分配
## 3-1 離散型與連續型機率分配
### 離散變數的機率分配
:::warning
**例子:**
如果我們關心初生嬰兒的體重,收集大量的資料(100,000個觀察值),建立它的機率分配,圖形看起來就會像個<font color="#f00">常態分配</font>
:::
### 常態分配圖例

### 離散變數的期望值、變異數、標準差
| 期望值 | =發生個數×發生機率 |
| ---------- |:------------------------------------:|
| **標準差** |  |
| **變異數** |  |
## 3-2 二項分配(Binomial)
### 二項分配的概念
將一個實驗重複且獨立試行n次,每次試行<font color="#f00">只有成功或失敗</font>二種互斥結果
$$
成功機率:0≤P≤1 \\
失敗機率:1-P
$$
* 題目
題目是10題選擇題,每個單選題只有一個正確選項,如果都次用猜的,答對6題的機率是多少?
* 計算
$\frac{10!}{6!4!}×(0.25)^6×(0.75)^4=0.016222$
## 3-3 卜瓦松分配(Poisson)
### 卜瓦松分配的觀念
在<font color="#f00">某時間區段</font>內,平均會發生若干次<font color="#f00">事件</font>。有時很少,有時很多,事件發生的次數是一個隨機便促,其所對應的函數機率函數,稱為卜瓦松分配
* 題目
公車每10分鐘會開出一班,那麼等了<font color="#f00">5分鐘公車就出現</font>的機率是多少?
* 公式
$$
f(x)=\frac {e^{-\lambda}×\lambda^x}{x!},(x=0,1,2...)
$$
* 計算
$$
f(x) =\frac {e^{-0.5}×0.5^1}{1!}=0.3033
$$
## 3-4 超幾何分配(hypergeometric distribution)
### 超幾何分配的觀念
在有限母體(finite population)中,採取抽取不放回(withoutreplacement)
* 題目
在一個袋子裡裝有10個球,其中有4個紅球,6顆白球。你從中摸出5個球。摸到至少3個紅球就中獎,那麼中獎的機率是多少?
* 計算

## 3-5 常態分配(Normal)
:::warning
標準常態分配 :
| μ |$\ σ^2$|
| -------- | -------- |
| 0 | 1 |
* 平均數=中位數=眾數
:::
* 題目
如果你的女寶寶頭圍為33.2cm,跟別的女寶寶比起來如何?假
設平均數為32.2,標準差為0.5
* 計算

* 查Z分配表

## 3-6 均勻分配(Uniform)
### 均勻分配的觀念
假設一隨機變數X在某一區間[a,b]內發生的機率皆相同,則X的機率分配稱為均勻分配(矩型分配)
* 題目
如果女朋友抵達約會地點的時間在18:00~18:30分之間,且在
此時段中任何時點到的可能性均相同,你會等女朋友超過10分鐘的機率?==可以用連續型均勻分配來解答==
* 計算


## 3-7 指數分配(Exponential)
表示獨立隨機事件發生的<font color="#f00">時間間隔</font>
* 題目
如果排隊買電影片票,平均等候時間為4分鐘,且滿足指數分配 ,那麼排隊(1)大於3分鐘的機率是多少?(2)少於3分鐘的機率是多少?
* 公式:

# 單元4-抽樣分配與信賴區間
## 4-1 抽樣分配
### 抽樣分配(Sampling Distributions)的觀念
* 由母體中取得樣本的方法稱為<font color="#f00">抽樣</font>
* 抽取<font color="#f00">具有代表性</font>的樣本
* 找出最佳估計量來推測<font color="#f00">母體的參數</font>
* 控制估計量與母數間的<font color="#f00">誤差</font>,並以<font color="#f00">機率的觀念</font>來評估與表示推測結果的準確度
* 樣本統計量的機率分配
### 抽樣方法

### 抽樣分配的應用
1. 行政院主計總處歷年人力資源調查
如:勞動力、就業者、失業率
2. 選舉的民意調查
如:支持度、好感度、信任度、適合度
3. 抽樣檢驗
如:從一批產品中隨機抽取少量產品(樣本)檢驗,判斷該批產品是否合格
## 4-2 樣本平均數的抽樣分配
### 樣本平均數的觀念
* N=4, X=18, 20, 22, 24
* $\mu =\frac {18+20+22+24}{4}=21$
* $\sigma=\sqrt \frac {\sum(Xi-\mu)^2}{N}=2.236$
* 抽取2個(n=2)值當作一組樣本
* 總共<font color="#f00">16個</font>樣本平均數

$X_1=20,X_2=22,\bar x=21$
### $\bar X$的期望值、標準差與母體平均數、標準差的關係
$$
\mu_\bar x =\frac {18+19+19+···+24}{16}=21\\
\sigma_\bar x=\sqrt \frac {(18-21)^2+(19-21)^2+···+(24-21)^2}{16}=1.58
$$
$\mu=\mu_\bar x=21$為[不偏估計](https://murphymind.blogspot.com/2011/10/estimation.html)(Unbiased Estimator)
<font color="#f00">$\sigma_\bar x=\frac{\sigma}{\sqrt n}$</font> $\sigma=2.236 \space\space \sigma_\bar x=1.58 \space\space \frac{2.236}{\sqrt 2}=1.58$
n越大則$\sigma_\bar x$越小

### 樣本平均數抽樣分配的Z值
$$
Z=\frac {(\bar X-\mu_\bar x)}{\sigma_\bar x}=\frac {(\bar X-\mu)}{\frac {\sigma}{\sqrt n}}
$$
### 中央極限定理(Central Limit Theorem)

* 當樣本數變得夠大時($n\ge 30$)
* 不管母體的形狀,樣本平均數的抽樣分配,會變得接近[常態分配](###常態分配圖例)
### 樣本平均數的抽樣分配應用
* **題目:**
假設某大學的大學部學生每個月平均生活費為<font color="#f00">8000</font>元,標準差為
<font color="#f00">2500</font>元。如果隨機選取<font color="#f00">100</font>位學生,這些學生的每個月平均生活
費在<font color="#f00">7500</font>元到<font color="#f00">8500</font>元的機率為何?
* **計算:**
$$
\begin{align}
P(7500\lt\bar X\lt 8500 )
& =P(\frac {7500-8000}{\frac {2500}{\sqrt 100}}\lt\frac {\bar X-\mu}{\frac {\sigma}{\sqrt n}}\lt\frac {8500-8000}{\frac {2500}{\sqrt 100}})\\
& =P(-2\lt Z\lt 2)\\
& =0.9772-0.0228\\
& =0.9544
\end{align}
$$
* **查Z分配表**

* **示意圖:**

## 4-3 樣本比例的抽樣分配
### 樣本比例(Proportions)抽樣分配的計算
* **題目:**
國人平均過重與肥胖比例為<font color="#f00">0.4</font>,隨機抽樣<font color="#f00">200</font>人,過重與肥胖比例介於<font color="#f00">0.4至0.5的機率</font>? <font color="#f00">答 : 0.4981</font>
* **公式 :**
:::warning
注意 : <font color="#f00">$μ_p$=p</font>
:::

* **計算:**
令 n=200 , p=0.4 , p̂=0.5


* **查Z分配表:**

* **示意圖:**

## 4-4 平均數的信賴區間估計(母體已知)
### 點估計與區間估計(Interval Estimates)的觀念
* <font color="#f00">點估計</font>是一個單一的值。如: 7/1的溫度是30°C
* <font color="#f00">信賴區間</font>是對於估計的變動性,且提供額外資訊。如:7/1的溫度是27°C~30°C

### 信心水準(Confidence Level)的觀念
* **95% (1 - α)的信心水準**
如果我們<font color="#f00">重複抽樣很多次</font>,每次都會得到一個<font color="#f00">信賴區間</font>, 那麼這麼多的信賴區間中,約有 95%的區間會涵蓋<font color="#f00">真正的母體參數(μ或P)</font>
* **顯著水準5%(α)**
<font color="#f00">重犯下型I錯誤的機率</font>,也就是虛無假設是對的,我們卻拒絕了它。如:某甲是個成績不錯的學生,我們卻當掉他。

### 點估計與區間估計的計算
* **題目**
我們從台北7月的溫度資料中,抽出100個樣本,得到樣本平均溫度是30 ℃。我們知道過去母體溫度的標準差是5 ℃,如果我們想要找出母體真正平均溫度的95%信賴區間,請問是介於多少溫度之間?
* **公式**
$$
\bar X±{Z_{1\over 2} }=\frac {\delta}{\sqrt{n}}
$$
$$
\bar X:點估計 {Z_{1\over 2}}:臨界值
\frac {\delta}{\sqrt{n}}:標準誤
$$
* **計算**

* **圖例**

## 4-5 平均數的信賴區間估計(母體未知)
:::warning
* <font color="#f00">不適用</font>Z檢定的時機
1.==母體標準差未知==
不論樣本數量大或小,皆可用t檢定
2.==小樣本(n<30)==
必須改用t檢定以求準確
:::
### t分配的觀念
* t值比Z值大,隨著自由度增加,越來越接近Z值

### t分配的計算
* **題目**
某大學想要了解商學院大二學生的統計學成績,如果隨機抽取25名學生,得到樣本平均分數為50分,標準差為8分。如何形成真正母體平均的95%信賴區間?
* **公式**
$$
\begin{align}
\bar X±{t_{1\over 2} }=\frac {S}{\sqrt{n}}\\
&
\end{align}
$$
* **計算**

* **查t分配表**
:::warning
因n=25,又n-1=24。故查表需查df=24
:::

* **圖例**

## 4-6 比例的信賴區間估計
### 樣本比例與區間估計的觀念

### 樣本比例與區間估計的計算
* **題目:**
如果我們隨機抽出<font color="#f00">100</font>個大學畢業生,得到樣本失業率是<font color="#f00">5%</font>。請問母體真正失業率的<font color="#f00">95%</font>信賴區間,是介於多少之間?
* **公式:**
$$
\hat p\pm Z_\frac{\sigma}{2} \sqrt \frac{\hat p(1-\hat p)}{n}
$$
> $\hat p=點估計\quad Z_\frac{\sigma}{2}=臨界值\quad \sqrt \frac{\hat p(1-\hat p)}{n}=標準誤\quad Z_\frac{\sigma}{2} \sqrt \frac{\hat p(1-\hat p)}{n}=邊際誤差$
* **計算:**
1. $n=100\,,\hat p=0.05\,,1-\hat p=0.95\,,1-\alpha=0.95$
2. $0.05\pm 1.96 \sqrt \frac{0.05\times 0.95}{100}=(0.0073,0.0927)$
* **示意圖:**

### 樣本比例與區間估計的應用
* 想要了解小學生<font color="#f00">近視比例</font>
* 想要了解國人<font color="#f00">高血壓比例</font>
* 想要知道國人<font color="#f00">不吃早餐的比例</font>
* 想要知道國人<font color="#f00">過重的比例</font>
# 單元5-假設檢定
## 5-1 假設檢定概念
:::warning
* 名詞解釋
1. 假設:為有關母體參數的宣稱
2. 虛無假設:對未知母恕罪初提出的假設,常有被否定的可能,以<font color="#f00">$H_0$</font>表示
3. 對立假設:虛無假設以外的其他可能數值,以<font color="#f00">$H_1$</font>表示
:::
* 假設處理原則
1. 「=」放在<font color="#f00">$H_0$</font>
2. 將想要的結果放在<font color="#f00">$H_1$</font>
3. 將抽樣後可能存在的結果放在<font color="#f00">$H_1$</font>
* 應用:司法審判裡的無罪推論,先假設被告是無罪的。法官依據雙方所提出的證據,決定要不要否定被告是無罪的虛無假設
### h3假設檢定(Hypothesis Testing)的型式
| 檢定 | 示意圖 |
|:--------:|:------------------------------------:|
| 雙尾檢定 |  |
| 右尾檢定 |  |
| 左尾檢定 |  |
:::warning
**題目**
氣象局$宣稱$台北7月均溫為$30 ℃$,為了檢定這個說法,我們從台北7月的溫度資料中,抽出$100$個樣本,得到樣本平均溫度是$29.84 ℃$。如果已知母體溫度的$標準差是0.8 ℃$,在α=0.05的情況下,是否可以接受氣象局的宣稱?
:::
### 使用臨界值(critical value)的方法進行檢定(σ已知)
1. $n=100\,,$$\bar X=29.84$$\,,$$\sigma=0.8$$\,,\alpha=0.05$
2. $H_0$:$\mu$=30
$H_1$:$\mu$≠30
3. 帶入公式
$$
Z=\frac {\bar X-\mu}{\frac {\sigma}{\sqrt n}}=\frac {29.84-30}{\frac {0.8}{\sqrt 100}}=\frac {-0.16}{0.08}=-2.0
$$
4. 畫表比較與所求<font color="#f00">$-2.0$</font>比較

5.因為$Z$</font>=-2.0<$-Z_\frac {\alpha}{2}$=-1.96
所以$拒絕H_0$,表示不能接受氣象局的宣稱
### 使用P值(p-value)的方法進行檢定(σ已知)
> 前三項與臨界值的方法相同
4. 畫表比較與所求
5. 因為$p$值=0.0228+0.0228=0.0456<>α=0.05
所以$拒絕H_0$,表示不能接受氣象局的宣稱
## 5-2 平均數的T檢定
:::warning
**題目**
網路資料宣稱台灣男性平均身高為174.5公分,為了檢定這個說法,我們隨機抽出25個樣本,得到樣本平均高度是175.5公分。如果已知樣本的標準差是3公分,在α=0.05的情況下,是否可以接受網路資料的宣稱?
:::
### 使用臨界值的方法進行檢定(σ未知)
1. $n=25,\bar x=175.5,s=3,\alpha=0.05$
2. $H_0:\mu=174.5\\H_1:\mu\neq174.5$
3. 帶入公式
$$t^0=\frac {\bar X-\mu}{\frac {s}{\sqrt n}}=\frac {175.5-174.5}{\frac {3}{\sqrt 25}}=\frac {1}{0.6}=1.6667
$$
4. 畫表比較與所求
5. 因為$t^0=1.6667\lt t_{n-1,\frac {\sigma}{2}}=2.0639$,所以接受$H_0$ ,表示可以接受網路資料的宣稱
### 使用P值(p-value)的方法進行檢定(σ未知)
1. $n=25,\bar x=175.5,s=3,\alpha=0.05$
2. $H_0:\mu=174.5\\H_1:\mu\neq174.5$
3. 帶入公式
$$
t^0=\frac {\bar X-\mu}{\frac {s}{\sqrt n}}=\frac {175.5-174.5}{\frac {3}{\sqrt 25}}=\frac {1}{0.6}=1.6667
$$
4. $t_0=1.667$,查t分配表,找到自由度24那一列,發現$\frac {p}{2}$值落在0.10(1.3178)到0.05(1.7109)之間,因此p值將落在0.20到0.10之間
5. 因為p值>$\alpha=0.05$,所以接受$H_0$,表示可以接受網路資料的宣稱
### 使用信賴區間的方法進行檢定(σ未知)
1. $n=25,\bar x=175.5,s=3,\alpha=0.05$
2. $H_0:\mu=174.5\\H_1:\mu\neq174.5$
3. $175.5-2.0639\frac {3}{\sqrt {25}}\sim 175.5+2.0639\frac {3}{\sqrt {25}}\to 174.26\le \mu\le176.74$
4. 因為信賴區間包含174.5,所以接受$H_0$,表示可以接受網路資料的宣稱
## 5-3 單尾檢定
:::warning
**題目**
網路資料$宣稱$大學女生平均體重$高於52公斤$,為了檢定這個說法,我們隨機抽出$25個樣本$,得到樣本平均體重是$53公斤$如果已知樣本的$標準差是3公斤$,在α=0.05的情況下,是否可以接受網路資料的宣稱?
:::
### 使用臨界值的方法進行檢定(σ未知)
1. $n=25\,,$$\bar X=53$$\,,$$\sigma=0.8$$\,,\alpha=0.05$
2. $H_0:\mu\le 52\\H_1:\mu \gt52$
3. $$t=\frac {\bar X-\mu}{\frac {\sigma}{\sqrt n}}=\frac {53-52}{\frac {3}{\sqrt 25}}=\frac {1}{0.6}=1.6667$$
4. 畫表比較與所求

5. 因為<font color="#f00">$t$</font>=1.6667<<font color="#f00">$t_{24, 0.05}$</font>=1.7109,所以接受$H_0$,表示可以接受網路資料的宣稱
### 使用P值(p-value)的方法進行檢定(σ未知)
> 前三項與臨界值的方法相同
4. t=1.6667,<font color="#f00">$查t分配表,找到自由度$</font>
* 24那一列,發現p值落在0.10(1.3178)到
0.05(1.7109)之間
5. 因為<font color="#f00">$p值> α$</font>=0.05,所以接受$H_0$,表示可以接受網路資料的宣稱
## 5-4 比例的Z檢定
:::warning
**題目**
網路資料宣稱國內成人過重及肥胖盛行率為50% ,為了檢定這個
說法,我們隨機抽出100個樣本,得到樣本過重比例是55%。在α=0.05的情況下,是否可以接受網路資料的宣稱?
:::
### 使用臨界值(critical value)的方法進行檢定
1. $n=100,\hat p=0.55,\alpha=0.05,\\np=100\times0.05=50\ge5,\\n(1-p)=100\times0.05=50\ge5$
2. $H_0:P=0.5\\H_1:P\neq0.5$
3. 帶入公式
$$Z^0=\frac {\hat p-P}{\sqrt {\frac {P(1-P)}{n}}}=\frac {0.55-0.5}{\sqrt {\frac {0.5(1-0.05)}{100}}}=1
$$
4. 畫圖與所求比較

5. 因為$Z^0=1\leZ_{0.025}=1.96$,所以接受$H_0$,表示可以接受網路資料的宣稱
### 使用P值(p-value)的方法進行檢定
1. $n=100,\hat p=0.55,\alpha=0.05,\\np=100\times0.05=50\ge5,\\n(1-p)=100\times0.05=50\ge5$
2. $H_0:P=0.5\\H_1:P\neq0.5$
3. $Z^0=\frac {\hat p-P}{\sqrt {\frac {P(1-P)}{n}}}=\frac {0.55-0.5}{\sqrt {\frac {0.5(1-0.05)}{100}}}=1$
4. 畫表與所求比較

5. 因為p值=0.1587+0.1587=0.3174>$\alpha$=0.05,所以接受$H_0$,表示可以接受網路資料的宣稱
## 5-5 二個獨立母體的平均數比較
### 獨立樣本假設檢定的觀念介紹
:::warning
**「男生的抽象思維能力整體上優於女生」、「女生整體能力發揮穩定於男生」到底誰說的對?**
:::
$$
t^0=\frac {(\bar X_1-\bar X_2)-(\mu_1-\mu_2)}{ {\sqrt{\sigma_p^2(\frac {1}{n_1}+\frac {1}{n_2})}}}
$$
* 虛無假設:$\mu_1-\mu_2$=0
> 虛無假設先假設兩組成績無差異
| σ1and σ2 未知,但假設相等| 使用Sp來估計未知的σ | 合併變異數t檢定(Pooled Variance) |
| -------- | -------- | -------- |
| σ1and σ2 未知,但假設不相等 | 使用S1和S2來估計未知的σ1 和 σ2 | 個別變異數t檢定(Separate Variance) |
:::warning
**題目**
想要回答高中男女生的學習成績,到底誰比較好這個問題,我們找
了一個班級,其中有21個男生,平均成績是65分,標準差5分;有25個女生,平均成績70分,標準差10分。假設兩個母體接近常態,且變異數相等,在α=0.05的情況下,是否可以接受男女生學習成績相等的假說?
:::
### 獨立樣本(變異數相等)的假設檢定
1. $n_1=21\,,$$\bar X=65$$\,,$$\sigma=5$$\,,\alpha=0.05$
$n_2=25\,,$$\bar X=70$$\,,$$\sigma=10$
2. $H_0$:$\mu_1-\mu_2$=0
$H_1$:$\mu_1-\mu_2$≠0
3. 帶入公式
$$
t^0=\frac {(\bar X_1-\bar X_2)-(\mu_1-\mu_2)}{ {\sqrt{\sigma_p^2(\frac {1}{n_1}+\frac {1}{n_2})}}}\\t^0=\frac {(65-70)-(0)}{ {\sqrt{65.9091(\frac {1}{21}+\frac {1}{25})}}}=-2.0806
$$
4. 畫圖與所求比較

5. 因為$t_0$</font>=-2.0806$t_0$<$-t_44, 0.025$</font> = -2.0154
所以拒絕$H_0$,表示拒絕接受男女生學習成績相等的假說
故女生學習成績較好
### 使用信賴區間的方法進行檢定
> 前2步驟與獨立樣本(變異數相等)的假設檢定相同
3. 帶入公式
$$
(\bar X_1-\bar X)±t_{\frac {\alpha}{2}}\sqrt{\sigma_p^2(\frac {1}{n_1}+\frac {1}{n_2})}=-5±2.0154×2.0431=(-9.8432,-0.1568)
$$
4. 因為信賴區間不包含0,所以拒絕$H_0$,表示拒絕接受男女生學習成績相等的假說;女生學習成績較好。
### 兩個母體平均,獨立樣本(變異數不相等)的假設檢定
> 前2步驟與獨立樣本(變異數相等)的假設檢定相同
3. 假設
$$
t^0=\frac {(\bar X_1-\bar X_2)-(\mu_1-\mu_2)}{ {\sqrt{\sigma_p^2(\frac {1}{n_1}+\frac {1}{n_2})}}}\\=\frac {(65-70)-(0)}{ {\sqrt{(\frac {5^2}{21}+\frac {10^2}{25})}}}=-2.1946
\\v=\frac {(\frac {{\sigma_1^2}}{n_1}+\frac {\sigma_2^2}{n_2})^2}{{{(\frac {(\frac {\sigma_1^2}{n_1})^2}{n_1-1}+\frac {(\frac {\sigma_2^2}{n_2})^2}{n_2-1})}}}\\=\frac {(\frac {{5^2}}{21}+\frac {10^2}{25})^2}{{{(\frac {(\frac {5^2}{21})^2}{20}+\frac {(\frac {10^2}{25})^2}{24})}}}\\=36.5256
$$
:::success
取自由度**36**
:::
4. 
5. 因為$t_0$=-2.1946<-t36, 0.025 = -2.0281
所以拒絕$H_0$, 表示拒絕接受男女生學習成績
相等的假說
故女生學習成績較好
## 5-6 二個相關母體的平均數比較
### 成對樣本假設檢定的觀念介紹
公式:
$$
H_0:\mu_D=0\quad H_1:\mu_D\neq0\\t_0=\frac {\bar D-\mu_D}{\frac {S_D}{\sqrt n}}
$$
1. 成對養本之間的差異
$$
D_i=X_{1i}-X_2i
$$
2. 所有樣本差異的平均值
$$
\bar D=\sum_{i=1}^n D_i
$$
3. 所有樣本差異的標準差
$$
S_D=\sqrt {\frac {\sum_{i=1}^n(D_i-\bar D)^2}{n-1}}
$$
:::warning
**題目**
想要知道瘦身成效到底好不好,我們找了5個人,分別記錄其(瘦身前、瘦身後)的體重,得到資料如下:A(78, 76), B(90,76), C(51, 50),D(60,60),E(68, 65),在α=0.05的情況下,是否可以接受瘦身前後體重不相等的假說?
:::
### 成對樣本假設檢定的計算
1. $n=5,\bar D=\frac{(-2-14-1-0-3)}{5}=-4,S_D=5.70,\alpha=0.05$
2. $H_0:\mu_D=0\\H_1:\mu_D\neq 0$
3. 帶入公式
$$
t_0=\frac {\bar D-\mu_p}{\frac {S_D}{\sqrt n}}=\frac {-4-0}{\frac {5.70}{\sqrt 5}}=-1.57
$$
4. 畫圖與所求比較

5. 因為$t_0=-1.57\lt-t_{4, 0.025}=-2.7764$,所以接受$H_0$,表示接受瘦身前後體重相等的假說;瘦身成效不明顯。
### 使用信賴區間的方法進行檢定
1. $n=5,\bar D=\frac{(-2-14-1-0-3)}{5}=-4,S_D=5.70,\alpha=0.05$
2. $H_0:\mu_D=0\\H_1:\mu_D\neq 0$
3. 帶入公式
$$\bar D\pm t_{\frac {\alpha}{2}}\frac {S_D}{\sqrt n}=-4\pm 2.7764\frac {5.70}{\sqrt 5}=(-11.0773,3.0773)
$$
4. 因為信賴區間包含0,所以接受H0,表示接受瘦身前後體重相等的假說;瘦身成效不明顯。
## 5-7 二個變異數檢定的F比較
### 兩個變異數比率的F檢定的計算
```
* 回答高中男女生的學習成績,誰的變異程度較大這個問題
```
:::warning
**題目**
一個班級,其中有$21$個男生,平均成績是$65$分,標準差$5$分;有<$25$個女生,平均成績$70$分,標準差10分。假設兩個母體接近常態,在α=0.05的情況下,是否可以接受男女生學習成績變異程度相等$</font>的假說?
:::
1. $n_1=21\,,$$\bar X=65$$\,,$$\sigma=5$$\,,\alpha=0.05$
$n_2=25\,,$$\bar X=70$$\,,$$\sigma=10$
2. $H_0$:$\sigma_1^{2}$=$\sigma_2^{2}$
$H_1$:$\sigma_1^{2}$=$\sigma_2^{2}$
3. $F^{0}$=$\frac {\sigma_1^{2}}{\sigma_2^{2}}$=$\frac {130^{2}}{116^{2}}$=1256
4. 畫圖與所求比較

5. 因為$F_0$</font>=1.256<$F_0.025$</font> = 2.33,所以$接受H0$, 表示可以接受男女生學習成績變異程度相等的假說
### 查表應用

# 單元6-變異數分析
## 6-1 單因子變異數分析
### 單因子變異數分析(One-Way ANOVA )的觀念
> 將觀測值以<font color="#f00">一個標準為分類</font>基礎

1. 先假設樣本無差別:$H_0$:μ1 = μ2 = μ3 = … = μk
對立假設:H1:不是所有的μj 是相等的
2. 基本假設

### 單因子變異數分析表(One-Way ANOVA Table)


#### 單因子變異數分析應用
:::warning
為了解答不同家便利商店,服務品質是一樣的嗎?我們找了3家便利商店,每家抽出5位顧客,根據其服務品質評分(1表示很差,2表示差,3表示普通,4表示好,5表示很好)。在α=0.05的情況下,是否可以接受3家便利商店服務品質相等的假說?
:::
| A店 | B店 | C店 |
| --- | ---- | ---- |
| 5 | 3 |5 |
| 4 | 2 | 5 |
| 3 | 4 | 5 |
| 4 | 3 | 5 |
| 4 | 3| 5 |

* 計算
1.假設
H0:μ1 = μ2 = μ3
H1: μ1, μ2, μ3不完全相等
2.帶入公式
$F^{0}$$=\frac {MSC}{MSE}$=$\frac {5}{0.3333}$=15.0015
3.因為$F_0$=15.0015>F 0.05;2,12 = 3.89
所以拒絕H0,表示不能接受不同家便利商店,服務品質是一樣的假說。
## 6-2 雙因子變異數分析
### 二因子未重複實驗的觀念
> 1. 將觀測值以<font color="#f00">兩個分類標準分類</font>基礎(在對應分類交叉項只做1次實驗),本法與一因子集區設計做法相同,只是將集區視為一個影響因子
> 2. 本法與二因子未重複實驗的差異,在於每一個處理因子
的交集項內,對每個樣本(Xij)<font color="#f00">做2次以上</font>的實驗,因其主要是探討二個處理因子間是否具有<font color="#f00">交互作用</font>
> 
### 二因子重複實驗變異數分析表(ANOVA Table)


# 單元7-卡方檢定
## 7-1 兩個比例差的卡方檢定
### 卡方(Chi-Square, $x^2$)適合度檢定的觀念
* 檢定母體的分配是否適合某種理論分配
* 檢定<font color="#f00">實驗次數分配</font>與假設的<font color="#f00">理論分配</font>是否能夠相吻合
### 卡方($x^2$)適合度檢定的應用
我們想要知道民眾在喜歡寵物的態度上是否有差別?
因此我們抽樣了100位有養寵物的民眾,得到以下資料。

:::warning
每個格子至少要<font color="#f00">大於5</font>
:::
$H_0$: 母體為均勻分配
$H_1$: 母體不為均勻分配
$$
\begin{align}
X_i^k & =\sum \frac {(o_i-e_i)^2}{e_i}\\
& =\frac {(45-50)^2}{50}+\frac {(55-50)^2}{50}\\
& =1
\end{align}
$$
### 卡方($x^2$)適合度檢定計算

因為$X_0^2=1\lt X_{0.05,1}^2=3.841$
因此接受$H_0$,表示民眾在喜歡寵物的態度上並<font color="#f00">無差別</font>
:::success
[自由度](###離散趨勢的測量):K-1-m=2-1-0=1(2-1)=2
m:用估計量來取代未知母數的個數
:::
## 7-2 卡方獨立性檢定
### 卡方(Chi-Square,$x^2$)獨立性檢定的觀念
* 檢驗兩個分類標準是否獨立
* 常編成聯立表(Contingency Table)來陳述,又稱聯立表檢

### 卡方($x^2$)獨立性檢定的應用
我們想要知道男性與女性在喜歡寵物的態度上是否有差別?
因此我們抽樣了100人,得到以下資料。

紅色數值為<font color="#f00">期望值</font>(計算方式:$15.75=\frac {男性總數\times 喜歡養狗總數}{人數總數}=\frac {35\times 45}{100}$)
$H_0$: 性別與喜歡寵物的類別**獨立**(無關)
$H_1$: 性別與喜歡寵物的類別**不獨立**(有關)
$$
\begin{align}
X_0^2 & =\sum \frac {(o_i-c_i)^2}{c_i}\\
& =\frac {(20-15.75)^2}{15.75}+\frac {(15-20.25)^2}{20.25}+\frac {(10-11.25)^2}{11.25}+\frac {(15-19.25)^2}{19.25}+\frac {(25-22)^2}{22}+\frac {(15-13.75)^2}{13.75}\\
& =4.1078
\end{align}
$$
### 卡方($x^2$)獨立性檢定的計算

因為$X_0^2=4.1078\lt X_{0.05,2}^2=5.991$
因此接受$H_0$,表示民眾在喜歡寵物的態度上並<font color="#f00">無差別</font>
:::success
[自由度](###離散趨勢的測量):(c-1)(r-1)=(3-1)(2-1)=2
:::