---
tags: 應用統計
---
# 應用統計 R 101-5
## 統計推論
1.**Parametric method**(母數檢定方法):
假設資料中存在++潛在的統計分佈++. 因此,必須滿足某些條件才能使檢定方法的結果可靠.
*使用母數檢定方法代替 無母數檢定的優點是前者比後者俱有更大的**統計力 (power)**.
2.**Nonparametric method:**(無母數檢定):
++不依賴++於任何分佈假設. 因此, 即使資料不滿足某些分布的假設條件, 也可以應用它們
*無母數檢定比母數檢定方法更**穩健 (robust)**.
## Nonparametric method:
### Bootstrap (拔靴法、自助法、自舉法):
在沒有任何其他有關分佈的信息的情況下,
觀察到的樣本將提供有關基礎分佈的所有可用信息.
因此, 對樣本進行**重複抽樣**是從分佈中抽樣所能期望的最佳方式.
### 作法
$$
樣本當成拔靴母體 \to 重複抽樣\to保留每次想要的統計量
$$
### Permutation Test (排列(檢定)法):
1.排列檢定法利用樣本資料的隨機排列, 進行統計推論的方法.
2.適用於母體分佈未知的小樣本資料.
### 作法
$$
問題:兩組資料是否有差異\to若兩組相等隨機移動值將不會對第一組有影響\to 隨機組合後求總和
$$
## Parametric method
### 抽樣分布(Sampling Distribution):
來自許多隨機樣本的樣本統計量(s)的分布.
1.知道用什麼**樣本統計量**來對**母體參數**做估計.
2.樣本統計量的抽樣分配是? 樣本統計量集中在哪裡? 樣本統計量的變異有多大?
已知$X_i∼N(μ,σ^2)$中樣本平均數 $\overline X$ 的機率分配
$$
\overline X∼N(μ,\dfrac{σ^2}{n})
$$
*$iid是指一組隨機變數中每個變數的機率分布都相同,且這些隨機變數互相獨立$
但當母體不是常態 **利用++中央極限定理++**
$$
X_i∼(μ,σ^2)\to \overline X\approx N(μ,\dfrac{σ^2}{n})\ or \ Z=\dfrac{\overline X-μ}{σ/\sqrt{n}}\approx N(0,1),n\to \infty(當n夠大不一定要到無限大)\\
$$

### 信賴區間
$\bar X$ 的機率區間: 注意 $\bar X$ 的角色是隨機變數, μ 是參數.
$$
P(-Z_{1-\alpha/2}\leq \dfrac{\bar X-μ}{σ/\sqrt{n}}\leq Z_{1-\alpha/2})=1-\alpha
\\-Z_{1-\alpha/2}(\dfrac{σ}{\sqrt{n}})\leq \bar X-μ\leq Z_{1-\alpha/2}(\dfrac{σ}{\sqrt{n}})
\\\bar X-Z_{1-\alpha/2}(\dfrac{σ}{\sqrt{n}})\leq μ\leq \bar X+Z_{1-\alpha/2}(\dfrac{σ}{\sqrt{n}})
\\母體平均數 μ 的 (1−α)100\% 信賴區間
\\ \left[\bar X-Z_{1-\alpha/2}(\dfrac{σ}{\sqrt{n}}),\bar X
+Z_{1-\alpha/2}(\dfrac{σ}{\sqrt{n}})\right]
\\代表 以\bar X 做為 μ 的點估計時, 我們有 100( 1 - α )\% 信心, 估計誤差不會超過 Z_{\alpha/2}*\dfrac{σ}{\sqrt{n}}
$$

#### 例子:
*$Z_{0.995}=2.575$ $Z_{0.975}=1.96$
1.發現從河流中 36 個不同位置進行的測量樣本中回收的平均鋅濃度為 2.6 克/毫升. 找出河流中平均鋅濃度的 95% 和 99% 信賴區間. 假設母體標準差為 0.3 克/毫升.


2.收集了 500 名德州高中生的隨機樣本的學術能力傾向測試 (SAT) 數學成績, 發現樣本均值和標準差分別為 501 和 112. 計算德州高中生平均 SAT 數學分數的 99% 信賴區間.

3.七個類似容器內含硫酸的容量分別為 9.8、10.2、10.4、9.8、10.0、10.2和9.6升. 假設母體為常態分佈, 計算此類容器平均含量的 95% 信賴區間.

4.乘坐穿梭巴士在一所大學的兩個校區之間旅行平均需要 28 分鐘, 標準差為 5 分鐘. 在給定的一周內, 一輛公共汽車運送乘客 40 次. 平均運輸時間超過 30 分鐘的概率是多少? 假設平均時間精確到最接近的分鐘. (0.0008)

5.某個製程是為汽車生產圓柱形零部件. 重要的是該過程生產的零件的平均直徑為 5.0 毫米. 工程師推測總體平均值為 5.0 毫米. 為驗證該推測進行了一項實驗, 其中隨機選擇該工藝生產的 100 個零件, 並對每個零件進行直徑測量. 若已知 σ = 0.1 毫米. 實驗結果樣本平均直徑為 $\bar X$ = 5.027 毫米. 這個樣本資訊是支持還是反駁了工程師的猜想? 換言之, 如果 μ=5.0 毫米, 在 n=100 時, 獲得 |$\bar X$−5|≥0.027 的可能性有多大?


#### 母體比例 $p$ 的 $(1−α)100\%$ 信賴區間
同理, 當 $X_i\stackrel{iid}∼Ber(p), i=1,…,n.$, 且大樣本. $\hat p=\bar X$, 依中央極限定理,
$$
\bar X=\dfrac{\sum_i^n{X_i}}{n}\approx N(p,\dfrac{p(1-p)}{n})
$$
模仿上面推導, **母體比例 $p$ 的 $(1−α)100\%$ 信賴區間如下式.**
$$
\left[\hat p-Z_{1-\alpha/2}\sqrt{\dfrac{p(1-p)}{n}},\hat p
+Z_{1-\alpha/2}\sqrt{\dfrac{p(1-p)}{n}}\right]\ \ \ \ (和p有關?)
\\代表 以\hat p 做為 p 的點估計時, 我們有 100( 1 - α )\% 信心, 估計誤差不會超過 \\Z_{\alpha/2}\sqrt{\dfrac{p(1-p)}{n}}\leq Z_{\alpha/2}\sqrt{\dfrac{1}{4n}}
\\ \because let\ f(p)=p(1-p)
\\ \dfrac{\rm df}{\rm dp}=1-2p=0 \implies p=\dfrac{1}{2}
\\ f(p)最大值為\dfrac{1}{4},當p=\dfrac{1}{2}
$$
#### 例子
如果希望在市場調查時, 對母體比例 p 的估計值與真實值的誤差在 0.02 範圍內有 95% 的信心水準, 我們需要多大的樣本 , n 是多少?

### 其他常見統計量的抽樣分配(抽樣分配不對稱):

#### 母體變異數 $σ^2$ 的 (1−α)100\%信賴區間
模仿上面推導, **母體變異數 $σ^2$ 的 $(1−α)100\%$ 信賴區間**
$$
當 X_i\stackrel{iid}∼N(μ,σ^2), i=1,…,n.
\\\dfrac{(n-1)S^2}{σ^2}∼\chi^2_{n-1}
\\其中 S^2=\sum^n_{i=1}\dfrac{(X_i-\overline X)^2}{n-1}
\\故母體變異數 σ^2 的 (1−α)100\% 信賴區間如下式
\\\chi^2_{1-\alpha/2}\leq{\dfrac{(n-1)S^2}{σ^2}}\leq \chi^2_{\alpha/2}
\\\dfrac{1}{\chi^2_{1-\alpha/2}}\leq{\dfrac{σ^2}{(n-1)S^2}}\leq \dfrac{1}{\chi^2_{\alpha/2}}
\\\chi^2_{1-\alpha/2}\leq{\dfrac{(n-1)S^2}{σ^2}}\leq \chi^2_{\alpha/2}
\\*\dfrac{(n-1)S^2}{\chi^2_{1-\alpha/2}}\leqσ^2\leq \dfrac{(n-1)S^2}{\chi^2_{\alpha/2}}
$$
#### 例子
假設某公司經銷品牌袋裝零食. 今抽樣10包秤重, 單位為10克:46.4、46.1、45.8、47.0、46.1、45.9、45.8、46.9、45.2、46.0. 假設零食重量呈現常態分佈, 計算此品牌袋裝零食的變異數 95% 信賴區間. (0.135 < $σ^2$< 0.953.)

#### 母體變異數 $σ_1^2/σ_2^2$ 的 (1−α)100\%信賴區間
模仿上面推導, **母體變異數 $σ_1^2/σ_2^2$ 的 $(1−α)100\%$ 信賴區間**
$$
X_i\stackrel{iid}∼N(μ_1,σ_1^2), i=1,…,n \implies \dfrac{(n-1)S_1^2}{σ_1^2}∼\chi^2_{n-1}
\\Y_i\stackrel{iid}∼N(μ_2,σ_2^2), i=1,…,m \implies \dfrac{(n-1)S_2^2}{σ_2^2}∼\chi^2_{m-1}
\\F*=\dfrac{\chi^2_{n-1}/(n-1)}{\chi^2_{m-1}/(m-1)}=\dfrac{\dfrac{(n-1)S_1^2/(n-1)}{σ_1^2}}{\dfrac{(m-1)S_1^2/(m-1)}{σ_1^2}}=\dfrac{σ_2^2}{σ_1^2}*\dfrac{S_1^2}{S_2^2}∼F(n-1,m-1)
\\故母體變異數 σ_1^2/σ_2^2 的 (1−α)100\% 信賴區間如下式
\\F_{(1-\alpha/2,n-1,m-1)}\leq\dfrac{σ_2^2}{σ_1^2}\dfrac{S_1^2}{S_2^2}\leq F_{(\alpha/2,n-1,m-1)}
\\\dfrac{1}{F_{(1-\alpha/2,n-1,m-1)}}\leq\dfrac{σ_1^2}{σ_2^2}\dfrac{S_2^2}{S_1^2}\leq \dfrac{1}{F_{(\alpha/2,n-1,m-1)}}(取倒數)
\\**\dfrac{1}{F_{(1-\alpha/2,n-1,m-1)}}\dfrac{S_1^2}{S_2^2}\leq\dfrac{σ_1^2}{σ_2^2}\leq \dfrac{1}{F_{(\alpha/2,n-1,m-1)}}\dfrac{S_1^2}{S_2^2}
$$
#### 例子
從兩個常態母體中, 中隨機抽取兩個大小分別為 16 和 10 的樣本. 如果發現它們的變異數分別為 24 和 18, 計算變異數比的 (a) 98%、(b) 90% 信賴區間.

