應用統計 R 101-5

--- tags: 應用統計 --- # 應用統計 R 101-5 ## 統計推論 1.**Parametric method**(母數檢定方法): 假設資料中存在++潛在的統計分佈++. 因此，必須滿足某些條件才能使檢定方法的結果可靠. *使用母數檢定方法代替無母數檢定的優點是前者比後者俱有更大的**統計力 (power)**. 2.**Nonparametric method:**(無母數檢定): ++不依賴++於任何分佈假設. 因此, 即使資料不滿足某些分布的假設條件, 也可以應用它們 *無母數檢定比母數檢定方法更**穩健 (robust)**. ## Nonparametric method: ### Bootstrap (拔靴法、自助法、自舉法): 在沒有任何其他有關分佈的信息的情況下, 觀察到的樣本將提供有關基礎分佈的所有可用信息. 因此, 對樣本進行**重複抽樣**是從分佈中抽樣所能期望的最佳方式. ### 作法 $$ 樣本當成拔靴母體 \to 重複抽樣\to保留每次想要的統計量 $$ ### Permutation Test (排列(檢定)法): 1.排列檢定法利用樣本資料的隨機排列, 進行統計推論的方法. 2.適用於母體分佈未知的小樣本資料. ### 作法 $$ 問題:兩組資料是否有差異\to若兩組相等隨機移動值將不會對第一組有影響\to 隨機組合後求總和 $$ ## Parametric method ### 抽樣分布(Sampling Distribution): 來自許多隨機樣本的樣本統計量(s)的分布. 1.知道用什麼**樣本統計量**來對**母體參數**做估計. 2.樣本統計量的抽樣分配是? 樣本統計量集中在哪裡? 樣本統計量的變異有多大? 已知$X_i∼N(μ,σ^2)$中樣本平均數 $\overline X$ 的機率分配 $$ \overline X∼N(μ,\dfrac{σ^2}{n}) $$ *$iid是指一組隨機變數中每個變數的機率分布都相同，且這些隨機變數互相獨立$ 但當母體不是常態 **利用++中央極限定理++** $$ X_i∼(μ,σ^2)\to \overline X\approx N(μ,\dfrac{σ^2}{n})\ or \ Z=\dfrac{\overline X-μ}{σ/\sqrt{n}}\approx N(0,1),n\to \infty(當n夠大不一定要到無限大)\\ $$ ![](https://i.imgur.com/Oqb9qc2.png) ### 信賴區間 $\bar X$ 的機率區間: 注意 $\bar X$ 的角色是隨機變數, μ 是參數. $$ P(-Z_{1-\alpha/2}\leq \dfrac{\bar X-μ}{σ/\sqrt{n}}\leq Z_{1-\alpha/2})=1-\alpha \\-Z_{1-\alpha/2}(\dfrac{σ}{\sqrt{n}})\leq \bar X-μ\leq Z_{1-\alpha/2}(\dfrac{σ}{\sqrt{n}}) \\\bar X-Z_{1-\alpha/2}(\dfrac{σ}{\sqrt{n}})\leq μ\leq \bar X+Z_{1-\alpha/2}(\dfrac{σ}{\sqrt{n}}) \\母體平均數 μ 的 (1−α)100\% 信賴區間 \\ \left[\bar X-Z_{1-\alpha/2}(\dfrac{σ}{\sqrt{n}}),\bar X +Z_{1-\alpha/2}(\dfrac{σ}{\sqrt{n}})\right] \\代表以\bar X 做為 μ 的點估計時, 我們有 100( 1 - α )\% 信心, 估計誤差不會超過 Z_{\alpha/2}*\dfrac{σ}{\sqrt{n}} $$ ![](https://i.imgur.com/QoSKtqp.png) #### 例子: *$Z_{0.995}=2.575$ $Z_{0.975}=1.96$ 1.發現從河流中 36 個不同位置進行的測量樣本中回收的平均鋅濃度為 2.6 克/毫升. 找出河流中平均鋅濃度的 95% 和 99% 信賴區間. 假設母體標準差為 0.3 克/毫升. ![](https://i.imgur.com/otGxj9s.png) ![](https://i.imgur.com/QDQzmwX.png) 2.收集了 500 名德州高中生的隨機樣本的學術能力傾向測試 (SAT) 數學成績, 發現樣本均值和標準差分別為 501 和 112. 計算德州高中生平均 SAT 數學分數的 99% 信賴區間. ![](https://i.imgur.com/jJyqXmf.png) 3.七個類似容器內含硫酸的容量分別為 9.8、10.2、10.4、9.8、10.0、10.2和9.6升. 假設母體為常態分佈, 計算此類容器平均含量的 95% 信賴區間. ![](https://i.imgur.com/K3mr0JS.png) 4.乘坐穿梭巴士在一所大學的兩個校區之間旅行平均需要 28 分鐘, 標準差為 5 分鐘. 在給定的一周內, 一輛公共汽車運送乘客 40 次. 平均運輸時間超過 30 分鐘的概率是多少? 假設平均時間精確到最接近的分鐘. (0.0008) ![](https://i.imgur.com/0Rof3GU.png) 5.某個製程是為汽車生產圓柱形零部件. 重要的是該過程生產的零件的平均直徑為 5.0 毫米. 工程師推測總體平均值為 5.0 毫米. 為驗證該推測進行了一項實驗, 其中隨機選擇該工藝生產的 100 個零件, 並對每個零件進行直徑測量. 若已知 σ = 0.1 毫米. 實驗結果樣本平均直徑為 $\bar X$ = 5.027 毫米. 這個樣本資訊是支持還是反駁了工程師的猜想? 換言之, 如果 μ=5.0 毫米, 在 n=100 時, 獲得 |$\bar X$−5|≥0.027 的可能性有多大? ![](https://i.imgur.com/tvk2noa.png) ![](https://i.imgur.com/x9RtvGe.png) #### 母體比例 $p$ 的 $(1−α)100\%$ 信賴區間同理, 當 $X_i\stackrel{iid}∼Ber(p), i=1,…,n.$, 且大樣本. $\hat p=\bar X$, 依中央極限定理, $$ \bar X=\dfrac{\sum_i^n{X_i}}{n}\approx N(p,\dfrac{p(1-p)}{n}) $$ 模仿上面推導, **母體比例 $p$ 的 $(1−α)100\%$ 信賴區間如下式.** $$ \left[\hat p-Z_{1-\alpha/2}\sqrt{\dfrac{p(1-p)}{n}},\hat p +Z_{1-\alpha/2}\sqrt{\dfrac{p(1-p)}{n}}\right]\ \ \ \ (和p有關?) \\代表以\hat p 做為 p 的點估計時, 我們有 100( 1 - α )\% 信心, 估計誤差不會超過 \\Z_{\alpha/2}\sqrt{\dfrac{p(1-p)}{n}}\leq Z_{\alpha/2}\sqrt{\dfrac{1}{4n}} \\ \because let\ f(p)=p(1-p) \\ \dfrac{\rm df}{\rm dp}=1-2p=0 \implies p=\dfrac{1}{2} \\ f(p)最大值為\dfrac{1}{4},當p=\dfrac{1}{2} $$ #### 例子如果希望在市場調查時, 對母體比例 p 的估計值與真實值的誤差在 0.02 範圍內有 95% 的信心水準, 我們需要多大的樣本 , n 是多少? ![](https://i.imgur.com/CQ5Ga2g.png) ### 其他常見統計量的抽樣分配(抽樣分配不對稱): ![](https://i.imgur.com/FO8BNV1.png) #### 母體變異數 $σ^2$ 的 (1−α)100\%信賴區間模仿上面推導, **母體變異數 $σ^2$ 的 $(1−α)100\%$ 信賴區間** $$ 當 X_i\stackrel{iid}∼N(μ,σ^2), i=1,…,n. \\\dfrac{(n-1)S^2}{σ^2}∼\chi^2_{n-1} \\其中 S^2=\sum^n_{i=1}\dfrac{(X_i-\overline X)^2}{n-1} \\故母體變異數 σ^2 的 (1−α)100\% 信賴區間如下式 \\\chi^2_{1-\alpha/2}\leq{\dfrac{(n-1)S^2}{σ^2}}\leq \chi^2_{\alpha/2} \\\dfrac{1}{\chi^2_{1-\alpha/2}}\leq{\dfrac{σ^2}{(n-1)S^2}}\leq \dfrac{1}{\chi^2_{\alpha/2}} \\\chi^2_{1-\alpha/2}\leq{\dfrac{(n-1)S^2}{σ^2}}\leq \chi^2_{\alpha/2} \\*\dfrac{(n-1)S^2}{\chi^2_{1-\alpha/2}}\leqσ^2\leq \dfrac{(n-1)S^2}{\chi^2_{\alpha/2}} $$ #### 例子假設某公司經銷品牌袋裝零食. 今抽樣10包秤重, 單位為10克：46.4、46.1、45.8、47.0、46.1、45.9、45.8、46.9、45.2、46.0. 假設零食重量呈現常態分佈, 計算此品牌袋裝零食的變異數 95% 信賴區間. (0.135 < $σ^2$< 0.953.) ![](https://i.imgur.com/UYYft8z.png) #### 母體變異數 $σ_1^2/σ_2^2$ 的 (1−α)100\%信賴區間模仿上面推導, **母體變異數 $σ_1^2/σ_2^2$ 的 $(1−α)100\%$ 信賴區間** $$ X_i\stackrel{iid}∼N(μ_1,σ_1^2), i=1,…,n \implies \dfrac{(n-1)S_1^2}{σ_1^2}∼\chi^2_{n-1} \\Y_i\stackrel{iid}∼N(μ_2,σ_2^2), i=1,…,m \implies \dfrac{(n-1)S_2^2}{σ_2^2}∼\chi^2_{m-1} \\F*=\dfrac{\chi^2_{n-1}/(n-1)}{\chi^2_{m-1}/(m-1)}=\dfrac{\dfrac{(n-1)S_1^2/(n-1)}{σ_1^2}}{\dfrac{(m-1)S_1^2/(m-1)}{σ_1^2}}=\dfrac{σ_2^2}{σ_1^2}*\dfrac{S_1^2}{S_2^2}∼F(n-1,m-1) \\故母體變異數 σ_1^2/σ_2^2 的 (1−α)100\% 信賴區間如下式 \\F_{(1-\alpha/2,n-1,m-1)}\leq\dfrac{σ_2^2}{σ_1^2}\dfrac{S_1^2}{S_2^2}\leq F_{(\alpha/2,n-1,m-1)} \\\dfrac{1}{F_{(1-\alpha/2,n-1,m-1)}}\leq\dfrac{σ_1^2}{σ_2^2}\dfrac{S_2^2}{S_1^2}\leq \dfrac{1}{F_{(\alpha/2,n-1,m-1)}}(取倒數) \\**\dfrac{1}{F_{(1-\alpha/2,n-1,m-1)}}\dfrac{S_1^2}{S_2^2}\leq\dfrac{σ_1^2}{σ_2^2}\leq \dfrac{1}{F_{(\alpha/2,n-1,m-1)}}\dfrac{S_1^2}{S_2^2} $$ #### 例子從兩個常態母體中, 中隨機抽取兩個大小分別為 16 和 10 的樣本. 如果發現它們的變異數分別為 24 和 18, 計算變異數比的 (a) 98%、(b) 90% 信賴區間. ![](https://i.imgur.com/GV5K43p.png) ![](https://i.imgur.com/5rfqf2i.png)