統計實驗筆記 === # 變數 $\hat p$ 樣本比例 $\mu$ = 母體平均數 = 中央趨勢量數 $\sigma$ = 母體變異術 = 分散趨勢量數 $p$ = 母體比例 --- 1. nominal scale: 名目尺度/類別尺度 * 姓名、身高... 3. ordinal scale: 順序尺度/等級尺度 * 名次: 1、2、3 5. interval scale: 等距尺度/比例尺度 * 溫度: 10 -> 20 -> 30... https://www.myclass-lin.org/wordpress/archives/615 --- 1. Qualitative Data: 非數值資料(定性資料) 2. Quantitative Data: 數值資料 * 離散隨機變數 * 連續隨機變數 --- ## Random Variable 隨機變數 給定樣本空間$(S,{\mathbb {F}})$,如果其上的實值函數 $X:S \to {\mathbb {R}}$ 是 $\mathbb{F}$ (實值)可測函數,則稱$X$為(實值)隨機變數。 A random variable is a **measurable function** ${\displaystyle X\colon \Omega \to E}$ from a set of possible outcomes $\Omega$ to a measurable space $E$. ## 變異數 * 代數性質 $(\sigma)^2={1 \over N}{\Sigma}_1^N(X_i-\mu)^2$ 移項,拆開後得到 ${\Sigma}X_i^2=N{\sigma}^2+N\mu$ 亦可表達為「$\sigma^2=$ 平方的期望值-期望值的平方」 $(\sigma)^2={{\Sigma}X_i^2 \cdot f(x)}-\mu^2$ 樣本變異數,亦若是 ${\Sigma}x_i^2=(n-1)s^2+n \cdot \bar x$ * 平移不變性 * 變異數的平移不變性,平移變異數不變 * 自己推,很簡單 * 平方擴充性 * 變異數的平方擴充性 * 原來:$X_1,X_2,X_3...X_N$ * 令$Y_i=aX_i$ * 則${\mu}Y=a{\mu}_X$ * $Y$標準差公式,以$aX_i$代換,提出a * 得知${\sigma}_Y=a{\sigma}_X$,所以${\sigma}_Y^2=a^2*{\sigma}_X^2$ ## 共變異數 ${{\sigma}_{x,y}}^2={Cov}(X,Y)$ $=\Sigma_y\Sigma_x(x-\mu_x)(y-\mu_y)f(x,y)$ $={E}((X-{\mu}_X)(Y-{\mu}_Y))$  定義式 $={E}(XY-{\mu}_X \cdot Y-{\mu}_y \cdot X+{\mu_X}{\mu}_Y)$ $=E(XY)-\mu_X \cdot E(Y) - \mu_Y \cdot E(X)+E(\mu_X \mu_Y)$ $=E(XY)-\mu_X \mu_Y$ $=E(XY)-E(X)E(Y)$  計算式 **待自己證** $Var(aX+bY)=a^2Var(X)+b^2Var(Y)+2ab \cdot Cov(X,Y)$ * 性質: * ${Cov}(X,a)=0$, $a \in Constant$ * ${Cov}(X,Y)={Cov}(Y,X)$ * ${Cov}(X,X)=Var(X)={\sigma}^2_X$ * ${Cov}(X+d,Y+c)={Cov}(X,Y)$ * ${Cov}(aX,bY)=a \cdot b\cdot {Cov}(X,Y)$ * Eg: ${Cov}(-2X-5,3Y-7)=-2*3*{Cov}(X,Y)=-6{Cov}(X,Y)$ ## 相關係數 https://zh.wikipedia.org/wiki/%E7%9A%AE%E5%B0%94%E9%80%8A%E7%A7%AF%E7%9F%A9%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0 Correlation Coefficient $\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y}$ 完全正相關 $\rho_{X,Y}=1$ 正相關:共變異數>0 負相關參考資料:[菲利浦曲線](https://wiki.mbalib.com/zh-tw/%E8%8F%B2%E5%88%A9%E6%B5%A6%E6%96%AF%E6%9B%B2%E7%BA%BF) 母體相關係數$\rho_{X,Y}=Corr(X,Y)$ 母體標準差$\sigma_{X,Y}=Cov(X,Y)$ 樣本共變異數$\hat{S_{x,y}}={1 \over {n-1}}\Sigma_1^n(x_i-\bar x)(y_i-\bar y)$ 樣本相關係數$\hat{r_{x,y}}$ 我們希望能夠從 樣本推母體 $S_{xy}={{\Sigma_1^nx_iy_i}- n\bar x\bar y}$ $S_{xx}={{\Sigma_1^nx_i^2}- n(\bar x)^2}$ 即 $\Sigma(x_i- \bar x)^2$ $S_{yy}={\Sigma_1^ny_i^2}- n(\bar y)^2$ 即 $\Sigma(y_i- \bar y)^2$ $\hat{r_{x,y}}={\hat{S_{xy}} \over {\hat S_{xx} \hat S_{yy}}}$ ![參考](https://i.imgur.com/DQDxbLN.jpg) </br> 樣本標準差$s_x={{S_{xx}} \over {n-1}}$ ## Chebyshev's Theorem https://zh.wikipedia.org/wiki/%E5%88%87%E6%AF%94%E9%9B%AA%E5%A4%AB%E4%B8%8D%E7%AD%89%E5%BC%8F $P( \left\|{x- \mu} \right\| \lt z \sigma) \gt 1 - {1 \over z^2}$ ### Proof By Markov Theorem We have $P(X \ge a) \le {E(X) \over a}$, Take $X = |x-\mu|$ $\Rightarrow P(|x-\mu| \ge a) \le {E(|x-\mu|) \over a}$ $\Rightarrow P(|x-\mu| \ge a)^2 \le {E((x-\mu)^2) \over a^2}$ $\Rightarrow P(|x-\mu| \ge a)^2 \le {Var(x) \over a^2}$ $\Rightarrow P(|x-\mu| \ge a) \le {\sigma \over a}$ $\Rightarrow P( |x- \mu| \ge a \sigma) \le {1 \over a^2}$ That is Chebyshev's Theorem! ## 機率複習 eg: ||台大|中山|政大|(人數)| |---|---|---|---|---| |男|30|66|234|330| |女|18|42|210|270| ||48|108|444|600| 列聯表 ||台大|中山|政大|機率| |---|---|---|---|---| |男|0.05|0.11|0.39|0.55| |女|0.03|0.07|0.35|0.45| |機率|0.08|0.18|0.74|1| 邊際機率:在有兩個以上的事件的樣本空間中,若僅考慮某一事件個別發生的機率,稱為邊際機率。 也就是最右邊的 column 及 最下面的 row 獨立事件:自己看 $P(A|M)$:念作 probility of $A$ condition $M$ ::: info 算機率在離散型要注意等號 ::: axiom: * $\int_x P(x)=1$ * $0\le P(x) \le 1$, $\forall A \subset \Omega$ * $P(\Omega)=1$ * 設$A_{1},A_{2}..為樣本空間\Omega中之一組事件,A_{i}\land A_{j} \not = 0,\forall_{i\not = j},則P(\cup_{i=1}^{\infty})=\sum_{i=1}^{\infty}P(A_{i})。$ 貝氏定理: 設$A_1,A_2...A_n為\Omega中之一組分割,B為\Omega上之任意分割事件,則P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_{i=1}^{n}P(B|A_i)P(A_i)}$ ## 期望值 Except $E(X)=\mu$ $Var(X)=\sigma^2 = E[(x-\mu)^2]$ ## 分佈 r.v. $X,  X \sim B(n,p)$ ~ : belongs to(服從) $f_{\otimes}(x)=\{^{C^{n}_{x}P^x(1-P)^{n-x}, \forall x \in \mathbb{N} \cup \{0\}}_{0\quad\quad,其他(otherwise)}$ P:成功的機率 二項式分配:當 n = 1 時是 bernoulli ## 機率函數 設x為離散型r.v.,則$f_x(x)=\{^{P(X=x),x\in R_x}_{0, x \not \in R_x}\quad$ R:range * $R_x=\{x|x\in X(\omega),\forall \omega\in \Omega\}$ * $X:\Omega\to\mathbb{R}$ $f_{xy}(x,y)=\{^{P(X=x,Y=y),(x,y)\in R_{xy}}_{0\quad\quad,(x,y)\not\in R_{xy}}$ 老師喜歡這樣表達:當你寫P(),你要在 () 中描述完整事件,所以要寫得像:P(Z<z)或f(x)... * class P(Event); * class f(var); $f(z) \ne P(Z<z)$ $f(z)$ 是單點機率密度 $P(Z<z)$ 是事件機率 # Distribution :::danger 只有 Possion, normal 分布有封閉性 ::: ## Discreate ### Bernoulli distribution $$P(x) = p^xq^{1-x}$$ $$ 1. 進行一次成敗實驗,定義 x 表成功的次數 2. $R_x = \{0,1\}$ 3. 母數:$0 \le P \le 1$ 4. $X \sim Ber(p)$ ### Binomial distribution :::info iid: 獨立且同樣集合,Independent and identically distributed ::: :::success **Definition** 在n個獨立的是/非試驗中成功的次數的離散機率分布,其中每次試驗的成功機率為p。其分佈即為二項分佈。 ::: $$P(x) = {n\choose m} p^x q^{n-x}$$ $$ 1. Testing Bernoulli for n times 2. $Rx = \{x \in \mathbb{N}, x \lt n \}$ 3. Bernomial Sigma additivity (可加性) * $x, y \sim^{iid} B(P)$ 4. 二項式分布式離散型的常態分佈 5. $E(x) = np$ 6. $Var(x) = npq$ ### Poisson distribution 有封閉性 $$P(x) ={e^{- \lambda } \lambda^x \over x!}$$ :::success **Definition** A discrete random variable X is said to have a Poisson distribution with parameter λ > 0, if, for x = 0, 1, 2, ..., the probability density function of X is given by: $$P(x) ={e^{- \lambda } \lambda^x \over x!}$$ $$ ::: 1. 在單位時間內,線段平面空間上連續操作,Poisson 過程 * Poisson must homogeneous and indepedent 2. $R = \{\mathbb{N}+0\}$ 3. $\lambda$ 為發生偶發事件的期望次數 4. $\lambda = E(X) = Var(X)$ ### Hyper Geometric :::success **Definition** 1. The result of each draw (the elements of the population being sampled) can be classified into one of two mutually exclusive categories. 2. The probability of a success changes on each draw, as each draw decreases the population. ::: $${k \choose x}{N-k \choose n-x} \over {N \choose n}$$ $$ 1. $E(x)=n{k \over N}$ 2. 取後不放回抽 n 個,成功 k 次 3. $Var(x)=n({k \over N})(1-{k \over N})({N-n \over N-1})$ 4. 修正因子:$(1-{N-n \over N-1})$ 因為因為他是 finite 所以前一次會影響下一次,(會縮小),這稱作有限母體的修正因子。 5. $R_x = \{0、1、2 ... n\}$ --- ## Continuous ### Normal 有封閉性 $$f(x) = {1 \over \sqrt{2 \pi} \sigma} e^{{-1 \over 2}({x- \mu \over \sigma})^2}$$ $$ ::: success **Definition** 將一連續變項之觀察值發生機率以圖呈現其分布情形,且具有以下特性: 以平均數為中線,構成左右對稱之單峰、鐘型曲線分布。 觀察值之範圍為負無限大至正無限大之間。 ::: 1. $X \sim N(\mu, \sigma^2)$ 2. 積起來很不好積,所以查表 * 因為每個常態分佈的 $\sigma, \mu$ 不同,查表怎麼查? * 規定一個標準常態分布:$Z \sim N(0,1)$ * Standard Normal Probability Distribution * $f(x) = {1 \over \sqrt{2 \pi}} e^{{-1 \over 2}x^2}$ 3. Computing Probabilities for Any Normal Probability Distribution * 標準化 * $X \sim X(\mu, \sigma^2),  Let  {x-\mu \over \sigma} \sim N(0,1)$ 4. 常態分配做線性變換,依舊是常態分配 * 注意平方->平移,變異數->|a|倍 * $E(\bar x) = \mu$ * $Var(\bar x) = {\sigma^2 \over n}$ 5. 反標準化 * $Z \sim N(0,1)$ * Let $X = \sigma Z + \mu$ ### Normal Approximation of Binomial Probabilities * 葉氏連續性校正(Yates continuity correction) 用邊界 +- 0.5 去包住離散值 ## Exponential probability distribution $$f(x) = {1 \over \mu} e^{-x \over \mu}$$ $$ https://zh.wikipedia.org/zh-tw/%E6%8C%87%E6%95%B0%E5%88%86%E5%B8%83 :::success 令 τ 為 隨機變數 且其 機率密度(probability density) 滿足 $f_τ(t):=λ e^{−λt}, if\ t \ge 0;$ $f_τ(t):=0, if\ t \lt 0$ 其中 λ>0 為常數。則我們說 τ 為 exponential distribution 或者說 τ 為 Exponential 隨機變數 ::: $E(x) = {\int}^{\infty}_0 x{1 \over \mu} e^{-x \over \mu} dx =\sigma$ $Var(x) = \mu^2$ By part 公式:$P(x>x_0)=e^{-x_0 \over \mu}$ proof: 若某計次過程服從 poisson process $\iff$ 間格時間必服從指數分布 指數分布的 $\mu$ 跟 poisson 的 $\mu$ 互為倒數 注意單位,使用標準單位不容易錯 ::: info eg: Poisson: ${e^{- \lambda } \lambda^x \over x!}$ $\iff$ Expnential: ${\lambda} e^{-y \lambda}$ ::: # Sampling and Sampling Distributions ## definition 樣本統計量的分配,稱為抽樣分配 ## smapling * 有限母體 * hypergeomttric, sampling w/o replacement, dependent * 取後不放回 * 無限母體 * Binomonal, sampling w/ replacement, independent ## Statistical Inference 統計推測 * Estimatoin 估測 * Testing 檢定 我們主要想要估測三件事 平均數、標準差、百分比 我們說這是統計參數 eg: $X_1, X_2 ... X_n$ $\bar{x} = {1 \over n} \Sigma X$ $Var(\bar x) = Var( {1 \over n} \Sigma X) = {\sigma^2 \over n}$ ## 點估計 重點: ==$\bar x$ 好用== $x_1, x_2 ...X_n \sim^{iid} f_{x_i}(x_i, \theta)$ 用 $\hat \theta$ 去推論母體參數 $\theta$ 估計值跟估計量是不同的,估計量有無限多個 有 hat 是估計量 ### 不偏性 $Bias({\bar \theta}) = E({\bar \theta}) - \theta = 0$ * 高估估計量 $Bias(\theta)>0 \iff E(\theta)>0$ * 不偏估計量 $Bias(\theta)=0 \iff E(\theta)=0$ * 低估估計量 $Bias(\theta)<0 \iff E(\theta)<0$ 證明 $s^2-\sigma^2 =0$ $E(s^2) = E({1 \over (n-1)} \Sigma(x^2_i) - n{\bar x}^2)$ $= {1 \over (n-1)} (\Sigma(E(x^2_i))-nE({\bar x}^2))$ $= {1 \over (n-1)} (\Sigma(Var(x)+E^2(x))-nE({\bar x}^2))$ $= {1 \over (n-1)} (\Sigma(\sigma^2+\mu^2)-nE({\bar x}^2))$ $= {1 \over (n-1)} (\Sigma(\sigma^2+\mu^2)-n({\sigma^2 \over n}+\mu^2))$ $= {1 \over (n-1)} (n\sigma^2+n\mu^2-\sigma^2-n\mu^2)$ $= {1 \over (n-1)} (n\sigma^2-\sigma^2)$ $=\sigma^2$ 倒著寫即可。 ### 有效性 (efficiency) 有效性是以估計式的平均平方誤差來衡量, 越小代表估計式的有效性越高。 ==sum of least squares== [Wiki](https://en.wikipedia.org/wiki/Least_squares) ### 一致性 (consistency) 當樣本數增大時, 估計值會漸近於母體參數真值。 A **consistent estimator** is one for which, when the estimate is considered as a random variable indexed by the number n of items in the data set, **as n increases** the estimates **converge** in probability to the value that the estimator is designed to estimate. ## 區間估計 信賴區間(英語:Confidence interval,C.I) $[L,U]$ 估計 $\theta$,在 $(1-\alpha)100\%$ 信心水準 信心水準 $(1-\alpha)100\%$ 越大表示:越大的信心區間 [L, U] 會包含真實的母體 $\theta$ ==$(1-\alpha)$是中間面積== $1-\alpha = P(L \lt \theta \lt U)$ ### 樞紐量 Pivotal Quantity 樞紐量有 1. 隨機變數 2. 未知代估母數 https://en.wikipedia.org/wiki/Pivotal_quantity >[name=wiki]A pivotal quantity or pivot is a function of observations and unobservable parameters such that the function's probability distribution does not depend on the unknown parameters. :::success 通常是點估計量的 t 或 z 分配 ::: $x_1, x_2 ...x_n$ 與 $\theta$ 之函數組合 記為 $Q({\hat \theta_i}; \theta)$,且其機率分配不依賴於任何未知母數 (即,可完全被掌握) $g(\hat \theta ,\theta) = \sqrt{n}\frac{\hat \theta - \theta}{s}$ #### 求 $\theta$ 之 $(1-\alpha)100$ 信賴區間 1. 找出適當估計量 2. 找出適當的樞紐量及其機率分配 * 點估計量的分配 3. $1-\alpha = P(L \lt \theta \lt U)$ * $1-\alpha = P({\hat \theta}-k{\sqrt n \over s} \lt g(\hat \theta ,\theta) \lt {\hat \theta}+k{\sqrt n \over s})$ * k 要查表 * Margin error: $E = {\sigma \over \sqrt n}{z_{\alpha \over 2}}$ 為什麼 t 分配的自由度是 n-1? > 因為t分配中的未知待估母數只有一個($\mu$) > 因此未必自由度是 n-1 > $\sigma$ 已知樞紐量是 z 查 t 表,如果自由度很大的時候,可以近似去查 z 表 ### 變異數的區間估計 http://mail.tku.edu.tw/yinghaur/lee/stat-new/%E7%AC%AC%E5%8D%81%E7%AB%A0%E8%A3%9C%E5%85%85--%E7%B5%B1%E8%A8%88%E4%BC%B0%E8%A8%88(%E6%AF%8D%E9%AB%94%E8%AE%8A%E7%95%B0%E6%95%B8%E4%B9%8B%E5%8D%80%E9%96%93%E4%BC%B0%E8%A8%88).pdf #### 信賴區間的意義 試驗 k 次,平均有 $1-\alpha$ 次,未知待估母數會落在該區間。 * 寫法: * $0.95 = P({\bar x}-{\sigma \over \sqrt n}z_{\alpha \over 2} \le \mu \le {\bar x}+{\sigma \over \sqrt n}z_{\alpha \over 2})$ ### 樣本比例的信賴區間 #### 單一母體樣本比例的區間估計 $X_1, X_2, ... X_n \sim^{iid} Ber(p)$ 1. 點估計: $\hat p \Rightarrow p$ 2. $\hat p \Rightarrow^a_{CLT} N(p, \sigma_{\hat p})$ * $z = {{\hat p - p} \over \sqrt{\hat p (1- \hat p) \over n}}$ * a 是漸近 * 根據中央極限定理漸近常態 3. $1-\alpha = P(|\hat p - p| \lt z_{\alpha \over 2}SE(\hat p))$ * SE = standard error margin error = $z_{\alpha \over 2}\sqrt{\hat p(1- \hat p) \over n}$ ## 假說檢定 * 讓樣本據說話 * 檢定力(power),檢定力的大小,就是檢定的有效程度大小: * eg: * 左圖 power 大,右圖 power 小 * ![img](https://i.imgur.com/UVX5oJE.jpg) ||有罪推論|無罪推論| |----|---|---| |H0|有罪|無罪| |Ha|無罪(需負舉證責任)|有罪| ||H0|!H0| |----|---|---| |reject|$\alpha$ type one error|1-$\beta$| |Do not reject|1-$\alpha$|$\beta$ type two error| 如果題目沒說 $\alpha$ 沒說,一般來說設 0.05 ### p-value **樣本觀察值的尾機率** A p-value is a probability that provides a measure of the evidence againest the null hypothesis provided by the sample. Smaller p-value indicate more evidence againest $H_0$. >[name=魏丞偉]把檢定統計量的絕對值拿掉,假設是檢定統計量是x,|x| > a => x > a or x < -a,之後再查表找大於a,小於-a的尾巴機率,加起來就會是p-value。 ### 假說檢定之三面等價法 1. 臨界值法 * Test statistic 2. p-value 法 * 樣本觀察值得尾機率 * 如果雙尾檢定。算兩邊機率 3. 區間估計法 * 從 $\bar x$ 出發,算信賴區間 > 結論必一致 > ## 母體變異數未知 自己算樣本變異數,所以使用 t 分配 * 假設母體常態 1. 假設 H0 2. $\alpha$ 3. test statistic * $T = {{\bar x - \mu_0} \over {s \over {\sqrt{n}}}} \sim t(n-1)$ ## Definition of Student-T distribution $T_\nu = {Z \over \sqrt{\chi^2 \over \nu}} \sim T$ $Z$ is a standard normal distribution $\nu$ is the degree of freedom $\chi^2$ is a Chi-square distribution ## 所需樣本數 單尾檢定 $\mu_0-{\sigma \over \sqrt{n}}\mathcal{z}_\alpha = \mu_a+{\sigma \over \sqrt{n}}\mathcal{z}_\beta$ > 左尾右尾可交換,所就用左尾檢定表示,算法相同。 > 因此,$n={\sigma^2(\mathcal{z}_\alpha+\mathcal{z}_\beta)^2 \over (\mu_0 - \mu_a)^2}$ 注意這邊 $\alpha$ 值有可能因為雙尾檢定而除以 2 想像:用 $\alpha$ 算閾值的砍點跟用 $\beta$ 算肯定會一樣,而**根據這砍點,定義我的 $\alpha$ 要多少** # 兩獨立母體之檢定 ## Case I: 母體常態,$\sigma_1^2 , \sigma_2^2$ 皆已知 :::info Recall: $\bar x_1 - \bar x_2 \to \mu_1 - \mu_2$ $a\bar x_1 - b\bar x_2 \sim N(a\mu_1 - b\mu_2, {(a\sigma_1)^2\over n_1} + {(b\sigma_2)^2\over n_2})$ 同樣的 $Var(aX+bY)=a^2Var(X)+b^2Var(Y)+2ab \cdot Cov(X,Y)$ ::: 然後依樣畫葫蘆,放變數進去 $\sigma = \sqrt{{(a\sigma_1)^2\over n_1} + {(b\sigma_2)^2\over n_2}}$ 我個人稱作 coSigma ### 技巧 在假說檢定上,需要有一個 const 放在右邊(待改進說法),所以會盡量把變數放在左邊,做假說檢定。 :::success $H_0: \mu_0 > \mu_1$ $\to \mu_0 - \mu_1 > 0$ ::: ### 檢定力: $power = 1- \beta$ ## Case II: 母體常態,變異數皆未知 **==使用T分配==** ### 變異數相等(同質) 同質(Homogeneous)變異數假設:$\sigma_1 = \sigma_2$ $S_p^2 = \sigma^2 = {{(n_1 - 1)S_1^2+(n_2 - 1)S_2^2} \over {n_1 + n_2 - 2}}$ 如此帶入 檢定統計數 $TS = {{(\bar x_1 - \bar x_2)-(\mu_1 - \mu_2)} \over \sqrt{S^2_p({1 \over n_1}+{1 \over n_2})}}$ 自由度:$n_1 + n_2 - 2$ ### 變異數相異 檢定統計數 $TS = {{(\bar x_1 - \bar x_2)-(\mu_1 - \mu_2)} \over \sqrt{{{s_1^2}\over n_1}+{{s_2^2}\over n_2}}}$ 自由度為(取高斯整數): $df = {({{s_1^2 \over n_1}+{s_2^2 \over n_2}})^2 \over \sqrt{{1 \over n_1-1}{s_1^2 \over n_1}+{1 \over n_2-1}{s_2^2 \over n_2}}}$ # 兩相關常態母體之檢定 (成對樣本)相依母體 **Sample matched, pair!** eg: 實驗組、對照組 $Sample \ size: n$ $d_k = {x_1}_k - {x_2}_k$ ${\Sigma d_k \over n}= \bar D$ $S_D^2 = \Sigma(d_i- \bar D)^2$ $H_0: \mu_D = C$ ### 服從 T 分配 $T = {{\bar D - \mu_D} \over {S_D \over \sqrt{n}}} \sim T(n-1)$ # 兩獨立母體比例之檢定 $\bar p_1 - \bar p_2 \sim N(p_1-p_2, {p_1q_1 \over n_1}+{p_2q_2 \over n_2})$ 因為沒有 $p_1 \ p_2$ 所以變異數使用 ${\bar p_1}$ & ${\bar p_2}$ 代替 $if \ \ \ \ H_0:(p_1 = p_2 = p)$ > $p = {{n_1 \bar p_1 + n_2 \bar p_2} \over {n_1 + n_2}}$ > > $\sigma = \sqrt{pq({1 \over n_1}+{1 \over n_1})}$ > # 母體變異數之檢定 Chi-Square symbol: ${\chi}^2$ 推導: $s^2 = {1 \over n-1}\Sigma(x_i- \bar x)^2$ $\Rightarrow (n-1) s^2 = \Sigma(x_i- \bar x)^2$ $\Rightarrow {(n-1) s^2 \over \sigma^2} = {\Sigma(x_i- \bar x)^2 \over \sigma^2} = (Z^2_1+Z^2_2+Z^2_3+ ... +Z^2_n)\sim {\chi}^2_{(n-1)}$ :::warning Chi-square doesn't closed!! $c \cdot {\chi}^2 \notin {\chi}^2, \forall c \in R$ --- $E(\chi^2) = df$ 卡方變數之期望值=自由度 $Var(\chi^2) = 2df$ 卡方變數之變異數=兩倍自由度 ::: 檢定統計數: $TS = {(n-1)s^2 \over \sigma^2_0} \sim {\chi}^2_{(n-1)}$ because $\chi^2_{1-{\alpha \over 2}} \le TS \le \chi^2_{\alpha \over 2}$ $\Rightarrow {(n-1)s^2 \over \chi^2_{\alpha \over 2}} \le \sigma^2 \le {(n-1)s^2 \over \chi^2_{1-{\alpha \over 2}}}$ 移項而已 Then we can say $\sigma$ has {$1-\alpha$}% confidence in this intervel! ## 兩獨立母體變異數檢定 ==**F-distribation**== :::danger 必要條件: 1. independent 2. two Normal populations 3. equal variances ::: ### F distribution $X \sim F({df}_1, {df}_2)$ ${df}_1 = n_1 - 1$ ${df}_2 = n_2 - 1$ 一個F-分布的隨機變數是兩個卡方分布變數除以自由度的比率: ${U_1/d_1 \over U_2/d_2} = {U_1/U_2 \over d_1/d_2}$ 其中,$U_1 \sim \chi^2_1, U_2 \sim \chi^2_2$彼此獨立,自由度為 $d_1, d_2$ 檢定統計數: $TS = {s^2_1 \over s^2_2}$ 標準差較大的放上面 可以保證出來的檢定統計數,是在右尾 # 比較多母體比率 ## 多母體比率相等之檢定 卡方分配(chi-square distridution) 檢定統計數: $\chi^2 = \Sigma_i\Sigma_j{(f_{ij}-e_{ij})^2 \over e_{ij}} \sim \chi^2_{(r-1)(c-1)}$ $f_{ij}$ = reality value $e_{ij}$ = expected value, $H_0$, ==$\forall e_{ij} \ge 5$== $r$ = number of rows $c$ = number of columns #### Reject rule 1. p-value approach: Reject $H_0$ if p-value $\le \alpha$ 2. Critical value: Reject $H_0$ if $\chi^2 \ge \chi^2_\alpha$ ### Critical values for the marascuilo pairwise comparison procedure for k population proportions $CV_{ij} = \sqrt{\chi^2_{\alpha}}\sqrt{{\bar p_i \bar q_i \over n_i}+{\bar p_j \bar q_j \over n_j}}$ where $\chi^2_\alpha$ with a level of significance $\alpha$ and $k \ – 1$ degrees of freedom $\bar p_i$ and $\bar p_j$ are the proportions for the populations $i$, $j$ $n_i$ and $n_j$ are the sample size of populations $i$, $j$ :::info Reject or significant if: $|{\bar p_i - \bar p_j}| \gt CV_{ij}$ ::: ### Test of independence use preverious formula to judge whether the $\chi^2$ is siginificance. $H_0$: Assumes that there is no association between the two variables. $H_a$: Assumes that there is an **association** between the two variables. ### Goodness of Fit test 適合度 檢定統計數: $\chi^2_{(k-1)} = \Sigma^k_{i=1}{(f_i - e_i)^2 \over e_i}$ $f_i$ is the reality value $e_i$ is the expected value, $\forall e_i \ge 5$ $k$ is the number of categories ### Test for is Normal distribution? Use **Goodness of fit test** to test whether it is normal distribution. :::success $n$ divided by 5 in to ${\lfloor}{n \over 5}{\rfloor}$ slice. ::: each slice is the $e_i$ ![Imgur](https://imgur.com/C4xPn9v.png) And test it's $\chi^2_{({\lfloor}{n \over 5}{\rfloor} -3)}$ :::info Why -3? --- beacuse the degree of freedom is $k - p -1$ $p$ is the **number of parameters** of the **distribution** estimated by the sample. And the **Normal** distribution has 2 parameters. Hence $k-p-1 = k-3$ :::