# Excel使用 ## 分析工具箱 按一下 [檔案] 索引標籤,然後按一下 [選項],再按一下 [增益集] 類別。 選取 [管理] 方塊中的 [Excel 增益集],然後按一下 [執行]。 在 [增益集] 方塊中,選取 [分析工具箱] 核取方塊,然後按一下 [確定]。 然後在資料那裏就會出現這個 ![image](https://hackmd.io/_uploads/SJUhKppER.png) ## 查表 - 常態分配 ```excel =NORM.DIST(x, 0, 1, TRUE) #帶表從負無限大開始算的常態分配 ``` - 假設檢定 ```excel #以下公式都以右尾表示,與課本一樣 =FINV(1-alpha, n1, n2) #F分配(預設左尾) =T.INV(1-alpha,n) #T分配(預設左尾) =NORM.INV(1-alpha,0,1)#常態分配(預設左尾) =CHISQ.INV.RT(alpha, n)#卡方分配(預設右尾) ``` # 第六章 常態分配 喔經驗法則是68%, 95%, 99.7% ## 標準常態分配曲線 $\Phi(z)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2}$,說不定有人要硬幹需要 ## 給機率值的查表 課本上的都是右尾,所以和excel的會差一個負號,以下是常見的: $z_{0.01}=2.33$ $z_{0.025}=1.96$ $z_{0.05}=1.645$ $z_{0.1}=1.28$ ## 常態分配逼近二項分配 二項分配看成相同且獨立的隨機變數和,即$X=\sum X_i,\ X_i\sim B(1,p)$ 那在$n$很大的時候,$X\approx N(np,np(1-p))$ # 第七章 抽樣分配 ## 中央極限定理 $\bar{X}\sim N(\mu,\frac{\sigma^2}{n})$ $\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0, 1)$ ## 卡方分配 $\frac{(n-1)S^2}{\sigma^2}\sim \mathcal{X}_{n-1}^2$ ## t分配 $\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t_{n-1}$ ## F分配 $\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F_{n_1-1,n_2-1}$ # 第八章 假設檢定與信賴區間 ## 大致來說 $H_0:假設正確的部分$ $H_1:不正確的情況$ 大概就是在 $H_0$ 正確的情況下,如果發生這種情況(我們提出的證據)的機率 $<\alpha$ 的話,就說 $H_0$ 顯著,也就是他顯著錯誤,$\alpha$ 被稱作顯著水準。 - **棄卻域** 就是 $H_0$ 顯著的範圍 - **信賴區間** $\mu$ 要在哪個區間內,$x$才不會掉在他的棄卻域裡面 - **$P$ 值** 先決定好統計量後,顯著水準要多少才會顯著 ## 檢定種類 - **雙尾檢定** 譬如說店家說飲料有 $\mu$ 毫升,我們要檢定他是不是平均 $\mu$ 毫升 - **單尾檢定** 譬如說店家說飲料有 $\mu$ 毫升,我們要檢定他是不是有大於等於 $\mu$ 毫升,或者是我們檢定他是不是有小於等於 $\mu$ 毫升(就是只有一邊的) 通常來說,如果顯著水準是 $\alpha$ ,那麼單尾就是用 $\alpha$ 來檢驗,雙尾就是用 $\alpha / 2$ 來檢。 ## 母體平均數檢定 ### 母體標準差$\sigma$已知 使用常態分布 $N(\mu,\sigma^2/n)$ | 型式 |統計量| 棄卻域 | | -------- |-| -------- | | 雙尾 |$z=\frac{x-\mu}{\sigma/\sqrt{n}}$|$\|z\|>\|z_{\alpha/2}\|$| | 左尾 |同上| $z<-z_{\alpha}$ | | 右尾 |同上| $z>z_{\alpha}$ | ### 母體標準差未知,樣本標準差為$s$ 使用自由度為 $n - 1$ 的 $t$ 分配 | 型式 |統計量| 棄卻域 | | -------- |-| -------- | | 雙尾 |$t=\frac{x-\mu}{s/\sqrt{n}}$|$\|t\|>\|t_{n-1,\alpha/2}\|$| | 左尾 |同上| $t<-t_{n-1,\alpha}$ | | 右尾 |同上| $t>t_{n-1,\alpha}$ | ## 母體平均數$\mu$的信賴區間 ### $\mu$的$1-\alpha$信賴區間 - $(\overline x-e, \overline x+e)$ - 其中$e=Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}$ ### $\sigma$未知,$\mu$的$1-\alpha$信賴區間 - $(\overline x-e, \overline x+e)$ - 其中$e=t_{n-1,\alpha/2} \times \frac{s}{\sqrt{n}}$ ## 母體變異數 $\sigma^2$ 的 $1-\alpha$ 信賴區間 - Recall $\frac{(n-1)S^2}{\sigma^2}\sim \mathcal{X}_{n-1}^2$ 我們可以找到 $a, b$ 使得 $P(a<\frac{(n-1)s^2}{\sigma^2}<b)=1- \alpha$ 然後就能得到$\frac{(n-1)s^2}{b}<\sigma^2<\frac{(n-1)s^2}{a}$,盡量要讓這個區間小,而等尾法是近似解,取 $a=\mathcal{X}_{n-1,1-\alpha/2}^2, b=\mathcal{X}_{n-1,\ \alpha/2}^2$ 信賴區間為$(\frac{(n-1)s^2}{\mathcal{X}_{n-1,\ \alpha/2}^2}, \frac{(n-1)s^2}{\mathcal{X}_{n-1,1-\alpha/2}^2})$ # 第九章 兩組樣本之檢定 ## 變異數比值 $F=\frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_2^2}$ 檢查 $F_{1-\alpha/2,n_1-1,n_2-1}<F<F_{\alpha/2,n_1-1,n_2-1}$ ## 兩組獨立樣本檢定($\sigma$已知) ### 信賴區間($\mu_1-\mu_2的1-\alpha信賴區間$) $$ (\overline{x_1}-\overline{x_2}-e, \overline{x_1}-\overline{x_2}+e) ,e=Z_{\alpha/2}\cdot\sqrt{\frac{\alpha_1^2}{n_1}+\frac{\alpha_2^2}{n_2}} $$ ### 檢定問題 $$ z=\frac{\overline{x_1}-\overline{x_2}}{\sqrt{\frac{\alpha_1^2}{n_1}+\frac{\alpha_2^2}{n_2}}} $$ - 把這個z帶入母體標準差$\sigma$已知的平均檢定 ## 兩組獨立樣本檢定($\sigma_1$, $\sigma_2$未知、有同質性) ### 綜合樣本變異數 $$ s^2_p=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2} $$ ### 信賴區間 $$ (\overline{x_1}-\overline{x_2}-e, \overline{x_1}-\overline{x_2}+e) ,e=t_{n_1+n_2-2,\alpha/2}\cdot s_p\sqrt{1/n_1+1/n_2} $$ ### 檢定問題 | 型式 |統計量| 棄卻域 | | -------- |-| -------- | | 雙尾 |$t=\frac{\overline{x_1}-\overline{x_2}}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$| $\|t\| >t_{n_1+n_2-2,\alpha/2}$ | | 左尾 |同上| $t < -t_{n_1+n_2-2,\alpha}$ | | 右尾 |同上| $t >t_{n_1+n_2-2,\alpha}$ | ## 兩組獨立樣本檢定($\sigma_1$, $\sigma_2$未知、有異質性) ### 自由度 $$ k=\frac{(\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2})^2}{\frac{(\frac{S_1^2}{n_1})^2}{n_1-1}+\frac{(\frac{S_2^2}{n_2})^2}{n_2-1}} $$ $\qquad\qquad\qquad\qquad\qquad\qquad\qquad$也可以取$k=Min(n_1-1, n_2-1)$ ### 信賴區間 $$ (\overline{x_1}-\overline{x_2}-e, \overline{x_1}-\overline{x_2}+e) ,e=t_{k,\alpha/2}\cdot \sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}} $$ ### 檢定問題 | 型式 |統計量| 棄卻域 | | -------- |-| -------- | | 雙尾 |$t=\frac{\overline{x_1}-\overline{x_2}}{\sqrt{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}}$| $\|t\| >t_{k,\alpha/2}$ | | 左尾 |同上| $t < -t_{k,\alpha}$ | | 右尾 |同上| $t >t_{k,\alpha}$ | ## 兩組獨立樣本變異數檢定 ### 檢定問題 $H_0:\sigma_1^2=\sigma_2^2$ | 型式 |統計量| 棄卻域 | | -------- |-| -------- | | 雙尾 |$F=\frac{s_1^2}{s_2^2}$|$F>F_{n_1-1,n_2-1,\alpha/2}$ 或 $F<F_{n_1-1,n_2-1,1-\alpha/2}$| | 左尾 |同上| $F<F_{n_1-1,n_2-1,\alpha}$ | | 右尾 |同上| $F>F_{n_1-1,n_2-1,\alpha}$ | ## 兩組成對樣本t檢定 ### $\overline{x_1}-\overline{x_2}$的變異數 $$ Var(\overline{x_1}-\overline{x_2})=\sigma^2_{\overline{x_1}}+\sigma^2_{\overline{x_2}}-2\rho\sigma_{\overline{x_1}}\sigma_{\overline{x_2}} $$ $\qquad\qquad\qquad\qquad\qquad\qquad\qquad\rho$是$X_{1i}, X_{2i}$的相關係數 ### 檢定問題 - $\overline{d}=\frac{\sum d_i}{n}=\overline{x_1}-\overline{x_2}$ - $S_d=\overline{d}的標準差$ | 型式 |統計量| 棄卻域 | | -------- |-| -------- | | 雙尾 |$t=\frac{\overline{d}}{s_d/\sqrt{n}}$|$\|t\|>t_{n-1,\alpha/2}$| | 左尾 |同上| | | 右尾 |同上| | # 第十章 比例問題的推論 ## 一組大樣本比例推論 - $\hat{p}=\overline{X}=\frac{1}{n}\sum^n_{i=1} x_i$ ### $p$的$1-\alpha$信賴區間 - $(\hat{p}-e, \hat{p}+e)$ - 其中$e=z_{\alpha/2}\cdot\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ ### 檢定 | 型式 |統計量| 棄卻域 | | -------- |-| -------- | | 雙尾 |$z=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}$|$\|z\|>\|z_{\alpha/2}\|$| | 左尾 |同上| $z<-z_{\alpha}$ | | 右尾 |同上| $z>z_{\alpha}$ | ## 樣本數決定 - 設定$e$決定樣本數 - $n=\frac{z_{\alpha/2}^2\cdot\hat{p}(1-\hat{p})}{e^2}$ - $\hat{p}未知,代入\hat{p}=0.5$ ## 兩組大樣本比例推論 ### $p_1-p_2$的$1-\alpha$信賴區間 - $(\hat{p}_1-\hat{p}_2-e,\hat{p}_1-\hat{p}_2+e)$ - $e=z_{\alpha/2}\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_2}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}$ - $\overline{p}=\sqrt{\frac{n_1\hat{p}_1+n_2\hat{p}_2}{n_1+n_2}}$ ### 檢定 | 型式 |統計量| 棄卻域 | | -------- |-| -------- | | 雙尾 |$z=\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\frac{\overline{p}(1-\overline{p})}{n_1}+\frac{\overline{p}(1-\overline{p})}{n_2}}}$|$\|z\|>\|z_{\alpha/2}\|$| | 左尾 |同上| $z<-z_{\alpha}$ | | 右尾 |同上| $z>z_{\alpha}$ | # 第十一章 卡方檢定 ## 資料適合度檢定 - k組分類的離散資料,驗證各組所佔比例($p_i$)是否符合某指定的比例($p_{i0}$) ### 卡方值 $$ \chi^2=\sum^k_{i=1}\frac{(o_i-e_i)^2}{e_i} $$ - $o_i$表示觀察次數 - $e_i$表示期望次數 - 卡方查表的自由度是$k-1$, 顯著水準常常給0.05 - 查表$\chi^2_{k-1,0.05}$ ### 連續型 用常態分配計算區間的期望次數 ## 獨立性之檢定 ### 交叉列表卡方值 $$ \chi^2=\sum^a_{i=1}\sum^b_{j=1}\frac{(o_{ij}-e_{ij})^2}{e_{ij}} $$ - 卡方查表的自由度是$(a-1), (b-1)$ ### 2X2交叉列表 $\chi^2=\frac{(a+b+c+d)(ad-bc)^2}{(a+b)(a+c)(c+d)(b+d)}$ ## Excel做資料獨立性檢定 CHITEST # 第十二章 變異數分析 ## 一因子模式 這是要檢測多組資料(水準、因子)分別的平均數是否一樣 | | 自由度 | 平方和 | 均方和 | F值 | |-|-|-|-|-| |組間$(B)$|$k-1$|$B=SSA=\sum_{i=1}^k\sum_{j=1}^{n_i}(\bar{y_i}-\bar{y})^2$|$B/(k-1)$|$\frac{B/(k-1)}{W/(N-k)}$| |組內$(W)$|$N-k$|$W=SSE=\sum_{i=1}^k\sum_{j=1}^{n_i}(y_{ij}-\bar{y_i})^2$|$W/(N-k)$| |總和$(TO)$|$N-1$|$TO=SSTO=\sum_{i=1}^k\sum_{j=1}^{n_i}(y_{ij}-\bar{y})^2$| $SSA+SSE=SSTO$ $SSA = \sum_{i=1}^kn_i\bar{y_i}^2-N\bar{y}^2$ $SSE=\sum_{i=1}^k\sum_{j=1}^{n_i}y_{ij}^2-\sum^k_{i=1}n_i\bar{y_i}^2$ $SSTO=\sum_{i=1}^k\sum_{j=1}^{n_i}y_{ij}^2-N\bar{y}^2$ 解釋能力$R^2=\frac{SSA}{SSTO}$ - $N$是總樣本數 - $k$因子數 ## 均值性檢定 檢測$k$組母體變異數是否相等 $H=\frac{Maxs_i^2}{Mins_i^2}$ 查哈雷表$H_{k,n,\alpha}$,$k$是組數,$n$是樣本數的平均,$\alpha$是顯著水準 ## 集區設計 就是希望比較不同因子的時候,可以去除掉在不同環境的變因,所以分成各個集區,相同集區中分不同因子。$y_{ij}$是代表第$i$個因子,第$j$個集區。$a$是因子數,$b$是集區數。 $SSA=\sum_{i=1}^a\sum_{j=1}^{b}(\bar{y_{i.}}-\bar{y})^2$ $SSB=\sum_{i=1}^a\sum_{j=1}^{b}(\bar{y_{.j}}-\bar{y})^2$ $SSE=\sum_{i=1}^a\sum_{j=1}^{b}(y_{ij}-\bar{y_{i.}}-\bar{y_{.j}}+\bar{y})^2$ $SSTO=\sum_{i=1}^a\sum_{j=1}^{b}(y_{ij}-\bar{y})^2$ $SSA+SSB+SSE=SSTO$ | | 自由度 | 平方和 | 均方和 | F值 | |-|-|-|-|-| |因子$(A)$|$a-1$|$SSA$|$MSA=SSA/(a-1)$|$\frac{MSA}{MSE}$| |集區$(B)$|$b-1$|$SSB$|$MSB=SSB/(b-1)$|$\frac{MSB}{MSE}$ |殘差$(E)$|$(a-1)(b-1)$|$SSE$|$MSE=SSE/((a-1)(b-1))$ |總差$(TO)$|$N-1$|$SSTO$| ## 兩因子模式 有$a$個$A$變因,有$b$個$B$變因,每組裡有$r$個資料,分別檢測它們的主效用和交互作用是否顯著 $SSA=\sum\sum\sum(\overline{y}_{i..}-\overline{y})^2$ $SSB=\sum\sum\sum(\overline{y}_{.j.}-\overline{y})^2$ $SSAB=\sum\sum\sum(\overline{y}_{ij.}-\overline{y}_{i..}-\overline{y}_{.j.}+\overline{y})^2$ $SSE=\sum\sum\sum(y_{ijk}-\overline{y}_{ij.})^2$ | | 自由度 | 平方和 | 均方和 | F值 | |-|-|-|-|-| |因子$(A)$|$a-1$|$SSA$|$MSA=SSA/(a-1)$|$\frac{MSA}{MSE}$| |因子$(B)$|$b-1$|$SSB$|$MSB=SSB/(b-1)$|$\frac{MSB}{MSE}$ |交互作用$(AB)$|$(a-1)(b-1)$|$SSAB$|$MSAB=SSAB/((a-1)(b-1))$|$\frac{MSAB}{MSE}$ |殘差$(E)$|$(r-1)ab$|$SSE$|$MSE=SSE/((r-1)ab)$ |總差$(TO)$|$N-1$|$SSTO$| Excel就是直接雙因子變異數分析:重複試驗,然後設定每一樣本列數 ![image](https://hackmd.io/_uploads/BkoQiJbSA.png =200x300) ![image](https://hackmd.io/_uploads/BJefsk-H0.png =500x300) # 第十三章 回歸分析 ## 簡單線性回歸 $r=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$ $y=\hat{\beta}_0+\hat{\beta}_1x$ $\hat{\beta}_1=r\frac{s_{y}}{s_{x}}=\frac{S_{xy}}{S_{xx}}$ $\hat{\beta}_0=\overline{y}-\hat{\beta}_1\overline{x}$ ## 簡單線性回歸評估 $SSE=\sum(y_i-\hat{y}_i)^2$ $SSTO=S_{yy}$ $R^2=1-\frac{SSE}{SSTO}=r^2$ ## 回歸模式統計推論 - 用$t$檢定 $\beta_1$ $\hat{\sigma}^2=\frac{SSE}{n-2}=MSE$ $\frac{\hat{\beta}_1-\beta_1}{\hat{\sigma}/\sqrt{S_{xx}}}\sim t_{n-2}$ - 用$F$檢定 $\beta_1=0$ $SSR=SSTO-SSE=\sum(\hat{y}_i-\overline{y})^2$ | | 自由度 | 平方和 | 均方和 | F值 | |-|-|-|-|-| |回歸|$1$|$SSR$|$MSR$|$\frac{MSR}{MSE}$| |殘差|$n-2$|$SSE$|$MSE$|| |總和|$n-1$| ## 複回歸 $y=\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_2x_2$ $\hat{\beta}_1=\frac{S_{22}S_{1y}-S_{12}S_{2y}}{S_{11}S_{22}-S_{12}^2}$ $\hat{\beta}_2=\frac{S_{11}S_{2y}-S_{12}S_{1y}}{S_{11}S_{22}-S_{12}^2}$ $\hat{\beta}_0=\overline{y}-\hat{\beta}_1\overline{x}_1-\hat{\beta}_2\overline{x}_2$ $SSE=\sum(y_i-\hat{y_i})^2$ $SSTO=\sum(y_i-\overline{y})^2$ $SSR=SSTO-SSE=\sum(\hat{y}_i-\overline{y})^2$ | | 自由度 | 平方和 | 均方和 | F值 | |-|-|-|-|-| |回歸|$2$|$SSR$|$MSR$|$\frac{MSR}{MSE}$| |殘差|$n-3$|$SSE$|$MSE$|| |總和|$n-1$|