# Econometrics ## Chapter 2 簡單迴歸模型 ### 2.1 簡單線性迴歸模型 (Simple Linear Regression Model): 定義: $$y=\beta_0 + \beta_1 x+ u \tag{1}\label{eq1}$$ 其中 $u$ 可想為「**不可觀察項**」。 在討論隨機變數 $x$ 和 $u$ 的相關性之前,只要在模型中有截距項 ($\beta_0$) 的存在,有一個基本假設是永遠可以做的: $$E(u)=0 \tag{2}\label{eq2}$$ 回到隨機變數 $x$ 和 $u$ 的相關性上,我們雖然可以用**相關係數 (correlation coefficient)** 來說明他們沒有線性相關,不過並沒有辦法說明 $u$ 和 「$x$的函數」之間沒有線性相關,因此這裡我們採用 **$u$ 對 $x$ 的條件期望值**的觀點,也就是:<font color='#f00'> $u$ 的期望值不取決於 $x$ 的值</font>,可以用下式表達: $$E(u\vert x)=E(u) \tag{3}\label{eq3}$$ $\eqref{eq3}$ 式也稱為**均數獨立(Mean independence)**。 ### 2.2 推導普通最小平方估計 > 此小節探討如何找到 SLRM 中的 $\beta_0$ 和 $\beta_1$ 首先我們知道: $$\text{Cov}(x, u)=E(xu)=0 \tag{4}\label{eq4}$$ :::info 事實上,**均數獨立** 可以直接推得**無相關性 (uncorrelation)** $\text{(pf)} \\ \text{By definition of uncorrelated, if }X \text{and } Y \text{are uncorrelated, then } E(XY)=E(X)E(Y) \\ \text{, so we have to show that.}\\ E(XY)\\ =E_X[E(XY|X)] \text{(By Law of Iterated Expectation)} \\ =E_X[XE(Y|X)]=E_X[XE(Y)] \text{ (Since }X \text{ and }Y\text{ are mean independent)} \\=E(X)E(Y) \quad_\square$ ::: 根據 $\eqref{eq2}$ 和 $\eqref{eq4}$,並結合 $\eqref{eq1}$,我們可以寫出下列兩式: $$E(y-\beta_0-\beta_1x)=0 \tag{5}\label{eq5}$$ $$E(x(y-\beta_0-\beta_1x))=0 \tag{6}\label{eq6}$$ 針對某一個資料樣本中,我們可以選擇 $\hat\beta_0$ 和 $\hat\beta_1$ 使得 $\eqref{eq5}$ 和 $\eqref{eq6}$ 成立。 利用動差法去估計 $\hat\beta_0$ 和 $\hat\beta_1$,我們可以得到下式: $$\bar y=\hat\beta_0+\hat\beta_1 \bar x \tag{7}\label{eq7}$$ 其中 $\bar y = \frac{1}{n} \sum_{i=1}^n y_i$。所以我們只要求得 $\hat\beta_1$ 就可藉由 $\eqref{eq7}$ 求得 $\hat\beta_0$。 經由一些代數運算,我們可以得到估計的斜率為: $$\hat\beta_1 = \dfrac{\displaystyle \sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)}{\displaystyle \sum_{i=1}^n (x_i-\bar x)^2} \tag{8}\label{eq8}$$ 在 $\eqref{eq7}$ 和 $\eqref{eq8}$ 中的估計稱為 $\beta_0$ 和 $\beta_1$ 的**普通最小平方(Ordinary Least Squares, OLS)** 估計。 ### 2.3 任意資料樣本的 OLS 特性 #### 2.3a 配適值和殘差 定義對於任意 $\hat\beta_0$ 和 $\hat\beta_1$,當 $x=x_i$ 時: 1. $y$ 的**配適值(fitted value)** 為 $\hat y_i=\hat\beta_0 + \hat\beta_1 x_i$。 2. 觀察值 $i$ 的**殘差值(residual)** 為 $\hat u_i=y_i-\hat y_i$ 在這裡,我們選擇適當的 $\hat\beta_0$ 和 $\hat\beta_1$ 使得<font color='#f00'>殘差平方和最小</font>,也就是 $\sum_{i=1}^n \hat{u_i}^2$ 最小,就決定了OLS估計之截距和斜率,即得到**OLS迴歸線(OLS Regression Line)** : $$\hat y=\hat\beta_0 + \hat\beta_1 x \tag{9}\label{eq9}$$ 同時,$\eqref{eq9}$ 式也被稱為**樣本迴歸函數(Sample Regression Function, SRF)**。 #### 2.3b OLS 統計量的代數特性 接下來,我們討論一些 OLS 中重要的代數特性: 1. OLS 殘差之總和及樣本平均為 0 ,也就是 $\sum_{i=1}^n \hat u_i=0$ 2. 自變數和 OLS 殘差之樣本共變異數為 0。此條件是來自前述利用動差法估計時所使用的一階條件,也就是 $\sum_{i=1}^n x_i \hat u_i=0$ 3. $(\bar x, \bar y)$ 這一點永遠會在 OLS 迴歸線上。因此,我們可以將每一個 $y_i$ 表示為<font color='#f00'>配適值加上殘差</font>,也就是 $y_i=\hat y_i + \hat u_i$。 我們可以定義**總平方和(Total Sum of Squares, SST), 被解釋平方和(Explained Sum of Squares, SSE), 殘差平方和(Residual Sum of Squares, SSR)** 如下: $$SST:=\sum_{i=1}^n (y_i-\bar y)^2 \tag{10}\label{SST}$$ $$SSE:=\sum_{i=1}^n (\hat y_i-\bar y)^2 \tag{11}\label{SSE}$$ $$SSR:=\sum_{i=1}^n \hat u_i^2 \tag{12}\label{SSR}$$ 並且透過一些代數運算,我們可以知道 $$SST=SSE+SSR \tag{13}\label{eq13}$$ #### 2.3c 配適度 只要「所有的 $y_i$ 值都相同」這件事不發生,那麼 $SST \ne 0$ 必成立,那麼我們可以將 $\eqref{eq13}$ 式改寫成 $1=\frac{SSE}{SST}+\frac{SSR}{SST}$,並定義**判定係數(coefficient of determination)** $\mathbf{R^2}$: $$R^2 := \dfrac{SSE}{SST} = 1-\dfrac{SSR}{SST} \tag{14}\label{eq14}$$ 此 $R^2$ 的意義為<font color='#f00'> $y$ 的變異能被 $x$ 解釋的比例</font>,因此若所有資料皆落在 OLS 迴歸線上,則 $R^2=1$。 ### 2.5 OLS 估計式之期望值和變異數 > 為了研究母體中不同隨機樣本下,$\hat\beta_0$ 和 $\hat\beta_1$ 之分配特性。 #### 2.5a OLS 的不偏性 為了建立 OLS 的不偏性,這裡有四個假設(SLR.1 ~ SLR.4): :::warning SLR.1. 在母體模型中,$y=\beta_0+\beta_1x+u$,其中 $\beta_0$ 和 $\beta_1$ 為母體之截距和斜率參數。 SLR.2. 由 SLR.1 的母體模型中可得一大小為 $n$ 的隨機樣本 $\{(x_i, y_i): i=1, 2, \cdots, n\}$。 SLR.3. $x$ 的樣本結果,$\{x_i, i=1, 2, \cdots, n\}$,其值不全部相同。 SLR.4. 在任意給定的解釋變數值之下,誤差項 $u$ 的期望值為 $0$。也就是 $E(u|x)=0$ ::: 由上述四個假設,我們可以證明$E(\hat\beta_0)=\beta_0, E(\hat\beta_1)=\beta_1$ 同時,此為 ==**定理2.1**==: :::success ==**定理2.1**== 利用 SLR.1~SLR.4,$\forall \beta_0, \beta_1$ $$E(\hat\beta_0)=\beta_0, E(\hat\beta_1)=\beta_1 \tag{15}\label{eq15}$$ ::: #### 2.5b OLS 估計式之變異數 除了瞭解 $\hat\beta_1$ 之抽樣分配以 $\beta_1$ 為不偏,知道預期的 $\hat\beta_1$ 距離 $\beta_1$ 多遠這件事也很重要。因此我們接下來討論 OLS 估計式之變異數。 在此,我們加入一個很傳統的假設,稱為**同質變異性(Homoskedasticity)** (SLR.5): :::warning SLR.5. 在給定的解釋變數值之下,誤差項 $u$ 有相同的變異數,也就是 $\text{Var}(u|x)=\sigma^2$ ::: 由於 $\text{Var}(u|x)=E(u^2|x)-(E(u|x))^2$,又 $E(u|x)=0$,所以得到 $\text{Var}(u|x)=E(u^2|x)=\sigma^2$,因此可以說 $\sigma^2$ 是 $u^2$ 的**非條件期望值**。 因此得誤差項 $u$ 的變異數 $\text{Var}(u)=E(u^2)-(E(u))^2=E(u^2)=\sigma^2$。我們便稱 $\sigma^2$ 為**誤差變異數(Error variance)**。 :::danger 我們可用 $y$ 的條件平均和條件變異數的形式改寫 SLR.4 和 SLR.5,得到 $E(y|x)=\beta_0+\beta_1x$ 和 $\text{Var}(y|x)=\sigma^2$。 ::: 當 $\text{Var}(u|x)$ 取決於 $x$ 誤差項,即存在**異質變異性(Heteroskedasticity)** 或是非常數的變異數。並且當 $\text{Var}(y|x)$ 為 $x$ 的函數時,異質變質性就會存在。 ![](https://i.imgur.com/fQAQqcz.png) **<p style="text-align: center;">$\triangle$當異質變異性存在時的圖示</p>** 而在同質變異性的假設之下,我們可以證明以下 ==**定理2.2**==: :::success ==**定理2.2**== 在 SLR.1~SLR.5 之下 $$\text{Var}(\hat\beta_1)=\dfrac{\sigma^2}{\displaystyle \sum_{i=1}^n(x_i-\bar x)^2}=\dfrac{\sigma^2}{SST_x} \tag{16}\label{eq16}$$ $$\text{Var}(\hat\beta_0)=\dfrac{\displaystyle \frac{\sigma^2}{n} \sum_{i=1}^nx_i^2}{\displaystyle \sum_{i=1}^n(x_i-\bar x)^2}\tag{17}\label{eq17}$$ ::: #### 2.5c 估計誤差變異數 現在我們想要建立 $\sigma^2$ 的估計式,瞭解 *誤差* 和 *殘差* 的差異是重要的,其中 *誤差* 為: $$u_i=y_i-\beta_0-\beta_1x_i \tag{18}\label{eq18}$$ 而 *殘差* 為: $$\hat u_i=y_i-\hat\beta_0-\hat\beta_1x_i \tag{19}\label{eq19}$$ 比較 $\eqref{eq18}$ 和 $\eqref{eq19}$,可發現其中差異為 $$\hat u_i=u_i-(\hat \beta_0-\beta_0)-(\hat \beta_1-\beta_1)x_i \tag{20}\label{eq20}$$ 根據 $\eqref{eq15}$,我們知道 $\hat\beta_0$ 的期望值等於 $\beta_0$ 且 $\hat\beta_1$ 的期望值等於 $\beta_1$。 現在我們回到估計 $\sigma^2$ 的部分。因為 $E(u^2)=\sigma^2$,所以 $1/n\sum_{i=1}^n u_i^2$是一個 $\sigma^2$ 的不偏估計式。不過因為我們觀察不到 $u_i$,所以我們可以用 OLS 的殘差 $\hat u_i$ 來替代,即$1/n\sum_{i=1}^n \hat u_i^2=SSR/n$ 不過由於並沒有考慮到 OLS 殘差必須滿足的兩個限制 $$\sum_{i=1}^n \hat u_i=0, \quad \sum_{i=1}^n x_i \hat u_i=0 \tag{21}\label{eq21}$$ (動差法所用到的一階條件),所以 $SSR/n$ 這個估計本身是有偏誤的。若我們知道 $n-2$ 個殘差,則利用 $\eqref{eq21}$ 的限制就可以得到剩下的兩個殘差,因此 OLS 殘差只有 $n-2$ 個自由度。 所以我們對 $\sigma^2$ 的不偏估計式做了自由度的調整: $$\hat\sigma^2=\dfrac{1}{n-2}\sum_{i=1}^n\hat u_i^2=\dfrac{SSR}{n-2} \tag{22}\label{eq22}$$ 則可利用代數性質證明 $\eqref{eq22}$ 式是 $\sigma^2$ 的不偏估計式,意即 $E(\hat\sigma^2)=\sigma^2$。我們稱 $\hat\sigma=\sqrt{\hat\sigma^2}$ 是**迴歸的標準誤(Standard Error of the Regression, SER)** 大多數迴歸軟體的報表中會將 $\hat\sigma$、$R^2$、截距、斜率和其他 OLS 統計量一起列出。就目前而言,我們主要的興趣在於<font color='#f00'>用 $\hat\sigma$ 來估計 $\hat\beta_0$ 和 $\hat\beta_1$ 的標準差</font>。根據 ==**定理2.2**== 中的 $\eqref{eq16}$ 我們知道 $\text{sd}(\hat\beta_1)=\sigma/\sqrt{SST_x}$,所以 $\text{sd}(\hat\beta_1)$ 的一個自然的估計式為: $$\text{se}(\hat\beta_1)=\dfrac{\hat\sigma}{\sqrt{SST_x}}=\dfrac{\hat\sigma}{\displaystyle \left(\sum_{i=1}^n(x_i-\bar x)^2\right)^{\frac{1}{2}}} \tag{23}\label{eq23}$$ 此稱為 $\text{se}(\hat\beta_1)$ 的**標準誤(Standard Error)**。相同地,我們可以得到 $\text{se}(\hat\beta_0)$,標準誤將幫助我們建構從第4章開始的計量程序之統計檢定量和信賴區間。 ### 2.6 通過原點和以常數項為自變數的迴歸 在某些情況下,我們會想要當代入 $x=0$ 時,$y$ 的期望值為 $0$ 的限制。因此我們另外選擇一個斜率估計式稱為 $$\tilde y=\tilde \beta_1 x \tag{24}\label{eq24}$$ 則 $\eqref{eq24}$ 式稱為**通過原點的迴歸(Regression through the Origin)**。我們同樣希望殘差平方和極小化,即: $$\min \sum_{i=1}^n(y_i-\tilde\beta_1x_i)^2 \tag{25}\label{eq25}$$ 利用 *微積分* 可證明 $\tilde\beta_1$ 必須是一階條件的解: $$\sum_{i=1}^nx_i(y_i-\tilde\beta_1x_i)=0 \tag{26}\label{eq26}$$ 因此可解出在不是所有的 $x_i=0$ 的情況下: $$\tilde\beta_1=\dfrac{\displaystyle \sum_{i=1}^nx_iy_i}{\displaystyle \sum_{i=1}^nx_i^2} \tag{27}\label{eq27}$$ ## Chapter 3 複迴歸分析:估計 ### 3.1 複迴歸之動機 #### 3.1b $k$ 個自變數的模型 我們可以將[第二章](https://hackmd.io/uZS5ckMKTlOg23azGNH00Q?both#21-%E7%B0%A1%E5%96%AE%E7%B7%9A%E6%80%A7%E8%BF%B4%E6%AD%B8%E6%A8%A1%E5%9E%8B-Simple-Linear-Regression-Model%EF%BC%9A)所提到的簡單迴歸模型一般化至<font color='#f00'> $k$ 個自變數的模型</font>。也就是**線性複迴歸模型(Multiple Linear Regression Model)**,其定義如下: $$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\cdots+\beta_kx_k+u \tag{28}\label{eq28}$$ 其中 $\beta_0$ 稱為**截距(intercept)**,其他的參數($\beta_i$)稱為**斜率參數(slope parameters)**。所以 $\eqref{eq28}$ 中總共有 $k+1$ 個母體參數。 ### 3.2 普通最小平方之機制和解釋 #### 3.2a 得到 OLS 估計 類似簡單迴歸分析,我們可以也想透過<font color='#f00'>極小化殘差平方和</font>來選擇估計值,也就是我們想要做到: $$\min \left(\sum_{i=1}^n(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_kx_{ik})^2\right) \tag{29}\label{eq29}$$ 類似地,我們就必須藉由動差法得到需要滿足的一階條件,也就是: $$\begin{align*} &\sum_{i=1}^n(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_kx_{ik}) &=0 \\ &\sum_{i=1}^nx_{i1}(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_kx_{ik}) &=0 \\ &\sum_{i=1}^nx_{i2}(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_kx_{ik}) &=0 \\ &\quad \vdots \\ &\sum_{i=1}^nx_{ik}(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_kx_{ik}) &=0 \end{align*} \tag{30}\label{eq30}$$ #### 3.2b 解釋 OLS 迴歸方程式 不過,*解釋* 估計的方程式是比較重要的,因此我們首先考慮兩個自變數的情況: $$y=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2 \tag{31}\label{eq31}$$ 而 $\hat\beta_1$ 和$\hat\beta_2$ 存在**偏效果(partial effect)**,或**其他條件不變(ceteris paribus)** 之解釋,因為由 $\eqref{eq31}$ 可知: $$\Delta\hat y=\hat\beta_1\Delta x_1+\hat\beta_2\Delta x_2$$ 因此當 $x_2$ 固定之下,即 $\Delta x_2=0$,那麼 $\Delta\hat y=\hat\beta_1\Delta x_1$,反之亦然。同樣的情況也會發生在更多自變數的情況下。 #### 3.2e OLS 配適值和殘差 在得到 OLS 迴歸線 $\eqref{eq28}$ 之後,我們可以得到每一個觀察值之預測值,對每個觀察值 $i$ 而言,預測值為: $$\hat y_i=\hat\beta_0+\hat\beta_1x_{i1}+ \cdots +\hat\beta_kx_{ik} \tag{32}\label{eq32}$$ 而且對於每個觀值 $i$ 之殘差有如簡單迴歸的定義,即 $\hat u_i=y_i-\hat y_i$。 OLS 配適值和殘差有一些由簡單迴歸可推得的特性: 1. 殘差之樣本平均為 $0$,因此 $\overline{y}=\overline{\hat y}$。 2. $\text{Cov}(x_i, \hat u_i)=0 \ \forall i \Rightarrow \text{Cov}(\hat y_i, \hat u_i)=0$ 3. 點 $(\bar {x_1}, \bar {x_2}, \cdots, \bar {x_k}, \bar y)$ 必在 OLS 迴歸線上。 #### 3.2f 複迴歸之「偏排除」 此時,我們再回到只有兩個自變數的情況,也就是 $y=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2$。若我們關注在 $\hat\beta_1$ 上,表現 $\hat\beta_1$ 的一種方式為: $$\hat\beta_1=\dfrac{\displaystyle \sum_{i=1}^n \hat r_{i1}y_i}{\displaystyle \sum_{i=1}^n \hat r_{i1}^2} \tag{33}\label{eq33}$$ 其中 $\hat r_{i1}$ 為使用現有樣本得出 $x_1$ 對 $x_2$ 簡單迴歸之 OLS 殘差。而因為 $\hat r^{i1}$ 為 $x_{i1}$ 和 $x_{i2}$ 無關的部分,所以另一種說法是<font color='#f00'> $\hat r_1$ 是在 $x_{i2}$ 之效果被 **偏排除(partialled out)** 後之 $x_{i1}$</font> ,因此 $\hat\beta_1$ 衡量了 $x_2$ 被偏排除之後 $y$ 和 $x_1$ 之間的關係。 $\eqref{eq33}$ 式之證明在課本的 P.143。 #### 3.2g 簡單迴歸和複迴歸估計之比較 若我們對簡單迴歸($\tilde y=\tilde\beta_0+\tilde\beta_1x_1$)和複迴歸($\hat y=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2$)做比較,透過課本 P.145 的證明可以得到: $$\tilde\beta_1 = \hat\beta_1+\hat\beta_2\tilde\delta_1 \tag{34}\label{eq34}$$ 其中 $\tilde\delta_1$ 為 $x_{i2}$ 對 $x_{i1}$ 簡單迴歸之斜率係數。 我們可以發現在兩種情況下,$\tilde\beta_1$ 和 $\hat\beta_1$ 會相等: 1. $\hat\beta_2=0$,也就是樣本中 $x_2$ 對 $\hat y$ 的偏效果為 $0$。 2. $\tilde\delta_1=0$,也就是 $x_1$ 和 $x_2$ 在樣本中不相關。 #### 3.2h 配適度 如同簡單迴歸,我們可定義總平方和 $\eqref{SST}$、可解釋平方和 $\eqref{SSE}$ 和殘差平方和 $\eqref{SSR}$,並且可同樣地得到 $\eqref{eq13}$ 之關係和 $R^2$ 之定義 $\eqref{eq14}$。 $R^2$亦可被證明等於 <font color='#f00'>實際 $y_i$ 和預測值 $\hat y_i$ 之相關係數的平方</font>,亦即: $$R^2=\dfrac{\left(\displaystyle \sum_{i=1}^n (y_i-\bar y)(\hat y_i-\bar y)\right)^2}{\left(\displaystyle \sum_{i=1}^n (y_i-\bar y)^2\right)\left(\displaystyle \sum_{i=1}^n (\hat y-\bar y)^2\right)} \tag{35}\label{eq35}$$ #### 3.2i 通過原點的迴歸 相同地,我們也可以定義出通過原點的複迴歸式: $$\tilde y=\tilde\beta_1x_1+\tilde\beta_2x_2+ \cdots +\tilde\beta_kx_k \tag{36}\label{eq36}$$ 當 $x_1=x_2= \cdots =x_k=0$ 時,則預測值為 $0$。此時,$\tilde\beta_i \ \forall i$ 稱為 $y$ 對 $x_i \ \forall i$ 通過原點之 OLS 估計。 ### 3.3 OLS 估計式之期望值 接著我們探討母體模型中用 OLS 來估計參數之統計特性,此節先討論 OLS 估計式性期望值。我們特別陳述和討論四個假設(事實上這些是由簡單迴歸模型之四個假設推廣而來),在這些假設下,<font color='#f00'> OLS 估計式是母體參數的不偏估計式</font>。當某重要變數由迴歸中遺漏時,我們亦得出 OLS 有偏誤的結果。 :::warning MLR.1. 參數線性:母體模型可寫為 $$y=\beta_0+\beta_1x_1+\beta_2x_2+ \cdots +\beta_kx_k+u \tag{37}\label{eq37}$$ $\eqref{eq37}$ 陳述**母體模型(population model)**,有時也稱為**真實模型(true model)**。是為了允許我們估計的模型可能和 $\eqref{eq37}$ 有不同的可能性(例如 $y$ 取自然對數等等),不過該模型想強調的是<font color = '#f00'> 參數 $\beta_i \ \forall i$ 是線性的</font>。 MLR.2. 隨機抽樣:由假設 MLR.1 之母體模型,有 $n$ 個觀察值之隨機樣本,$\{(x_{i1}, x_{i2}, \cdots, x_{ik}, y_i): i=1, 2, \cdots, n\}$ MLR.3. 無完全共線性:在樣本中沒有自變數是常數,且在自變數之間沒有確切的線性關係。 MLR.4. 條件平均為 $0$:意即 $E(u|x_1, x_2, \cdots, x_k)=0$ ::: 並且由以上 MLR.1 ~ MLR.4 之假設,我們可以證明 OLS 的不偏性(課本 P.144)。即 ==**定理3.1**==: :::success ==**定理3.1**== 在假設 MLR.1 ~ MLR.4 之下,對任意母體參數 $\beta_j$: $$E(\hat\beta_j)=\beta_j, j=0, 1, \cdots, k \tag{38}\label{eq38}$$ 也就是說,OLS 估計式為母體參數之不偏估計式。 ::: #### 3.3a 將不相干的變數加入迴歸模型 在複迴歸分析中一個可以很快加以討論的議題是**加入一個不相干的變數(inclusion of irrelavant variable)** 或是**過度設定模型(overspecifying the model)**。這代表有一個(或多個)<font color='#f00'>即使在母體中它對 $y$ 沒有偏效果(亦即其 $\beta=0$)的自變數被代到模型中</font>。 相反地,若我們遺漏了事實上屬於真實模型的變數。這通常稱為**排除相干變數(excluding a relavant variable)** 或**模型設定不足(underspecifying the model)**。 #### 3.3b 遺漏變數的偏誤:簡單的情況 上述我們提到了可能發生遺漏變數的情況,我們可以分成簡單的情況及一般的情況,而在此只針對簡單的情況解釋,一般的情況可於課本 P.145 得到。 推導出由遺漏重要變數所產生的偏誤是**錯誤設定分析(misspecification analysis)** 的一個例子。我們假設真實母體模型有兩個解釋變數和一個誤差項: $$y=\beta_0+\beta_1x_1+\beta_2x_2+u \tag{39}\label{eq39}$$ 不過通常由於某個變數不可觀察(例如在模型 $\text{wage}=\beta_0+\beta_1\text{educ}+\beta_2\text{abil}+u$ 中,能力項即不可觀察。)我們可能轉而估計模型: $$\tilde y=\tilde\beta_0+\tilde\beta_1x_1 \tag{40}\label{eq40}$$ 由 $\eqref{eq34}$ 我們已經有 $\tilde\beta_1=\hat\beta_1+\hat\beta_2\tilde\delta_1$ 的關係。其中 $\hat\beta_1$ 和 $\hat\beta_2$ 為 $y_i$ 對 $x_{i1}, x_{i2}$ 的複迴歸斜率估計式且 $\tilde\delta_1$ 為 $x_{i2}$ 對 $x_{i1}$ 的簡單迴歸斜率。 因此可以整理出以下表格: ![](https://i.imgur.com/VIf5OL4.png) 除了偏誤的方向,偏誤的大小也很重要。不管符號的正負,若偏誤很小,我們也不必加以特別注意。 ### 3.4 OLS 估計式之變異數 如果簡單迴歸時,我們希望有同質變異性之假設,使得公式簡化,以及較重要的是:OLS 會擁有重要的效率性特性。 :::warning MLR.5. 在任意給定的解釋變數值下,誤差項 $u$ 有相同的變異數,意即: $$\text{Var}(u|\textbf{x})=\sigma^2$$ 往後將以符號 $\textbf{x}$ 表示 $(x_1, \cdots, x_k)$ ::: 其中,假設 MLR.1 ~ MLR.5 對橫斷面迴歸而言合稱**高斯馬可夫假設(Gauss-Markov assumptions)**。 現在我們可以證明條件於自變數樣本值的 $\hat\beta_j$ 之變異數(見課本 P.145),即 ==**定理3.2**==。 :::success ==**定理3.2**== 在高斯馬可夫假設之下,且條件於自變數樣本值,對於所有 $j$: $$\text{Var}(\hat\beta_j)=\dfrac{\sigma^2}{SST_j(1-R_j^2)} \tag{41}\label{eq41}$$ 其中 $SST_j=\displaystyle \sum_{i=1}^n (x_{ij}-\bar x_j)^2$ 為 $x_j$ 總樣本變異,且 $R_j^2$ 為 $x_j$ 對所有其他自變數迴歸(有截距項)之 $R^2$。 ::: #### 3.4a OLS 變異數之組成要素:多元共線性 影響 $\text{Var}(\hat\beta_j)$ 的因素有三個,以下針對三個因素討論: 1. $\sigma^2$: * 可發現較大的 $\sigma^2$ 會使得 $\text{Var}(\hat\beta_j)$ 較大,不過由於 $\sigma^2$ 為母體特色,因此和樣本大小無關。 2. $SST_j$: * 可發現當 $x_j$ 之總變異愈大,則 $SST_j$ 愈小,則 $\text{Var}(\hat\beta_j)$ 愈大。事實上 $SST_j$ 隨著樣本數量 $n$ 變大而變大,大致上為 $n$ 之線性函數,所以 $SST_j$ 是可以無限制的增加的。但是注意當 $SST_j \to 0$ 時並沒有違反 MLR.3 (無完全共線性),除非 $SST_j=0$ 才會違反 MLR.3。 3. $R_j^2$: * 此以只有兩個解釋變數的情況說明:$y=\beta_0+\beta_1x_1+\beta_2x_2+u$。則 $\text{Var}(\hat\beta_1)=\frac{\sigma^2}{SST_1(1-R_1^2)}$。其中 $R_1^2$ 為 $x_1$ 對 $x_2$ 簡單迴歸之 $R^2$。若 $x_1$ 和 $x_2$ 高度相關,則 $R_1^2 \to 1$,那麼 $\text{Var}(\hat\beta_1) \to \infty$。此關係可見下圖: ![](https://i.imgur.com/ExF5s7k.png) 威斯康辛大學有名的計量學者 Arthur Goldberger 對多元共線性的迷思做了反應,並創造了一個新的名詞**微數缺測性(Micronumerosity)**,他定義為「小樣本的問題」。 有些針對個別迴歸係數的統計量比較有幫助,但仍可能被誤用,其中最常用的為直接從 $\eqref{eq41}$ 可求出的**變異數膨脹因子(Variance Inflation Factor, VIF)**,其定義為 $VIF_j=1/(1-R_j^2)$,因此 $\eqref{eq41}$ 也可被寫為 $$\text{Var}(\hat\beta_j)=\dfrac{\sigma^2}{SST_j}\cdot VIF_j$$ 例如:人們可能會選擇 $VIF=10$ 作為一個臨界值。若 $VIF_j>10$(也就是 $R_j^2>0.9$),則認定在估計 $\beta_j$ 時多元共線性是個問題。 是否在一迴歸模型中加入某特定變數,可以透過分析偏誤和變異數的取捨關係來做決定。現在我們來分析它們的 OLS 估計式變異數之比較。 #### 3.4b 錯誤設定模型之變異數 將真實母體模型(符合 Gauss-Markov assumptions)寫為: $$y=\beta_0+\beta_1x_1+\beta_2x_2+u$$ 我們現在考慮 $\beta_1$ 兩個估計式,分別為以下兩式: $$\hat y=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2 \tag{42}\label{eq42}$$ $$\tilde y=\tilde\beta_0+\tilde\beta_1x_1 \tag{43}\label{eq43}$$ 其中 $\eqref{eq42}$ 是將 $x_2$ 和 $x_1$ 代入迴歸模型。而 $\eqref{eq43}$ 是透過模型中遺漏 $x_2$ 只跑 $y$ 對 $x_1$ 簡單迴歸而來。 除非 $x_1$ 和 $x_2$ 之間無關,否則 $\tilde\beta_1$ 必有偏誤(根據 $\eqref{eq34}$)。另一方面,若偏誤是我們唯一判斷的標準,則在任何 $\beta_2$ 值之下(包括 $\beta_2=0$)$\hat\beta_1$ 優於 $\tilde\beta_1$。 但是若我們將變異數也考慮進來,則上述的結論則不一定正確。 我們知道根據 $\eqref{eq41}$ 可得 $$\text{Var}(\hat\beta_1)=\dfrac{\sigma^2}{SST_1(1-R_1^2)} \tag{44}\label{eq44}$$ 其中 $SST_1$ 為 $x_1$ 之總變異。 根據第二章的 $\eqref{eq16}$ 可得下式: $$\text{Var}(\tilde\beta_1)=\dfrac{\sigma^2}{SST_1} \tag{45}\label{eq45}$$ 觀察 $\eqref{eq44}$ 和 $\eqref{eq45}$ 可發現:<font colro='#f00'>只要 $R_1^2 \ne 0$($x_1$ 和 $x_2$ 並非無關),則<font color='#f00'> $\text{Var}(\tilde\beta_1) < \text{Var}(\hat\beta_1)$</font>。因此假定 $x_1$ 和 $x_2$ 並非無關,我們可得以下結論: 1. 當 $\beta_2 \ne 0$ 時,$\tilde\beta_1$ 有偏誤;$\hat\beta_1$ 不偏,且 $\text{Var}(\tilde\beta_1) < \text{Var}(\hat\beta_1)$。 2. 當 $\beta_2=0$ 時,$\tilde\beta_1$ 和 $\hat\beta_1$ 均不偏,且 $\text{Var}(\tilde\beta_1) < \text{Var}(\hat\beta_1)$。 所以顯然在 $x_2$ 對 $y$ 無偏效果時,選擇 $\tilde\beta_1$ 是較好的。不過當存在偏效果時情況將較為複雜。(*事實上,這個狀況下會選擇 $\hat\beta_1$*) #### 3.4c 估計 $\sigma^2$:OLS 估計式的標準誤