# Econometrics
## Chapter 2 簡單迴歸模型
### 2.1 簡單線性迴歸模型 (Simple Linear Regression Model):
定義:
$$y=\beta_0 + \beta_1 x+ u \tag{1}\label{eq1}$$
其中 $u$ 可想為「**不可觀察項**」。
在討論隨機變數 $x$ 和 $u$ 的相關性之前,只要在模型中有截距項 ($\beta_0$) 的存在,有一個基本假設是永遠可以做的:
$$E(u)=0 \tag{2}\label{eq2}$$
回到隨機變數 $x$ 和 $u$ 的相關性上,我們雖然可以用**相關係數 (correlation coefficient)** 來說明他們沒有線性相關,不過並沒有辦法說明 $u$ 和 「$x$的函數」之間沒有線性相關,因此這裡我們採用 **$u$ 對 $x$ 的條件期望值**的觀點,也就是:<font color='#f00'> $u$ 的期望值不取決於 $x$ 的值</font>,可以用下式表達:
$$E(u\vert x)=E(u) \tag{3}\label{eq3}$$
$\eqref{eq3}$ 式也稱為**均數獨立(Mean independence)**。
### 2.2 推導普通最小平方估計
> 此小節探討如何找到 SLRM 中的 $\beta_0$ 和 $\beta_1$
首先我們知道:
$$\text{Cov}(x, u)=E(xu)=0 \tag{4}\label{eq4}$$
:::info
事實上,**均數獨立** 可以直接推得**無相關性 (uncorrelation)**
$\text{(pf)} \\ \text{By definition of uncorrelated, if }X \text{and } Y \text{are uncorrelated, then } E(XY)=E(X)E(Y) \\ \text{, so we have to show that.}\\ E(XY)\\
=E_X[E(XY|X)] \text{(By Law of Iterated Expectation)} \\ =E_X[XE(Y|X)]=E_X[XE(Y)] \text{ (Since }X \text{ and }Y\text{ are mean independent)}
\\=E(X)E(Y) \quad_\square$
:::
根據 $\eqref{eq2}$ 和 $\eqref{eq4}$,並結合 $\eqref{eq1}$,我們可以寫出下列兩式:
$$E(y-\beta_0-\beta_1x)=0 \tag{5}\label{eq5}$$
$$E(x(y-\beta_0-\beta_1x))=0 \tag{6}\label{eq6}$$
針對某一個資料樣本中,我們可以選擇 $\hat\beta_0$ 和 $\hat\beta_1$ 使得 $\eqref{eq5}$ 和 $\eqref{eq6}$ 成立。
利用動差法去估計 $\hat\beta_0$ 和 $\hat\beta_1$,我們可以得到下式:
$$\bar y=\hat\beta_0+\hat\beta_1 \bar x \tag{7}\label{eq7}$$
其中 $\bar y = \frac{1}{n} \sum_{i=1}^n y_i$。所以我們只要求得 $\hat\beta_1$ 就可藉由 $\eqref{eq7}$ 求得 $\hat\beta_0$。
經由一些代數運算,我們可以得到估計的斜率為:
$$\hat\beta_1 = \dfrac{\displaystyle \sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)}{\displaystyle \sum_{i=1}^n (x_i-\bar x)^2} \tag{8}\label{eq8}$$
在 $\eqref{eq7}$ 和 $\eqref{eq8}$ 中的估計稱為 $\beta_0$ 和 $\beta_1$ 的**普通最小平方(Ordinary Least Squares, OLS)** 估計。
### 2.3 任意資料樣本的 OLS 特性
#### 2.3a 配適值和殘差
定義對於任意 $\hat\beta_0$ 和 $\hat\beta_1$,當 $x=x_i$ 時:
1. $y$ 的**配適值(fitted value)** 為 $\hat y_i=\hat\beta_0 + \hat\beta_1 x_i$。
2. 觀察值 $i$ 的**殘差值(residual)** 為 $\hat u_i=y_i-\hat y_i$
在這裡,我們選擇適當的 $\hat\beta_0$ 和 $\hat\beta_1$ 使得<font color='#f00'>殘差平方和最小</font>,也就是 $\sum_{i=1}^n \hat{u_i}^2$ 最小,就決定了OLS估計之截距和斜率,即得到**OLS迴歸線(OLS Regression Line)** :
$$\hat y=\hat\beta_0 + \hat\beta_1 x \tag{9}\label{eq9}$$
同時,$\eqref{eq9}$ 式也被稱為**樣本迴歸函數(Sample Regression Function, SRF)**。
#### 2.3b OLS 統計量的代數特性
接下來,我們討論一些 OLS 中重要的代數特性:
1. OLS 殘差之總和及樣本平均為 0 ,也就是 $\sum_{i=1}^n \hat u_i=0$
2. 自變數和 OLS 殘差之樣本共變異數為 0。此條件是來自前述利用動差法估計時所使用的一階條件,也就是 $\sum_{i=1}^n x_i \hat u_i=0$
3. $(\bar x, \bar y)$ 這一點永遠會在 OLS 迴歸線上。因此,我們可以將每一個 $y_i$ 表示為<font color='#f00'>配適值加上殘差</font>,也就是 $y_i=\hat y_i + \hat u_i$。
我們可以定義**總平方和(Total Sum of Squares, SST), 被解釋平方和(Explained Sum of Squares, SSE), 殘差平方和(Residual Sum of Squares, SSR)** 如下:
$$SST:=\sum_{i=1}^n (y_i-\bar y)^2 \tag{10}\label{SST}$$
$$SSE:=\sum_{i=1}^n (\hat y_i-\bar y)^2 \tag{11}\label{SSE}$$
$$SSR:=\sum_{i=1}^n \hat u_i^2 \tag{12}\label{SSR}$$
並且透過一些代數運算,我們可以知道
$$SST=SSE+SSR \tag{13}\label{eq13}$$
#### 2.3c 配適度
只要「所有的 $y_i$ 值都相同」這件事不發生,那麼 $SST \ne 0$ 必成立,那麼我們可以將 $\eqref{eq13}$ 式改寫成 $1=\frac{SSE}{SST}+\frac{SSR}{SST}$,並定義**判定係數(coefficient of determination)** $\mathbf{R^2}$:
$$R^2 := \dfrac{SSE}{SST} = 1-\dfrac{SSR}{SST} \tag{14}\label{eq14}$$
此 $R^2$ 的意義為<font color='#f00'> $y$ 的變異能被 $x$ 解釋的比例</font>,因此若所有資料皆落在 OLS 迴歸線上,則 $R^2=1$。
### 2.5 OLS 估計式之期望值和變異數
> 為了研究母體中不同隨機樣本下,$\hat\beta_0$ 和 $\hat\beta_1$ 之分配特性。
#### 2.5a OLS 的不偏性
為了建立 OLS 的不偏性,這裡有四個假設(SLR.1 ~ SLR.4):
:::warning
SLR.1. 在母體模型中,$y=\beta_0+\beta_1x+u$,其中 $\beta_0$ 和 $\beta_1$ 為母體之截距和斜率參數。
SLR.2. 由 SLR.1 的母體模型中可得一大小為 $n$ 的隨機樣本 $\{(x_i, y_i): i=1, 2, \cdots, n\}$。
SLR.3. $x$ 的樣本結果,$\{x_i, i=1, 2, \cdots, n\}$,其值不全部相同。
SLR.4. 在任意給定的解釋變數值之下,誤差項 $u$ 的期望值為 $0$。也就是 $E(u|x)=0$
:::
由上述四個假設,我們可以證明$E(\hat\beta_0)=\beta_0, E(\hat\beta_1)=\beta_1$
同時,此為 ==**定理2.1**==:
:::success
==**定理2.1**==
利用 SLR.1~SLR.4,$\forall \beta_0, \beta_1$
$$E(\hat\beta_0)=\beta_0, E(\hat\beta_1)=\beta_1 \tag{15}\label{eq15}$$
:::
#### 2.5b OLS 估計式之變異數
除了瞭解 $\hat\beta_1$ 之抽樣分配以 $\beta_1$ 為不偏,知道預期的 $\hat\beta_1$ 距離 $\beta_1$ 多遠這件事也很重要。因此我們接下來討論 OLS 估計式之變異數。
在此,我們加入一個很傳統的假設,稱為**同質變異性(Homoskedasticity)** (SLR.5):
:::warning
SLR.5. 在給定的解釋變數值之下,誤差項 $u$ 有相同的變異數,也就是 $\text{Var}(u|x)=\sigma^2$
:::
由於 $\text{Var}(u|x)=E(u^2|x)-(E(u|x))^2$,又 $E(u|x)=0$,所以得到 $\text{Var}(u|x)=E(u^2|x)=\sigma^2$,因此可以說 $\sigma^2$ 是 $u^2$ 的**非條件期望值**。
因此得誤差項 $u$ 的變異數 $\text{Var}(u)=E(u^2)-(E(u))^2=E(u^2)=\sigma^2$。我們便稱 $\sigma^2$ 為**誤差變異數(Error variance)**。
:::danger
我們可用 $y$ 的條件平均和條件變異數的形式改寫 SLR.4 和 SLR.5,得到 $E(y|x)=\beta_0+\beta_1x$ 和 $\text{Var}(y|x)=\sigma^2$。
:::
當 $\text{Var}(u|x)$ 取決於 $x$ 誤差項,即存在**異質變異性(Heteroskedasticity)** 或是非常數的變異數。並且當 $\text{Var}(y|x)$ 為 $x$ 的函數時,異質變質性就會存在。

**<p style="text-align: center;">$\triangle$當異質變異性存在時的圖示</p>**
而在同質變異性的假設之下,我們可以證明以下 ==**定理2.2**==:
:::success
==**定理2.2**==
在 SLR.1~SLR.5 之下
$$\text{Var}(\hat\beta_1)=\dfrac{\sigma^2}{\displaystyle \sum_{i=1}^n(x_i-\bar x)^2}=\dfrac{\sigma^2}{SST_x} \tag{16}\label{eq16}$$
$$\text{Var}(\hat\beta_0)=\dfrac{\displaystyle \frac{\sigma^2}{n} \sum_{i=1}^nx_i^2}{\displaystyle \sum_{i=1}^n(x_i-\bar x)^2}\tag{17}\label{eq17}$$
:::
#### 2.5c 估計誤差變異數
現在我們想要建立 $\sigma^2$ 的估計式,瞭解 *誤差* 和 *殘差* 的差異是重要的,其中 *誤差* 為:
$$u_i=y_i-\beta_0-\beta_1x_i \tag{18}\label{eq18}$$
而 *殘差* 為:
$$\hat u_i=y_i-\hat\beta_0-\hat\beta_1x_i \tag{19}\label{eq19}$$
比較 $\eqref{eq18}$ 和 $\eqref{eq19}$,可發現其中差異為
$$\hat u_i=u_i-(\hat \beta_0-\beta_0)-(\hat \beta_1-\beta_1)x_i \tag{20}\label{eq20}$$
根據 $\eqref{eq15}$,我們知道 $\hat\beta_0$ 的期望值等於 $\beta_0$ 且 $\hat\beta_1$ 的期望值等於 $\beta_1$。
現在我們回到估計 $\sigma^2$ 的部分。因為 $E(u^2)=\sigma^2$,所以 $1/n\sum_{i=1}^n u_i^2$是一個 $\sigma^2$ 的不偏估計式。不過因為我們觀察不到 $u_i$,所以我們可以用 OLS 的殘差 $\hat u_i$ 來替代,即$1/n\sum_{i=1}^n \hat u_i^2=SSR/n$
不過由於並沒有考慮到 OLS 殘差必須滿足的兩個限制
$$\sum_{i=1}^n \hat u_i=0, \quad \sum_{i=1}^n x_i \hat u_i=0 \tag{21}\label{eq21}$$
(動差法所用到的一階條件),所以 $SSR/n$ 這個估計本身是有偏誤的。若我們知道 $n-2$ 個殘差,則利用 $\eqref{eq21}$ 的限制就可以得到剩下的兩個殘差,因此 OLS 殘差只有 $n-2$ 個自由度。
所以我們對 $\sigma^2$ 的不偏估計式做了自由度的調整:
$$\hat\sigma^2=\dfrac{1}{n-2}\sum_{i=1}^n\hat u_i^2=\dfrac{SSR}{n-2} \tag{22}\label{eq22}$$
則可利用代數性質證明 $\eqref{eq22}$ 式是 $\sigma^2$ 的不偏估計式,意即 $E(\hat\sigma^2)=\sigma^2$。我們稱 $\hat\sigma=\sqrt{\hat\sigma^2}$ 是**迴歸的標準誤(Standard Error of the Regression, SER)**
大多數迴歸軟體的報表中會將 $\hat\sigma$、$R^2$、截距、斜率和其他 OLS 統計量一起列出。就目前而言,我們主要的興趣在於<font color='#f00'>用 $\hat\sigma$ 來估計 $\hat\beta_0$ 和 $\hat\beta_1$ 的標準差</font>。根據 ==**定理2.2**== 中的 $\eqref{eq16}$ 我們知道 $\text{sd}(\hat\beta_1)=\sigma/\sqrt{SST_x}$,所以 $\text{sd}(\hat\beta_1)$ 的一個自然的估計式為:
$$\text{se}(\hat\beta_1)=\dfrac{\hat\sigma}{\sqrt{SST_x}}=\dfrac{\hat\sigma}{\displaystyle \left(\sum_{i=1}^n(x_i-\bar x)^2\right)^{\frac{1}{2}}} \tag{23}\label{eq23}$$
此稱為 $\text{se}(\hat\beta_1)$ 的**標準誤(Standard Error)**。相同地,我們可以得到 $\text{se}(\hat\beta_0)$,標準誤將幫助我們建構從第4章開始的計量程序之統計檢定量和信賴區間。
### 2.6 通過原點和以常數項為自變數的迴歸
在某些情況下,我們會想要當代入 $x=0$ 時,$y$ 的期望值為 $0$ 的限制。因此我們另外選擇一個斜率估計式稱為
$$\tilde y=\tilde \beta_1 x \tag{24}\label{eq24}$$
則 $\eqref{eq24}$ 式稱為**通過原點的迴歸(Regression through the Origin)**。我們同樣希望殘差平方和極小化,即:
$$\min \sum_{i=1}^n(y_i-\tilde\beta_1x_i)^2 \tag{25}\label{eq25}$$
利用 *微積分* 可證明 $\tilde\beta_1$ 必須是一階條件的解:
$$\sum_{i=1}^nx_i(y_i-\tilde\beta_1x_i)=0 \tag{26}\label{eq26}$$
因此可解出在不是所有的 $x_i=0$ 的情況下:
$$\tilde\beta_1=\dfrac{\displaystyle \sum_{i=1}^nx_iy_i}{\displaystyle \sum_{i=1}^nx_i^2} \tag{27}\label{eq27}$$
## Chapter 3 複迴歸分析:估計
### 3.1 複迴歸之動機
#### 3.1b $k$ 個自變數的模型
我們可以將[第二章](https://hackmd.io/uZS5ckMKTlOg23azGNH00Q?both#21-%E7%B0%A1%E5%96%AE%E7%B7%9A%E6%80%A7%E8%BF%B4%E6%AD%B8%E6%A8%A1%E5%9E%8B-Simple-Linear-Regression-Model%EF%BC%9A)所提到的簡單迴歸模型一般化至<font color='#f00'> $k$ 個自變數的模型</font>。也就是**線性複迴歸模型(Multiple Linear Regression Model)**,其定義如下:
$$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\cdots+\beta_kx_k+u \tag{28}\label{eq28}$$
其中 $\beta_0$ 稱為**截距(intercept)**,其他的參數($\beta_i$)稱為**斜率參數(slope parameters)**。所以 $\eqref{eq28}$ 中總共有 $k+1$ 個母體參數。
### 3.2 普通最小平方之機制和解釋
#### 3.2a 得到 OLS 估計
類似簡單迴歸分析,我們可以也想透過<font color='#f00'>極小化殘差平方和</font>來選擇估計值,也就是我們想要做到:
$$\min \left(\sum_{i=1}^n(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_kx_{ik})^2\right) \tag{29}\label{eq29}$$
類似地,我們就必須藉由動差法得到需要滿足的一階條件,也就是:
$$\begin{align*}
&\sum_{i=1}^n(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_kx_{ik}) &=0 \\
&\sum_{i=1}^nx_{i1}(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_kx_{ik}) &=0 \\
&\sum_{i=1}^nx_{i2}(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_kx_{ik}) &=0 \\
&\quad \vdots \\
&\sum_{i=1}^nx_{ik}(y_i-\hat\beta_0-\hat\beta_1x_{i1}-\cdots-\hat\beta_kx_{ik}) &=0 \end{align*} \tag{30}\label{eq30}$$
#### 3.2b 解釋 OLS 迴歸方程式
不過,*解釋* 估計的方程式是比較重要的,因此我們首先考慮兩個自變數的情況:
$$y=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2 \tag{31}\label{eq31}$$
而 $\hat\beta_1$ 和$\hat\beta_2$ 存在**偏效果(partial effect)**,或**其他條件不變(ceteris paribus)** 之解釋,因為由 $\eqref{eq31}$ 可知:
$$\Delta\hat y=\hat\beta_1\Delta x_1+\hat\beta_2\Delta x_2$$
因此當 $x_2$ 固定之下,即 $\Delta x_2=0$,那麼 $\Delta\hat y=\hat\beta_1\Delta x_1$,反之亦然。同樣的情況也會發生在更多自變數的情況下。
#### 3.2e OLS 配適值和殘差
在得到 OLS 迴歸線 $\eqref{eq28}$ 之後,我們可以得到每一個觀察值之預測值,對每個觀察值 $i$ 而言,預測值為:
$$\hat y_i=\hat\beta_0+\hat\beta_1x_{i1}+ \cdots +\hat\beta_kx_{ik} \tag{32}\label{eq32}$$
而且對於每個觀值 $i$ 之殘差有如簡單迴歸的定義,即 $\hat u_i=y_i-\hat y_i$。
OLS 配適值和殘差有一些由簡單迴歸可推得的特性:
1. 殘差之樣本平均為 $0$,因此 $\overline{y}=\overline{\hat y}$。
2. $\text{Cov}(x_i, \hat u_i)=0 \ \forall i \Rightarrow \text{Cov}(\hat y_i, \hat u_i)=0$
3. 點 $(\bar {x_1}, \bar {x_2}, \cdots, \bar {x_k}, \bar y)$ 必在 OLS 迴歸線上。
#### 3.2f 複迴歸之「偏排除」
此時,我們再回到只有兩個自變數的情況,也就是 $y=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2$。若我們關注在 $\hat\beta_1$ 上,表現 $\hat\beta_1$ 的一種方式為:
$$\hat\beta_1=\dfrac{\displaystyle \sum_{i=1}^n \hat r_{i1}y_i}{\displaystyle \sum_{i=1}^n \hat r_{i1}^2} \tag{33}\label{eq33}$$
其中 $\hat r_{i1}$ 為使用現有樣本得出 $x_1$ 對 $x_2$ 簡單迴歸之 OLS 殘差。而因為 $\hat r^{i1}$ 為 $x_{i1}$ 和 $x_{i2}$ 無關的部分,所以另一種說法是<font color='#f00'> $\hat r_1$ 是在 $x_{i2}$ 之效果被 **偏排除(partialled out)** 後之 $x_{i1}$</font> ,因此 $\hat\beta_1$ 衡量了 $x_2$ 被偏排除之後 $y$ 和 $x_1$ 之間的關係。
$\eqref{eq33}$ 式之證明在課本的 P.143。
#### 3.2g 簡單迴歸和複迴歸估計之比較
若我們對簡單迴歸($\tilde y=\tilde\beta_0+\tilde\beta_1x_1$)和複迴歸($\hat y=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2$)做比較,透過課本 P.145 的證明可以得到:
$$\tilde\beta_1 = \hat\beta_1+\hat\beta_2\tilde\delta_1 \tag{34}\label{eq34}$$
其中 $\tilde\delta_1$ 為 $x_{i2}$ 對 $x_{i1}$ 簡單迴歸之斜率係數。
我們可以發現在兩種情況下,$\tilde\beta_1$ 和 $\hat\beta_1$ 會相等:
1. $\hat\beta_2=0$,也就是樣本中 $x_2$ 對 $\hat y$ 的偏效果為 $0$。
2. $\tilde\delta_1=0$,也就是 $x_1$ 和 $x_2$ 在樣本中不相關。
#### 3.2h 配適度
如同簡單迴歸,我們可定義總平方和 $\eqref{SST}$、可解釋平方和 $\eqref{SSE}$ 和殘差平方和 $\eqref{SSR}$,並且可同樣地得到 $\eqref{eq13}$ 之關係和 $R^2$ 之定義 $\eqref{eq14}$。
$R^2$亦可被證明等於 <font color='#f00'>實際 $y_i$ 和預測值 $\hat y_i$ 之相關係數的平方</font>,亦即:
$$R^2=\dfrac{\left(\displaystyle \sum_{i=1}^n (y_i-\bar y)(\hat y_i-\bar y)\right)^2}{\left(\displaystyle \sum_{i=1}^n (y_i-\bar y)^2\right)\left(\displaystyle \sum_{i=1}^n (\hat y-\bar y)^2\right)} \tag{35}\label{eq35}$$
#### 3.2i 通過原點的迴歸
相同地,我們也可以定義出通過原點的複迴歸式:
$$\tilde y=\tilde\beta_1x_1+\tilde\beta_2x_2+ \cdots +\tilde\beta_kx_k \tag{36}\label{eq36}$$
當 $x_1=x_2= \cdots =x_k=0$ 時,則預測值為 $0$。此時,$\tilde\beta_i \ \forall i$ 稱為 $y$ 對 $x_i \ \forall i$ 通過原點之 OLS 估計。
### 3.3 OLS 估計式之期望值
接著我們探討母體模型中用 OLS 來估計參數之統計特性,此節先討論 OLS 估計式性期望值。我們特別陳述和討論四個假設(事實上這些是由簡單迴歸模型之四個假設推廣而來),在這些假設下,<font color='#f00'> OLS 估計式是母體參數的不偏估計式</font>。當某重要變數由迴歸中遺漏時,我們亦得出 OLS 有偏誤的結果。
:::warning
MLR.1. 參數線性:母體模型可寫為
$$y=\beta_0+\beta_1x_1+\beta_2x_2+ \cdots +\beta_kx_k+u \tag{37}\label{eq37}$$
$\eqref{eq37}$ 陳述**母體模型(population model)**,有時也稱為**真實模型(true model)**。是為了允許我們估計的模型可能和 $\eqref{eq37}$ 有不同的可能性(例如 $y$ 取自然對數等等),不過該模型想強調的是<font color = '#f00'> 參數 $\beta_i \ \forall i$ 是線性的</font>。
MLR.2. 隨機抽樣:由假設 MLR.1 之母體模型,有 $n$ 個觀察值之隨機樣本,$\{(x_{i1}, x_{i2}, \cdots, x_{ik}, y_i): i=1, 2, \cdots, n\}$
MLR.3. 無完全共線性:在樣本中沒有自變數是常數,且在自變數之間沒有確切的線性關係。
MLR.4. 條件平均為 $0$:意即 $E(u|x_1, x_2, \cdots, x_k)=0$
:::
並且由以上 MLR.1 ~ MLR.4 之假設,我們可以證明 OLS 的不偏性(課本 P.144)。即 ==**定理3.1**==:
:::success
==**定理3.1**==
在假設 MLR.1 ~ MLR.4 之下,對任意母體參數 $\beta_j$:
$$E(\hat\beta_j)=\beta_j, j=0, 1, \cdots, k \tag{38}\label{eq38}$$
也就是說,OLS 估計式為母體參數之不偏估計式。
:::
#### 3.3a 將不相干的變數加入迴歸模型
在複迴歸分析中一個可以很快加以討論的議題是**加入一個不相干的變數(inclusion of irrelavant variable)** 或是**過度設定模型(overspecifying the model)**。這代表有一個(或多個)<font color='#f00'>即使在母體中它對 $y$ 沒有偏效果(亦即其 $\beta=0$)的自變數被代到模型中</font>。
相反地,若我們遺漏了事實上屬於真實模型的變數。這通常稱為**排除相干變數(excluding a relavant variable)** 或**模型設定不足(underspecifying the model)**。
#### 3.3b 遺漏變數的偏誤:簡單的情況
上述我們提到了可能發生遺漏變數的情況,我們可以分成簡單的情況及一般的情況,而在此只針對簡單的情況解釋,一般的情況可於課本 P.145 得到。
推導出由遺漏重要變數所產生的偏誤是**錯誤設定分析(misspecification analysis)** 的一個例子。我們假設真實母體模型有兩個解釋變數和一個誤差項:
$$y=\beta_0+\beta_1x_1+\beta_2x_2+u \tag{39}\label{eq39}$$
不過通常由於某個變數不可觀察(例如在模型 $\text{wage}=\beta_0+\beta_1\text{educ}+\beta_2\text{abil}+u$ 中,能力項即不可觀察。)我們可能轉而估計模型:
$$\tilde y=\tilde\beta_0+\tilde\beta_1x_1 \tag{40}\label{eq40}$$
由 $\eqref{eq34}$ 我們已經有 $\tilde\beta_1=\hat\beta_1+\hat\beta_2\tilde\delta_1$ 的關係。其中 $\hat\beta_1$ 和 $\hat\beta_2$ 為 $y_i$ 對 $x_{i1}, x_{i2}$ 的複迴歸斜率估計式且 $\tilde\delta_1$ 為 $x_{i2}$ 對 $x_{i1}$ 的簡單迴歸斜率。
因此可以整理出以下表格:

除了偏誤的方向,偏誤的大小也很重要。不管符號的正負,若偏誤很小,我們也不必加以特別注意。
### 3.4 OLS 估計式之變異數
如果簡單迴歸時,我們希望有同質變異性之假設,使得公式簡化,以及較重要的是:OLS 會擁有重要的效率性特性。
:::warning
MLR.5. 在任意給定的解釋變數值下,誤差項 $u$ 有相同的變異數,意即:
$$\text{Var}(u|\textbf{x})=\sigma^2$$
往後將以符號 $\textbf{x}$ 表示 $(x_1, \cdots, x_k)$
:::
其中,假設 MLR.1 ~ MLR.5 對橫斷面迴歸而言合稱**高斯馬可夫假設(Gauss-Markov assumptions)**。
現在我們可以證明條件於自變數樣本值的 $\hat\beta_j$ 之變異數(見課本 P.145),即 ==**定理3.2**==。
:::success
==**定理3.2**==
在高斯馬可夫假設之下,且條件於自變數樣本值,對於所有 $j$:
$$\text{Var}(\hat\beta_j)=\dfrac{\sigma^2}{SST_j(1-R_j^2)} \tag{41}\label{eq41}$$
其中 $SST_j=\displaystyle \sum_{i=1}^n (x_{ij}-\bar x_j)^2$ 為 $x_j$ 總樣本變異,且 $R_j^2$ 為 $x_j$ 對所有其他自變數迴歸(有截距項)之 $R^2$。
:::
#### 3.4a OLS 變異數之組成要素:多元共線性
影響 $\text{Var}(\hat\beta_j)$ 的因素有三個,以下針對三個因素討論:
1. $\sigma^2$:
* 可發現較大的 $\sigma^2$ 會使得 $\text{Var}(\hat\beta_j)$ 較大,不過由於 $\sigma^2$ 為母體特色,因此和樣本大小無關。
2. $SST_j$:
* 可發現當 $x_j$ 之總變異愈大,則 $SST_j$ 愈小,則 $\text{Var}(\hat\beta_j)$ 愈大。事實上 $SST_j$ 隨著樣本數量 $n$ 變大而變大,大致上為 $n$ 之線性函數,所以 $SST_j$ 是可以無限制的增加的。但是注意當 $SST_j \to 0$ 時並沒有違反 MLR.3 (無完全共線性),除非 $SST_j=0$ 才會違反 MLR.3。
3. $R_j^2$:
* 此以只有兩個解釋變數的情況說明:$y=\beta_0+\beta_1x_1+\beta_2x_2+u$。則 $\text{Var}(\hat\beta_1)=\frac{\sigma^2}{SST_1(1-R_1^2)}$。其中 $R_1^2$ 為 $x_1$ 對 $x_2$ 簡單迴歸之 $R^2$。若 $x_1$ 和 $x_2$ 高度相關,則 $R_1^2 \to 1$,那麼 $\text{Var}(\hat\beta_1) \to \infty$。此關係可見下圖:

威斯康辛大學有名的計量學者 Arthur Goldberger 對多元共線性的迷思做了反應,並創造了一個新的名詞**微數缺測性(Micronumerosity)**,他定義為「小樣本的問題」。
有些針對個別迴歸係數的統計量比較有幫助,但仍可能被誤用,其中最常用的為直接從 $\eqref{eq41}$ 可求出的**變異數膨脹因子(Variance Inflation Factor, VIF)**,其定義為 $VIF_j=1/(1-R_j^2)$,因此 $\eqref{eq41}$ 也可被寫為
$$\text{Var}(\hat\beta_j)=\dfrac{\sigma^2}{SST_j}\cdot VIF_j$$
例如:人們可能會選擇 $VIF=10$ 作為一個臨界值。若 $VIF_j>10$(也就是 $R_j^2>0.9$),則認定在估計 $\beta_j$ 時多元共線性是個問題。
是否在一迴歸模型中加入某特定變數,可以透過分析偏誤和變異數的取捨關係來做決定。現在我們來分析它們的 OLS 估計式變異數之比較。
#### 3.4b 錯誤設定模型之變異數
將真實母體模型(符合 Gauss-Markov assumptions)寫為:
$$y=\beta_0+\beta_1x_1+\beta_2x_2+u$$
我們現在考慮 $\beta_1$ 兩個估計式,分別為以下兩式:
$$\hat y=\hat\beta_0+\hat\beta_1x_1+\hat\beta_2x_2 \tag{42}\label{eq42}$$
$$\tilde y=\tilde\beta_0+\tilde\beta_1x_1 \tag{43}\label{eq43}$$
其中 $\eqref{eq42}$ 是將 $x_2$ 和 $x_1$ 代入迴歸模型。而 $\eqref{eq43}$ 是透過模型中遺漏 $x_2$ 只跑 $y$ 對 $x_1$ 簡單迴歸而來。
除非 $x_1$ 和 $x_2$ 之間無關,否則 $\tilde\beta_1$ 必有偏誤(根據 $\eqref{eq34}$)。另一方面,若偏誤是我們唯一判斷的標準,則在任何 $\beta_2$ 值之下(包括 $\beta_2=0$)$\hat\beta_1$ 優於 $\tilde\beta_1$。
但是若我們將變異數也考慮進來,則上述的結論則不一定正確。
我們知道根據 $\eqref{eq41}$ 可得
$$\text{Var}(\hat\beta_1)=\dfrac{\sigma^2}{SST_1(1-R_1^2)} \tag{44}\label{eq44}$$
其中 $SST_1$ 為 $x_1$ 之總變異。
根據第二章的 $\eqref{eq16}$ 可得下式:
$$\text{Var}(\tilde\beta_1)=\dfrac{\sigma^2}{SST_1} \tag{45}\label{eq45}$$
觀察 $\eqref{eq44}$ 和 $\eqref{eq45}$ 可發現:<font colro='#f00'>只要 $R_1^2 \ne 0$($x_1$ 和 $x_2$ 並非無關),則<font color='#f00'> $\text{Var}(\tilde\beta_1) < \text{Var}(\hat\beta_1)$</font>。因此假定 $x_1$ 和 $x_2$ 並非無關,我們可得以下結論:
1. 當 $\beta_2 \ne 0$ 時,$\tilde\beta_1$ 有偏誤;$\hat\beta_1$ 不偏,且 $\text{Var}(\tilde\beta_1) < \text{Var}(\hat\beta_1)$。
2. 當 $\beta_2=0$ 時,$\tilde\beta_1$ 和 $\hat\beta_1$ 均不偏,且 $\text{Var}(\tilde\beta_1) < \text{Var}(\hat\beta_1)$。
所以顯然在 $x_2$ 對 $y$ 無偏效果時,選擇 $\tilde\beta_1$ 是較好的。不過當存在偏效果時情況將較為複雜。(*事實上,這個狀況下會選擇 $\hat\beta_1$*)
#### 3.4c 估計 $\sigma^2$:OLS 估計式的標準誤