# 簡單線性迴歸
{%hackmd @themes/orangeheart %}
###### tags: `Stats`

某公司最近推出了新產品,公司的行銷部門為了要讓銷量增加,因此對該國家近200個市場進行調查,評估將商品投放到各種媒體:電視、廣播或報紙等是否會增加銷量。以下為調查的資料:
[Advertising.csv](%E7%B0%A1%E5%96%AE%E7%B7%9A%E6%80%A7%E8%BF%B4%E6%AD%B8%20c77b2/Advertising.csv)
```r
Dat <- read.csv("Advertising.csv")
plot(Dat$TV, Dat$sales,pch=4,cex=2)
```

上面的**散佈圖**(scatter plot)無法良好解釋投放在電視上與銷量之間的關係(儘管我們可以用肉眼看出兩個變數彼此之間存在正相關);我們的目標是建立一個模型能夠預測投放至電視上對於銷量的影響,進而能夠協助公司調整對於電視廣告的預算。
## 簡單線性迴歸的基本概念
- $X$:獨立/解釋變數
- $Y$:被解釋變數
- $\mathbf{\varepsilon}$:誤差項
我們可以考慮一個簡單的線性方程式:
$$
Y = f(X)+ \varepsilon
$$
其中 $f(\cdot)$ 稱為成本函數。但顯然我們不清楚成本函數到底長什麼樣子,但或許我們可以假設 $f(\cdot)$ 是一個線性函數,長得像是:
$$
Y = \beta_0 + \beta_1X + \varepsilon.
$$
其中 $\beta_0+\beta_1X$ 被稱為**系統性的部分(systematic part)**,而 $\mathbf{\varepsilon}$ 則被稱為誤差項。根據上述的模型,我們可以依據我們的資料,也就是給定 $\{y_i, x_i\} ^n_{i=1}$ 並帶入模型中,得到:
$$
y_i = \beta_0 + \beta_1x_i + \varepsilon_i.
$$
但為什麼還會有誤差項 $\mathbf{\varepsilon}$ 呢?當然我們都會希望模型長的像是:
$$
Y = \beta_0 + \beta_1X
$$
但看看下面的圖或許就能夠了解為什麼沒辦法忽略誤差項了。

從圖形上解釋,可以看到每筆資料都與理論線有些許的差距,這就是我們無法忽略誤差項的原因之一。若以數學的角度來看的話,因為我們將每筆資料帶入模型中會得到 $n$ 個方程式,當然無法找出一條通過所有實現值的直線;此外,就經濟意涵而言,投放到電視僅能解釋其對銷量影響的一小部分,仍有其他未被我們考慮到的因素,例如公司規模、消費者習慣等等。回到模型本身,誤差項 $\mathbf{\varepsilon}$ 等於 $Y-\beta_0 - \beta_1X$,若將資料帶入就變成 $y_1-\beta_0 - \beta_1x_1$,有個想法是,如果每個誤差項的總和為 $0$,是否就能解決上述的問題?也就是
$$
\sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)=0 ?
$$
例如
$$
\begin{array}{cccccc}\hline X & 1 & 2 & 3 & 4 & 5 \\\hline Y & -1 & -1 & 0 & 1 & 1 \\\hline\end{array}
$$
但我們可以找到兩條線描述它們:$Y = -1.8 + 0.6X$ 與 $Y = 1.8 - 0.6X$。那麼哪個模型才是正確的呢?
- $f(X) = -1.8+0.6X$
$$
\begin{array}{llllll}\hline X & 1 & 2 & 3 & 4 & 5 \\\hline Y & -1 & -1 & 0 & 1 & 1 \\f(X) & -1.2 & -0.6 & 0 & 0.6 & 1.2 \\Y-f(X) & 0.2 & -0.4 & 0 & 0.4 & -0.2 \\\hline\end{array}
$$
- $f(X) = 1.8-0.6X$
$$
\begin{array}{llllll}
\hline X & 1 & 2 & 3 & 4 & 5 \\
\hline Y & -1 & -1 & 0 & 1 & 1 \\
f(X) & 1.2 & 0.6 & 0 & -0.6 & -1.2 \\
Y-f(X) & -2.2 & -1.6 & 0 & 1.6 & 2.2 \\
\hline
\end{array}
$$
可以看到,這兩個模型都能夠滿足上面的想法,就是讓誤差項的總和等於 $0$,因為誤差項的值會有正有負,導致兩者相消而變成 $0$。
## 找到參數的方法:最小絕對離差法與最小平方法
如果我們能夠找到一個恆正的函數,即
$$
\rho:\mathbb{R}\to \mathbb{R}^{+}
$$
其中 $\rho(z) \geq 0, \; \forall z \in \mathbb{R}$,並找到其最小值,
$$
\min _{\beta_{0}, \beta_{1}} \sum_{i=1}^{n} \rho\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)
$$
或許就能夠解決這個問題。
### 最小絕對離差法
首先,我們能夠想到第一個能夠讓所有數字變成正數的函數就是絕對值,因此我們令 $\rho(z) = |z|$,並找出其參數:
$$
\{\hat{\beta}_{0, L A D}, \hat{\beta}_{1, L A D}\}=\arg \min _{\beta_{0}, \beta_{1}} \sum_{i=1}^{n}\left|y_{i}-\beta_{0}-\beta_{1} x_{i}\right| .
$$
其中 $\{\hat{\beta}_{0, L A D}, \hat{\beta}_{1, L A D}\}$ 稱作最小絕對離差估計式。
### 最小平方法:推導利用一階微分
另一個能夠讓所有數字成為正數的函數則是二次函數,我們令 $\rho(z) = z^2$,則
$$
Q\left(\beta_{0}, \beta_{1}\right)=\sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)^{2}
$$
因此我們便可以找出最小平方估計式的參數值:
$$
\begin{aligned}\{\hat{\beta}_{0, O L S}, \hat{\beta}_{1, O L S}\} &=\arg \min _{\beta_{0}, \beta_{1}} Q\left(\beta_{0}, \beta_{1}\right) \\&=\arg \min _{\beta_{0}, \beta_{1}} \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)^{2}\end{aligned}
$$
由於二次函數為一個連續且可微的函數,我們可以對上式取一階條件,便可得到最小值:
$$
\begin{aligned}\frac{\partial}{\partial \beta_{0}} Q\left(\beta_{0}, \beta_{1}\right) &=-2 \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)=0 \\\frac{\partial}{\partial \beta_{1}} Q\left(\beta_{0}, \beta_{1}\right) &=-2 \sum_{i=1}^{n} x_{i}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)=0\end{aligned}
$$
上式 $(1)$ 可得到 $\hat{\beta_0}$:
$$
\hat{\beta}_{0}=\frac{1}{n} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{1} x_{i}\right)=\bar{y}-\hat{\beta}_{1} \bar{x}
$$
而上式 $(2) - \bar{x}(1)$ 可得
$$
\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=0
$$
利用 $\hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1} \bar{x}$ 的性質,
$$
\begin{aligned}&\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left[\left(y_{i}-\bar{y}\right)-\hat{\beta}_{1}\left(x_{i}-\bar{x}\right)\right]=0\\&\Rightarrow\hat{\beta}_{1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right) \\&\Rightarrow \hat{\beta}_{1}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}.\end{aligned}
$$
其中 $\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}$ 必須大於 $0$,也就是 $\left\{x_{i}: i=1,2, \ldots, n\right\}$ **不能夠完全相同**。而注意到, $\hat{\beta_1}$ 可以寫成
$$
\hat{\beta_1} = \rho_{X,Y} \cdot \frac{\sigma_{X}}{\sigma_{Y}}
$$
這是怎麼來的呢?我們可以把剛剛算出的 $\hat{\beta_1}$ 計算式上下同除以 $n-1$,得到
$$
\hat{\beta_1} = \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right) / n-1}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} / n-1}
$$
會發現分子部分等於 $X$ 與 $Y$ 的共變異數(covariance),即 $\operatorname{cov}(X,Y)$,而分母部份則是 $\sigma_X$。我們可以將其代換成 $\rho$ 與 $\sigma$ 的形式,其更可以進一步寫成
$$
\begin{aligned}
\hat{\beta_1} =& \; \frac{\operatorname{cov}(X,Y)}{\sigma^2_{X}}\\
=& \; \frac{\operatorname{cov}(X,Y)}{\sigma^2_{X}} \cdot \frac{\sigma_{Y}}{\sigma_{Y}}\\
=& \; \frac{\operatorname{cov}(X,Y)}{\sigma_{X}\sigma_{Y}} \cdot \frac{\sigma_{Y}}{\sigma_{X}}\\
=& \; \rho_{X,Y} \cdot \frac{\sigma_{X}}{\sigma_{Y}}
\end{aligned}
$$
### 最小平方法推導:利用 Cramer’s Rule
$$
\begin{aligned}&\arg \min _{\beta_{0}, \beta_{1}} \sum_{i=1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)^{2}\end{aligned}
$$
對 $\beta_0$ 與 $\beta_1$ 取一階條件後,可得到
$$
\begin{aligned}&\sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=\sum_{i=1}^{n} \hat{\epsilon}_{i}=0 \\&\sum_{i=1}^{n} x_{i}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)=\sum_{i=1}^{n} x_{i} \hat{\epsilon}_{i}=0\end{aligned}
$$
稱為正規方程組,將其改寫為
$$
n\beta_0 + \sum_{i=1}^{n}x_i \beta_1= \sum_{i=1}^{n}y_i
$$
以及
$$
\sum_{i=1}^{n}x_i \beta_0 + \sum_{i=1}^{n}x_i^2 \beta_1= \sum_{i=1}^{n}x_iy_i
$$
改寫成矩陣的形式
$$
\begin{bmatrix} n&\sum_{i=1}^{n}x_i\\ \sum_{i=1}^{n}x_i & \sum_{i=1}^{n}x_i^2\end{bmatrix} \begin{bmatrix} \beta_0\\\beta_1\end{bmatrix} = \begin{bmatrix} \sum_{i=1}^{n}y_i\\\sum_{i=1}^{n}x_iy_i \end{bmatrix}\quad
$$
利用 Cramer’s rule,可得
$$
\begin{aligned}\hat{\beta_1} =& \frac{\begin{vmatrix} n&\sum_{i=1}^{n}y_i\\ \sum_{i=1}^{n}x_i & \sum_{i=1}^{n}x_iy_i \end{vmatrix}}{\begin{vmatrix} n&\sum_{i=1}^{n}x_i\\ \sum_{i=1}^{n}x_i & \sum_{i=1}^{n}x_i^2\end{vmatrix}}\\=&\frac{n\sum_{i=1}^{n}x_iy_i- \sum_{i=1}^{n}x_iy_i}{n\sum_{i=1}^{n}x_i^2-\left(\sum_{i=1}^{n}x_i^2\right)} \\ =& \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}\end{aligned}
$$
並可得 $\hat{\beta_0} = \overline{y_i} - \hat{\beta_1} \overline{x}$。故我們可以做出以下小結論:
- 根據正規方程組得動差條件:
- $\sum^n_{i=1}\hat{u_i} = 0$
- $\sum^n_{i=1}x_i\hat{u_i} = 0$
- 根據 Cramer's rule 得參數:
- $\hat{\beta_0} = \overline{y} - \hat{\beta_1}\overline{x}$
- $\hat{\beta_1} = \rho_{X,Y} \cdot \frac{\sigma_Y}{\sigma_X}$
注意到,我們假設誤差項為常態的情況下,參數 $\beta_1$ 有以下的重要性質:
$$
\begin{aligned}\hat{\beta_1} \sim&\; N\left(\beta_1, \frac{\sigma^2}{\sum^n_{i=1}\left(x_i-\bar{x}\right)^2}\right) \\ \hat{\beta_0} \sim& \; N(\beta_0, \sigma^2[\frac{1}{n}+ \frac{\bar{x}^2}{\sum^n_{i=1}\left(x_i-\bar{x}\right)^2}]) \end{aligned}
$$
若要證明上述性質,我們可以假設一個常數 $\operatorname{d}_i$,其定義為:
$$
\operatorname{d}_i = \frac{(x_i - \bar{x})}{\sum^n_{i=1}\left(x_i-\bar{x}\right)^2}
$$
我們可以將參數 $\beta_1$ 改寫為
$$
\hat{\beta_1} = \frac{\sum^n_{i=1}\left(x_i-\bar{x}\right)\left(y_i-\bar{x}\right)}{\sum^n_{i=1}\left(x_i-\bar{x}\right)^2} = \frac{\sum^n_{i=1}\left(x_i-\bar{x}\right)y_i}{\sum^n_{i=1}\left(x_i-\bar{x}\right)^2} = \sum^n_{i=1}\frac{{\left(x_i-\bar{x}\right)}y_i}{{\sum^n_{i=1}\left(x_i-\bar{x}\right)^2}}
$$
其中紅色標記的部分為常數 $\operatorname{d}$,故可改寫為
$$
\hat{\beta_1} = \sum^n_{i=1}\operatorname{d}_iy_i = \sum^n_{i=1}\operatorname{d}_i(\beta_0+\beta_1x_i+\varepsilon_i)
$$
而常數 $\operatorname{d}_i$ 有下列性質:
$$
\begin{aligned}&\sum^n_{i=1} \frac{(x_i - \bar{x})}{\sum^n_{i=1}\left(x_i-\bar{x}\right)^2} = 0 \\ &\sum^n_{i=1} \frac{(x_i - \bar{x})x_i}{\sum^n_{i=1}\left(x_i-\bar{x}\right)^2} \frac{\sum^n_{i=1}\left(x_i-\bar{x}\right)\left(x_i-\bar{x}\right)}{\sum^n_{i=1}\left(x_i-\bar{x}\right)^2} = 1 \\ &\sum^n_{i=1}\left[\frac{(x_i - \bar{x})}{\sum^n_{i=1}\left(x_i-\bar{x}\right)^2}\right]^2 = \sum^n_{i=1}\frac{(x_i - \bar{x})^2}{\left[\sum^n_{i=1}\left(x_i-\bar{x}\right)^2\right]} = \frac{1}{\sum^n_{i=1}(x_i-\bar{x})}\end{aligned}
$$
由於 $\hat{\beta_1} = \sum^n_{i=1}\operatorname{d}_i(\beta_0+\beta_1x_i+\varepsilon_i)$,其可以進一步寫成
$$
\hat{\beta_1} = \beta_0\sum^n_{i=1}\operatorname{d}_i + \beta_1 \sum^n_{i=1}\operatorname{d}_ix_i + \sum^n_{i=1}\operatorname{d}_i\varepsilon_i = 0 + \beta_1 + \sum^n_{i=1}\operatorname{d}_i\varepsilon_i
$$
對其取期望值與變異數,得到:
$$
\begin{aligned}\mathbb{E}(\hat{\beta_1}) =&\; \beta_1+\mathbb{E}(\sum^n_{i=1}\operatorname{d}_i\varepsilon_i) = \beta_1+{\sum^n_{i=1}\operatorname{d}_i\mathbb{E}(\varepsilon_i)}= \beta_1 \\ \operatorname{var}(\hat{\beta_1})=&\;\operatorname{var}(\beta_1+\sum^n_{i=1}\operatorname{d}_i\varepsilon_i) = \sum^n_{i=1}\operatorname{d}_i^2\operatorname{var}(\varepsilon_i) = \sum^n_{i=1}\operatorname{d}_i^2 \cdot \sigma^2 = \frac{\sigma^2}{\sum^n_{i=1}(x_i-\bar{x})}\end{aligned}
$$
因此可以得出 $\hat{\beta_1}$ 的分配。回到上面的例子
$$
\begin{array}{cccccc}\hline X & 1 & 2 & 3 & 4 & 5 \\\hline Y & -1 & -1 & 0 & 1 & 1 \\\hline\end{array}
$$
我們可以得到 $\bar{x} = 3$,$\bar{y} = 0$,
$$
\begin{aligned}
&\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}=10, \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)=6 \\
&\Rightarrow \hat{\beta}_{1}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}=0.6
\end{aligned}
$$
又,
$$
\hat{\beta}_{0}=\bar{y}-\hat{\beta}_{1} \bar{x}=-1.8
$$
我們也可以利用 `lm`(代表 linear model)找出其迴歸式:
```r
X <- c(1, 2, 3, 4, 5)
Y <- c(-1, -1, 0, 1, 1)
lm(Y~X)
## Call:
## lm(formula = Y ~ X)
## Coefficients:
## (Intercept) X
## -1.8 0.6
```
既然了解了最小平方法的基本性質,此時我們就可以來找出公司投放廣告在電視上對於銷量影響的迴歸式:
```r
Dat <- read.csv("Advertising.csv")
lm(sales~TV, data=Dat)
##
## Call:
## lm(formula = sales ~ TV, data = Dat)
##
## Coefficients:
## (Intercept) TV
## 7.03259 0.04754
```
## 量測模型的解釋力:配適度
由於殘差(residual)可以表達為 $\hat{\varepsilon_i} = y_i - \hat{y_i}$,且 $\sum_{i=1}^{n} \hat{y}_{i} \hat{\epsilon}_{i}=0$,可得到
$$
\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right) \hat{\epsilon}_{i}=0
$$
而每筆資料 $y_i$ 與其樣本平均 $\bar{y}$ 兩者之差的和可以拆分為:
$$
\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}+\hat{\epsilon}_{i}\right)^{2}=\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}+\sum_{i=1}^{n} \hat{\epsilon}_{i}^{2}
$$
- 總變異(Total sum of squares, $SST$):$\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}$
- 不可解釋變異(Residual sum of squares, $SSR$):$\sum^n_{i=1} \hat{\epsilon}_{i}^{2}$
- 可解釋變異(Explained sum of squares, $SSE$):$\sum_{i=1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2}$
[^1]
或是我們可以透過總變異(total variation)的方式進行解釋,[^2] 也就是有多少被解釋變數($Y$)能夠被迴歸模型解釋。因此我們可以定義下列變數:
$$
\begin{aligned}
SST =& \sum_{i=1}^{n}\left(Y_i - \bar{Y}\right)\\
SSE =& \sum_{i=1}^{n}\left(\hat{Y_i} - \bar{Y}\right)\\
SSR =& \sum_{i=1}^{n}\left(Y_i - \hat{Y_i}\right) = \sum_{i=1}^{n} \hat{\epsilon}_{i}^{2}
\end{aligned}
$$
則我們可以將總變異拆分為
$$
\begin{aligned}
SST =& \sum_{i=1}^{n}\left(Y_i - \bar{Y}\right)\\
=& \sum_{i=1}^{n}\left[\left(Y_i - \hat{Y_i}\right) + \left(\hat{Y} - \bar{Y_i}\right) \right]^2\\
=& \sum_{i=1}^{n}\left(Y_i - \hat{Y_i}\right)^2 + \sum_{i=1}^{n}\left(\hat{Y} - \bar{Y_i}\right)^2 + 2\sum_{i=1}^{n}\left(Y_i - \hat{Y_i}\right)\left(\hat{Y} - \bar{Y_i}\right)\\
=&\; SSR + SSE + 2\sum_{i=1}^{n}\hat{\varepsilon_i}\left(\hat{Y_i} - \bar{Y}\right)
\end{aligned}
$$
而根據上述計算出的正規方程式,
$$
\sum_{i=1}^{n}\hat{\varepsilon_i}Y_i = 0 \qquad \bar{Y}\sum_{i=1}^{n}\hat{\varepsilon_i} = 0
$$
因此可得到 $SST=SSR+SSE$。若我們要量測模型是否能夠良好解釋兩變數之間的關係,我們便可透過**比例的方式**,即可解釋變異佔總變異多少,便代表解釋的程度,
$$
0\leq R^2 \equiv \frac{SSE}{SST} = 1 - \frac{SSR}{SST}\leq1
$$
$R^2$ 被稱為**判定係數(coefficient of determination)**,用來判斷模型的配適度。以上述的例子應用:
$$
\begin{array}{cccccc}\hline X & 1 & 2 & 3 & 4 & 5 \\\hline Y & -1 & -1 & 0 & 1 & 1 \\\hline\end{array}
$$
個別殘差分別為$0.2$、$-0.4$、$0$、$0.4$ 以及 $-0.2$,
$$
\begin{aligned}&\sum_{i=1}^{5} \hat{\epsilon}_{i}^{2}=0.04+0.16+0+0.16+0.04=0.4 \\&\sum_{i=1}^{5}\left(y_{i}-\bar{y}\right)^{2}=1+1+0+1+1=4 .\end{aligned}
$$
因此配適度為
$$
R^{2}=1-0.4 / 4=0.9
$$
我們也可以用 R 進行分析:
```r
X <- c(1, 2, 3, 4, 5)
Y <- c(-1, -1, 0, 1, 1)
summary(lm(Y~X))
##
## Call:
## lm(formula = Y ~ X)
##
## Residuals:
## 1 2 3 4 5
## 2.000e-01 -4.000e-01 -1.943e-16 4.000e-01 -2.000e-01
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.8000 0.3830 -4.700 0.0182 *
## X 0.6000 0.1155 5.196 0.0138 *
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 0.3651 on 3 degrees of freedom
## Multiple R-squared: 0.9, Adjusted R-squared: 0.8667
## F-statistic: 27 on 1 and 3 DF, p-value: 0.01385
```
節錄管中閔《統計學:觀念與方法》第414頁的例子,下表是10名相同身高的男子資料:
| 體重(公斤)|運動量(小時)| 年齡|
|-----|-----|-----|
|60|10|24|
|63|12|27|
|70|10|33|
|75|0|35|
|80|2|41|
|72|8|36|
|90|5|38|
|67|6|28|
|69|7|32|
|82|3|38|
我們建構出應變數 $Y$,運動量和年齡為解釋變數 $X_1$ 與 $X_2$ 的迴歸模型:
$$
Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \varepsilon_i
$$
我們可以利用 $\verb|R|$ 計算出估計式的結果:
```r
# Create a matrix of Y, which stands for weight
Y <- c(60, 63, 70, 75, 80, 72, 90, 67, 69, 82)
# Create a matrix of X, which stands for workout duration and age respectively
beta0 <- rep(1, length(Y))
workout <- c(10, 12, 10, 0, 2, 8, 5, 6, 7, 3)
age <- c(24, 27, 33, 35, 41, 36, 38, 28, 32, 38)
X <- cbind(beta0, workout, age)
# Calculate and show the result by using solve() and lm()
beta <- solve(t(X) %*% X) %*% (t(X) %*% Y)
model = lm(formula = Y~0+X)
beta
## [,1]
## beta0 29.8367490
## workout -0.2709453
## age 1.3454881
summary(model)
## Call:
## lm(formula = Y ~ 0 + X)
## Residuals:
## Min 1Q Median 3Q Max
## -4.4599 -1.9790 -0.7210 0.9817 10.3894
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## Xbeta0 29.8367 16.1563 1.847 0.1073
## Xworkout -0.2709 0.5715 -0.474 0.6499
## Xage 1.3455 0.4031 3.338 0.0125 *
## ---
## Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
## Residual standard error: 4.777 on 7 degrees of freedom
## Multiple R-squared: 0.997, Adjusted R-squared: 0.9958
## F-statistic: 782.8 on 3 and 7 DF, p-value: 3.327e-09
```
## Gauss-Markov 定理
此定理最基本的假設就是認為,透過OLS估計的估計式必為BLUE,也就是
$$
\operatorname{var}(\hat{\beta})\leq \operatorname{var}(\tilde{\beta})
$$
其中 $\operatorname{var}(\hat{\beta})$ 為我們透過OLS估計出的估計式,$\operatorname{var}(\tilde{\beta})$ 則代表其他具有不偏性的估計式。而Gauss-Markov定理更進一步假設參數必須為**線性模型(linear in parameters)**,即
$$
Y = \beta_0 + \beta_1 X + \varepsilon.
$$
為了估計母體模型,我們隨機抽 $n$ 組**隨機樣本** $\{x_i, y_i\}^n_{i=1}$,得到下列模型,因此其具有**誤差項無序列相關:$\operatorname{cov}(\varepsilon_i, \varepsilon_j|X_i, X_j)$**的性質。
$$
y_i = \beta_0 + \beta_1x_i + \varepsilon_i.
$$
同時,此定理要求解釋變數 $x_i$ 具有變異,即
$$
\sum^n_{i=1}\left(x_i - \bar{x}\right)^2 > 0
$$
最後,誤差項具有**外生性(exogeneity)**及其變異具有**同質性(homoskedasticity):**
$$
\begin{aligned}\mathbb{E}(\varepsilon|x) =& \; 0\\ \operatorname{var}(\varepsilon|x) =& \; \sigma^2 \end{aligned}
$$
## 解釋變數$X$為二元變數(dummy variable)
若母體迴歸方程式為$Y =\beta_0+\beta_1 X$,其中 $X$ 為二元變數,則參數之OLS估計式為:
$$
\begin{aligned}\hat{\beta_1} =&\; \bar{Y_1} - \bar{Y_0} \\ \hat{\beta_0} =&\; \bar{Y_0}\end{aligned}
$$
二元變數又稱為虛擬變數,其值非0即1,例如
$$
X= \begin{cases}1, \;男生\\0, \;女生\end{cases}
$$
則
$$
\begin{aligned}\mathbb{E}(Y|X=1)=&\;\mathbb{E}(\beta_0+\beta_1X+\varepsilon|X=1)\\=&\;\beta_0+\beta_1\\\end{aligned}
$$
$$
\begin{aligned}\mathbb{E}(Y|X=0)=&\;\mathbb{E}(\beta_0+\beta_1X+\varepsilon|X=0)\\=&\;\beta_0\\\end{aligned}
$$
其估計式推導以**類比估計法**,即透過與母體性質相對應的方式寫出,較為方便與直觀。
$$
\begin{aligned}\bar{Y_1} =&\;\hat{\beta_0}+\hat{\beta_1}\Rightarrow \hat{\beta_1} = \bar{Y_1} - \bar{Y_0}\end{aligned}
$$
$$
\begin{aligned}\bar{Y_0} =&\;\hat{\beta_0}\end{aligned}
$$
例如給定薪資對性別的迴歸方程式為
$$
W \hat{a} g e=40000+5000 M \hat{a} l e
$$
即代表以平均來說,男性的平均薪資為$4000 + 5000 \times 1 =9000$ 單位元;女性的平均薪資為 $4000 + 5000 \times 0 = 4000$ 單位元。
## 無截距模型
若模型設定預設截距項係數為0,則模型以及參數估計式為
$$
\begin{aligned}&Y_{i}=\beta X_{i}+\varepsilon_{i} \\&\hat{\beta}=\frac{\sum_{i=1}^{n} X_{i} Y_{i}}{\sum_{i=1}^{n} X_{i}^{2}}\end{aligned}
$$
無截距模型又稱**去除平均模型**,若模型設定為無截距,通常具有經濟意涵。無截距模型的正規方程組只有一條方程式,即
$$
\min \sum^n_{i=1} \hat{\varepsilon _i}^2 = \min \sum^n_{i=1}\left(Y_i -\hat{\beta}X_i\right)^2
$$
而根據一階條件,
$$
-2 \sum^n_{i=1} \left(Y_i -\hat{\beta}X_i\right)= 0 \Rightarrow \sum_{i=1}^{n} X_{i} \hat{\varepsilon}_{i}=0.
$$
故另一條 $\sum_{i=1}^{n}\hat{\varepsilon}_{i}=0$ 不一定為0。無截距模型的判定係數 $R^2$ 無任何意義,因其 $𝑆𝑆𝑇 \neq 𝑆𝑆𝑅 + 𝑆𝑆𝐸$,因等號成立時之條件為兩條正規方程組皆成立。判定係數 $R^2$ 不一定介於0到1之間,此時可採**非置中判定係數(non‐centered $R^2$)** 判斷模型配適度。
## 純截距模型
若模型設定為只放截距項,即無任何解釋變數,則模型以及參數估計式為
$$
\begin{gathered}Y_{i}=\beta_0+\varepsilon_{i} \\\hat{\beta_0}=\frac{\sum_{i=1}^{n} Y_{i}}{n}=\bar{Y}\end{gathered}
$$
若模型設定為純截距,通常具有經濟意涵,即解釋變數不具任何解釋能力。純截距模型常考參數估計式 $\hat{\beta_0}$ 的變異數,即 $\operatorname{var}(\beta_0) = \operatorname{var}(\bar{Y})$。
[^1]: Wooldridge, Jeffrey M. [Introductory econometrics: A modern approach](https://economics.ut.ac.ir/documents/3030266/14100645/Jeffrey_M._Wooldridge_Introductory_Econometrics_A_Modern_Approach__2012.pdf). Cengage learning, 2015.
[^2]:節錄自陳旭昇[《機率與統計推論》](https://www.books.com.tw/products/0010814097)第391頁。