<style>
.red {
color: red;
}
.blue{
color:blue;
}
</style>
# What is Linear Regression?

假設有一群二維空間中的點(如上圖藍點) $\{(x^{(i)},y^{(i)}), \ x^{i},\ y^{i}\in\mathbb{R}\}_{i=1}^{N}$,
但雖然這些點通常理論上不會在一條直線上,但線係迴歸則是希望透過這些點去找到一條假想的直線(上圖黃色虛線)
$$y=ax+b,\ a,\ b\in\mathbb{R}$$來表達這些點之間的關係,對其做出預測,觀察出趨勢等...。
(eg: 假設有 N 筆房子的資料,其中 $x^{i},\ y^{i}$ 分別為第 i 筆房子的屋齡(單位:年)和價格(單位:萬/坪),則我們可以用假想的直線 $y=ax+b$ 去預測屋齡為 $x$ 年的房子的價格為 $y$ 萬/坪,並求得價格會隨著屋齡上升而下降的趨勢等...)
而這條假想直線的相關參數 $(a,b)$ 可以使用最小平方法求得,也就是說$(a,b)$ 會滿足下列的關係式 <span class=blue> $$(a,b) = \mathop{Argmin}_{(\alpha,\beta)\ \in\ \mathbb{R^2}}\ [\ \sum_{i=1}^{N}(\alpha x^{(i)}+\beta-y^{(i)})^2\ ].$$</span>
最近在網路上讀了用 Maximum likelihood 觀點切入的線性迴歸解釋,在該觀點和某些假設的切入下,一樣可以推導出最小平方法的結論。而筆者本人覺得其概念蠻有趣且重要的,故將其依個人脈絡整理成筆記。
# Intuition
假設有 N 筆 Training example $\{(x^{(i)},y^{(i)}), \ x^{(i)},\ y^{(i)}\in\mathbb{R}\}_{i=1}^{N}$,今天我們希望找到一條直線 $y=\alpha x+\beta$ 去近似我們的這些 training example,也就是說我希望對於每個 $i$,$y^{(i)}$ 大約等於 $\alpha x^{(i)}+\beta$ ( $y^{(i)}\approx\alpha x^{(i)}+\beta$ ),或者是說 $y^{(i)}-(\alpha x^{(i)}+\beta)$ 的誤差不會太大。
令 $\{X^{(i)}\}_{i=1}^{N},\ \{Y^{(i)}\}_{i=1}^{N}$ 代表我取到點 $(x^{(i)},y^{(i)})$ 背後的隨機變數,則其誤差 $$\epsilon^{(i)}\equiv Y^{(i)}-(\alpha X^{(i)}+\beta)$$ 可以當成一隨機變數。
雖然我一開始不知道 $\alpha,\ \beta$ 該怎麼取,但我今天取的點 $(\alpha,\beta)$ 若能最大化$$P( \{|\epsilon^{(1)}|\leq\epsilon,|\epsilon^{(2)}|\leq\epsilon,...,|\epsilon^{(N)}|\leq\epsilon\} ),\forall \ \epsilon>0$$,就代表我取的點 $(\alpha,\beta)$ 有 <span class=red> **"最大的機率" 使得每一個 $\epsilon^{(i)}=y^{(i)}-(\alpha x^{(i)}+\beta)$ 誤差小於 $\epsilon$, $i=1,2,...,N$**,</span>也就是說,這應該是我能得到的最好結果。
至此,我們已經將這個線性迴歸問題用機率的角度去闡述了。
但這樣的條件應該還不夠我們進行推論,資訊量還不夠,我們還需要再做下面的假設....。
:::info
假設 $\{\epsilon^{(i)}\}$ 為 i.i.d 且滿足 $\epsilon^{(1)} \sim N(0,\sigma^2)$。
:::
# Observation
有了上述的假設後,令 $f_{\epsilon^{(i)}}$ 為 $\epsilon^{(i)}$ 的 p.d.f,因為 $\{\epsilon^{(i)}\}$ 為 i.i.d,則可以得到其 joint density function
$$\begin{align*}\displaystyle f_{\epsilon^{(1)},\epsilon^{(2)},...,\epsilon^{(N)}}(x_1,x_2,...,x_N) &=\prod_{i=1}^{N}\ f_{\epsilon^{(i)}}(x_i)\\&=\prod_{i=1}^{N}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{x_i^{\ \ 2}}{2\sigma^2}}\ \ . \end{align*}$$
為了隨機取的點 $\theta(w)=(\alpha,\beta)$ 能最大化機率 $P( \{|\epsilon^{(1)}|\leq\epsilon,|\epsilon^{(2)}|\leq\epsilon,...,|\epsilon^{(N)}|\leq\epsilon\} ),\forall \ \epsilon>0$,我們必須去計算該機率,然而根據上述的 joint density function,可以得知
$$\begin{align}\displaystyle P( \{|\epsilon^{(1)}|\leq\epsilon,|\epsilon^{(2)}|\leq\epsilon,...,|\epsilon^{(N)}|\leq\epsilon\} ) &=\int_{[-\epsilon,\epsilon]\times...\times[-\epsilon,\epsilon]}f_{\epsilon^{(1)},\epsilon^{(2)},...,\epsilon^{(N)}}(x_1,x_2,...,x_N)\ dx \\&=\int_{-\epsilon}^{\epsilon}\int_{-\epsilon}^{\epsilon}...\int_{-\epsilon}^{\epsilon}\bigg\{\prod_{i=1}^{N}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{x_i^{\ \ 2}}{2\sigma^2}}\bigg\}\ dx\ \ ...(*)\end{align}.$$
<br>
今天若是有兩可測函數 $f, g$,$f(x)\leq g(x)$, 則 $\int_{A}f(x)\ dx\leq\int_{A}g(x)\ dx$。我們可以根據這個事實和 equation (*) 得知實際上我們選出的 <span class=blue> $(\alpha,\beta)$ 只要最大化下面的 joint density function
$$\prod_{i=1}^{N}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{x_i^{\ \ 2}}{2\sigma^2}}\ ,$$
就能最大化 $P( \{|\epsilon^{(1)}|\leq\epsilon,|\epsilon^{(2)}|\leq\epsilon,...,|\epsilon^{(N)}|\leq\epsilon\} ).$ </span>
因為 $\epsilon^{(i)}\equiv Y^{(i)}-(\alpha X^{(i)}+\beta),$ 若我們在假設 $X^{(i)}$ 和 $Y^{(i)}$ 獨立,則對每個屬於 $\mathbb{R}$ 的 $z$,我們可以不嚴謹的得到
$$\begin{align*}P(\epsilon^{(i)}\leq z) &=P(Y^{(i)}-(\alpha X^{(i)}+\beta)\leq z)\\
&=\int_{\mathbb{R}}F_{Y^{(i)}}(z-\mu)F_{(-\alpha X^{(i)}+\beta)}(d\mu)\\
&=\lim_{h\to\infty}\int_{-h}^{h}F_{Y^{(i)}}(z-\mu)F_{(-\alpha X^{(i)}+\beta)}(d\mu), \end{align*}$$
其中 $F_{Y^{(i)}},F_{(-\alpha X^{(i)}+\beta)}$ 分別為隨機變數 $Y^{(i)}$ 和 $(-\alpha X^{(i)}+\beta)$ 的 probability distribution,
這樣我們就能去估計上述的式子去估計 $P(|\epsilon^{(i)}|\leq \epsilon)$了。
但實際上我根本不知道 $X^{(i)}$ 和 $Y^{(i)}$ 背後的分佈,就算有了 $X^{(i)}$ 和 $Y^{(i)}$ 獨立的假設和上述的關係,我應該也沒辦法借由上面的 Riemann-Stieltjes Integral 去估計出說我該取怎樣的 $\alpha$ 和 $\beta$。
不過今天我們有Training example $\{(x^{(i)},y^{(i)})$,所以我們可以藉由統計裡的 Maximum Likelihood Estimation(M.L.E) 來幫助我們看待這個問題,把最大化 joint density function $\displaystyle\prod_{i=1}^{N}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{x_i^{\ \ 2}}{2\sigma^2}}$ 的問題看成
:::warning
找出 $(\alpha,\beta)$ 最大化 Likelihood
$$L(\alpha,\beta,x^{(1)},...,x^{(N)},y^{(1)},...,y^{(N)})\equiv\displaystyle\prod_{i=1}^{N}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{\big[y^{(i)}-(\alpha x^{(i)}+\beta)\big]^{2}}{2\sigma^2}}\ \ \ ...(1)$$
:::
# Derivation
注意(1)式內Product 的係數都是大於零的,所以對 (1) 式取 log,可以得到
$$\begin{align*} l(\alpha,\beta,x^{(1)},...,x^{(N)},y^{(1)},...,y^{(N)})&\equiv\ log\bigg(\displaystyle\prod_{i=1}^{N}\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{\big[y^{(i)}-(\alpha x^{(i)}+\beta)\big]^{2}}{2\sigma^2}}\ \ \ \ \ \bigg)
\\&=\sum_{i=1}^{N}log\bigg(\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{\big[y^{(i)}-(\alpha x^{(i)}+\beta)\big]^{2}}{2\sigma^2}}\ \ \ \ \ \bigg)\\
&=m \ log\bigg(\frac{1}{\sigma\sqrt{2\pi}}\bigg)-\sum_{i=1}^{N}\bigg(\frac{\big[y^{(i)}-(\alpha x^{(i)}+\beta)\big]^{2}}{2\sigma^2}\ \bigg) \ ,
\\
\end{align*}$$
<br>
因為 $log$ 是遞增函數,所以我們知道要最大化 $L$,必須最小化$\displaystyle\sum_{i=1}^{N}\bigg(\frac{\big[y^{(i)}-(\alpha x^{(i)}+\beta)\big]^{2}}{2\sigma^2}\ \bigg)$,也就是說
<span class=red> $$(\alpha,\beta) = \mathop{Argmin}_{(a,b)\ \in\ \mathbb{R^2}}\ [\ \sum_{i=1}^{N}(a x^{(i)}+b-y^{(i)})^2\ ],$$</span>
和最小平方法一樣的結論。
# Interesting Remark
由上述的 Observation 可以觀察,若今天我有獨立的隨機變數 $X_1,X_2,...,X_N$,且我們知道他們背後的分佈(甚至是 density $\{f_i\}_{i=1}^{N}$),則我們可以較簡單地去估計$$P( \{X_1\leq x,X_2\leq x,...,X_N\leq x\} )=\prod_{i=1}^{N}P(X_i\leq x),\forall \ x\in \mathbb{R}.$$ 或跟density有關的式子$L(\theta,x,f)$。
但今天若我不知道背後的分佈,只有一些樣本點,就可能要仰賴 MLE 了。😅
# 參考資料
1. https://youtu.be/het9HFqo1TQ?t=1292
2. https://zh.wikipedia.org/zh-tw/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1