4.6 Regression

# 4.6 Regression 如果已經忘記 regression 在幹嘛，可以參考筆記「[2.6 Regression](https://hackmd.io/@pipibear/rJhgG8NNA)」。 --- # distribution of r given x 在 Regression 裡面，我們通常會稱： - numeric output ==$r$== $\Rightarrow$ dependent variable - input ==$x$== $\Rightarrow$ independent variable 並且我們假設 numeric output 是由下方式子所組成： \begin{equation} r = f(x) + \epsilon \end{equation} 其中： - ==$f()$==：一個未知的 deterministic function > deterministic function 代表 call 這個 function 時，只要 input 相同，就一定會 return 相同的 output。 - ==$\epsilon$==：random noise 因為 $f(x)$ 是一個未知的 function，所以我們就用一個 estimator $g(x|\theta)$ 來估計它。 $g(x|\theta)$ 由一個 set of parameters $\theta$ 所定義。看個圖比較清楚： ![image](https://hackmd.io/_uploads/HJd6_PX_C.png) > 在這個圖中，那條斜線其實指的就是我們的 estimator $g(x|\theta) = \theta_1 + \theta_2x$ >> $\theta = \{\theta_1, \theta_2\}$ >> >> $\rightarrow$ 根據不同的 $\theta_1,\theta_2$ 值，我們會得到不同的截距、不同的斜率，因此定義出不同的斜線，也就是不同的 $g(x|\theta)$，所以我們才說 $g(x|\theta)$ is defined by a set of parameters $\theta$。 > > 透過這條斜線我們預測，當 $X = x_i$ 時，我們的 output 應該要是斜線上對應的點，也就是 $Y = p_i$；但是實際上我們觀測到的 data point 是更上面的 $Y=y_i$，中間的這個差距就是我們的 random error $\epsilon_i$。 >> error 反映的其實就是那些沒辦法被我們的 model 所呈現的因素。 >> 例如在我們之前的例子裡，我們只考慮「年收入」作為衡量購買車款的因素，這個時候我們忽略的可能像是「購買者的家庭成員數」，就會造成我們的 model 和實際上有所落差。 ## assume: random noise is normally distributed 接著，如果我們再假設 random noise 的分佈為： \begin{equation} \epsilon \sim N(0,\sigma^2) \end{equation} > 對應到上方圖中的例子，也就是如果我們把每個 $X=x_i$ 時，預測的 $Y$ 值 $p_i$ 和實際觀測到的值 $y_i$ 的差距都畫出來，所有的這些 $\epsilon_i$ 所形成的圖呈現 $N(0,\sigma^2)$ 的分佈。如果我們將 estimator $g(x|\theta)$ 取代 $f(x)$，即： \begin{equation} r = g(x|\theta) + \epsilon \end{equation} 那我們會得到： :::success \begin{equation} p(r|x) \sim N(g(x|\theta),\sigma^2) \end{equation} ::: 理由如下： ![image](https://hackmd.io/_uploads/H1OYwK7u0.png) > 中間的 $f_{\epsilon}(r - g(x|\theta)) = f_r(r|x)$ 應該想一下就能轉過來，再詳細一點說： > > 如果我們先看等號右邊，在 $x$ 確定的情況下，我們就能確定 $g(x|\theta)$，這個值代表的是以 $x$ 作為 input 時，我們++預測的 output++；那麼再看整個 $f_r(r|x)$，代表 input 為 $x$ 的情況下，output 為 $r$ 的機率。 > > $\rightarrow$ 既然預測 $g(x|\theta)$，output 又為 $r$，那麼也就代表 error 要為他們之間的差距 $r - g(x|\theta)$。那 error 為 $r - g(x|\theta)$ 的機率是多少，就是代進去 error 的 pdf 所產生的值了。 > - 至於 $r$ 為什麼仍是 normally distributed，看完下面的例子應該就會清楚了。例子： ![image](https://hackmd.io/_uploads/ryI15tXdR.png) # estimating parameters ## maximum likelihood estimation 從上面的例子裡，我們看到當一個 linear estimator 的 parameters $\theta = \{\theta_0 = 10, \theta_1 = 2\}$ 的情形，但是 $\theta_1,\theta_2$ 除了這樣的值以外當然也可能是各種其他的值，實際上到底要怎麼知道 $\theta$ 之中的 parameters 是多少，在這裡，課本用 maximum likelihood 去 learn 這些 parameters $\theta$。 > 關於 maximum likelihood estimation，如果忘記了，可以參考筆記： > - [4.2 Maximum Likelihood Estimation](https://hackmd.io/@pipibear/rk9DvfgSC) > - [補充：Maximum Likelihood Estimation](https://hackmd.io/@pipibear/SJtqpvSBR) 現在我們像以前一樣有 training set $X=\{x^t,r^t\}_{t=1}^N$，其中每一對 $(x^t,r^t)$ 都是從一個未知的 joint probability density $p(x,r)$ 中取的。且我們可以把 $p(x,r)$ 寫成： \begin{equation} p(x,r) = p(r|x)p(x) \end{equation} > - $p(r|x)$ 為 given input $=x$，output $=r$ 的機率。 > - $p(x)$ 為 input density。 >> 關於這部分如果有疑惑，可以參考筆記「[補充：Bayesian Estimation](https://hackmd.io/@pipibear/Sy4XW138A)」。所以，在 given iid sample $X=\{x^t,r^t\}_{t=1}^N$ 的情況下，我們可以求 log likelihood： ![image](https://hackmd.io/_uploads/HJpco97u0.png) ## error function ### SSE (error sum of squares) 算出 log likelihood 以後，我們捨去和我們要估計的 $\theta$ 無關的值，接著我們想求能夠使得 likelihood 最大化的 $\theta$，但我們發現 log likelihood 是負的，所以求最大值等同求後面那串的最小值： ![image](https://hackmd.io/_uploads/BJ0ai57_A.png) 最後我們得到的要求最小值的： :::success \begin{equation} E(\theta|X) = \frac{1}{2}\sum_{t=1}^N (r^t - g(x^t|\theta))^2 \end{equation} ::: > 其中，各個符號代表的意義： > * $\theta$：regression model 裡的 parameters > * $X$：input data points 的集合 > * $r^t$：第 $t$ 個 data point 實際的值 > * $g(x^t|\theta)$：用 model with parameter $\theta$ 所產生的第 $t$ 個 data point 的 predicted value > * $N$：data point 總數這個 function 為 error function 的其中一種，也是最常用的一種，稱作 error sum of squares (SSE)，而 minimize 這個 error function 的 $\theta$，稱作 least square estimates。 > Note： > > 其實 SSE 的原始定義並不包含前面的 scaled factor $\frac{1}{2}$，而是只有 $\sum_{t=1}^N (r^t - g(x^t|\theta))^2$，但是課本這裡留下 $\frac{1}{2}$ 並不會影響它作為一個 SSE，因為乘上一個常數並不會改變一個 function 的 minimum location，只會 scale function value。 > > 因此，我們可以對 SSE 乘上一個任意的 constant $C>0$，即： > > $E(\theta|X) = C\sum_{t=1}^N (r^t - g(x^t|\theta))^2$ $\rightarrow$ 上述這樣的做法是我們在統計學中很常用的轉化方式，也就是當我們在發現 likelihood $l$ 中有指數時，與其直接求 $\max l$，我們定義 error function： :::success \begin{equation} E = -\log l \end{equation} ::: ### 求 min error #### linear regression 如果是 linear regression，我們的 linear model 可以寫成： \begin{equation} g(x^t|w_1,w_0) = w_1x^t + w_0 \end{equation} 因為我們的目的還是要去找 $\min E$ 會發生在什麼樣的 parameters 值時，所以有了這個 linear model，我們再代回原本 error function 的式子裡，並且微分求最小值： ![image](https://hackmd.io/_uploads/BkCCniQ_C.png) 先對 $w_1$ 偏微並取微分 $=0$： ![image](https://hackmd.io/_uploads/HypsRsm_C.png) 再對 $w_0$ 偏微並取微分 $=0$： ![image](https://hackmd.io/_uploads/Syi6RoXu0.png) 解聯立： ![image](https://hackmd.io/_uploads/rk8MJnmuR.png) 寫成矩陣形式： ![image](https://hackmd.io/_uploads/r1Msy37O0.png) #### polynomial regression polynomial regression 其實就只是將前面的 linear regression 推廣到有很多（此處令為 $k+1$ 個）parameters 的狀況： ![image](https://hackmd.io/_uploads/HkABe2m_R.png) Similarly, ![image](https://hackmd.io/_uploads/H1H5x2md0.png) 等同於寫成： ![image](https://hackmd.io/_uploads/HJN4mpmuR.png) 代回原本的式子 $A\vec{w} = \vec{y}$，再利用一些線性代數的特性，會發現我們可以求出 unique least squares solution $\vec{w}$： > 也就是說我們找的到一組 parameters 使得我們的 model 和實際的 data set 之間的誤差最小。 ![image](https://hackmd.io/_uploads/H12H7aQdA.png) > 關於 Vandermonde 矩陣簡單的說明在筆記「[重點複習（數學）](https://hackmd.io/@pipibear/ryVZtAjDa)」中，「線代」的其中一小節「Vandermonde」。 >> 不過這個筆記很亂，就斟酌參考。 >> > 另外，其實上面所有的內容都和線性代數中在求 least squares solution 是一樣的，有興趣從線代角度來看的話，可參考筆記「[minimal solution / least squares solution](https://hackmd.io/@pipibear/Bk2TrjjPa)」中，「least squares solution」小節的內容。 ### RSE (relative square error) 在上面的討論裡，assuming error 是 Gaussian distributed，我們發現要最大化 likelihood 就等同於最小化 errors 平方的和，因此我們用了 error function SSE，但是除了 SSE 之外，也有其他 error funtion，這裡我們要來介紹的是 relative square error (RSE)，它的公式為： :::success \begin{equation} E_{RSE} = \frac{\sum_{t=1}^N (r^t - g(x^t|\theta))^2}{\sum_{t=1}^N (r^t - \bar{r})^2} \end{equation} ::: > 也就是將 SSE 多除上一個 $\sum_{t=1}^N (r^t - \bar{r})^2$。將這個公式這樣定會代表什麼意義呢？其實它代表著： :::warning 我們用一個簡單的 baseline model： \begin{equation} \bar{r} = \frac{1}{N}\sum_{t=1}^N r^t \end{equation} 作為基準，並且將它的 error 定義成 $\sum_{t=1}^N (r^t - \bar{r})^2$，來和我們的 model 做比較。 ::: 如果： - ==$RSE<1$==：代表我們的 model 的 prediction 較好。 > 理由是因為當 $RSE<1$ 時，代表分子小於分母，因此也就代表我們的 model 所產生的 error，比單純取平均來做預測產生的 error 來得小。 - ==$RSE=1$==：代表我們的 model 的 prediction 平均來說，精准度和單純取平均來預測差不多。 - ==$RSE>1$==：代表我們的 model 的 prediction 較差。 > 理由同 $RSE<1$ 的說明，也就是當 $RSE>1$ 時，分子比分母來的大，代表我們的 model 所產生的 error，比單純取平均來做預測產生的 error 來得大。整個概念其實也等同於我們除了有一個自己定義出來的 regression model 要去 fit 我們的 data points，我們也取這些 data points 的平均值，然後畫出一條值為這個平均值的水平線來 fit 這些 points。基本上這兩個 function 畫出來都不會剛好 fit 每個點，所以我們各自加總整個 data set 裡所有點和這兩種 prediction 所產生的 error，然後再用比值來確認哪種方式比較好。 #### coefficient of determination 最後，我們定義一個東西叫做 coefficient of determination，用來檢查 regression fit 的優劣程度，定義為： :::info \begin{equation} R^2 = 1 - E_{RSE} \end{equation} ::: $\rightarrow$ 如果要被認為是有用的 regression，++$R^2$ 的值要接近 $1$++。最後的最後，記得如果我們要得到最好的 generalization，我們應該要調整我們 model 的 complexity，使得它的 complexity best fit data 背後隱含的 function 的 complexity。 > 可參考筆記「[2.6 Regression](https://hackmd.io/@pipibear/rJhgG8NNA)」中最後的例子。