# Baitap_MultipleLinearRegression
## Bat tap 3
### 1. Viết các mô hình tuyến tính với 2 biến độc lập (có thể)
Viết mô hình tuyến tính với cả 3 biến độc lập:
```
Call:
lm(formula = data$y ~ data$x1 + data$x2 + data$x3)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 32.89132 11.66331 2.820 0.0182 *
data$x1 0.80190 0.29844 2.687 0.0228 *
data$x2 -0.38136 0.15658 -2.436 0.0351 *
data$x3 -0.03713 0.05202 -0.714 0.4917
```
Ở đây, ta phải loại bỏ biến $x_3$ khỏi mô hình do nó không có ý nghĩa thống kê.
Do đó, chỉ có thể lập được duy nhất một mô hình tuyến tính với 2 biến độc lập $x_1$ và $x_2$:
$y = 25.842 + 0.715*x_1 - 0.328*x_2$
### 2. Ước lượng các hệ số hồi quy trong từng mô hình tuyến tính ở câu 1.
Với mô hình tuyến tính với 2 biến độc lập $x_1$ và $x_2$:
$E(\hat{\beta}|X) = E((X'X)^{-1}X'Y|X)$
$= (X'X)^{-1}X'E(Y|X)$
$= (X'X)^{-1}X'X\beta$
$= \beta$
Do đó,
$E(\hat{\beta_0}|X) = \beta_0 = 25.842$
$E(\hat{\beta_1}|X) = \beta_1 = 0.715$
$E(\hat{\beta_2}|X) = \beta_2 = -0.328$
### 3. Với độ tin cậy 95%, tìm khoảng tin cậy cho các tham số trong mô hình với 2 biến độc lập $x_1$ và $x_2$
```
> confint(model1, level = 0.95)
2.5 % 97.5 %
(Intercept) 12.4938794 39.1903962
data$x1 0.1288532 1.3009387
data$x2 -0.6242802 -0.0319457
```
Khoảng tin cậy $\beta_0$ là $(2.494, 30.190)$
Khoảng tin cậy $\beta_1$ là $(0.129, 1.301)$
Khoảng tin cậy $\beta_2$ là $(-0.0624, -0.032)$
### 4. Xác định hệ số xác định cho mỗi mô hình trong câu 1
```
> anova(model1)
Analysis of Variance Table
Response: data$y
Df Sum Sq Mean Sq F value Pr(>F)
data$x1 1 117.659 117.659 18.2587 0.001314 **
data$x2 1 38.314 38.314 5.9458 0.032916 *
Residuals 11 70.884 6.444
```
Hệ số xác định cho mô hình tuyến tính với hai biến độc lập $x_1$ và $x_2$ được xác định bởi:
$R^2=\frac{SSreg}{SST}=1-\frac{SSE}{SST}=0.688$
### 5. Trong các mô hình trên, mô hình nào thích hợp nhất để giải thích sự biến thiên của Y?
Ở câu 1, do chỉ lập được một mô hình tuyến tính nên mô hình với 2 biến $x_1$ và $x_2$ là thích hợp nhất để giải thích sự biến thiên của Y.
### 6. Viết mô hình tuyến tính dưới dạng ma trận với số biến độc lập nhiều nhất có thể, và xác định kích thước của ma trận
$\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_{14} \end{pmatrix}=\begin{pmatrix} 1 &x_{1,1}&x_{1,2}&x_{1,3} \\ 1 &x_{2,1}&x_{2,2}&x_{2,3} \\ \vdots&\vdots \\ 1 &x_{14,1}&x_{14,2}&x_{14,3}\end{pmatrix}\begin{pmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \end{pmatrix}+\begin{pmatrix} e_1 \\ e_2 \\ \vdots \\ e_{14} \end{pmatrix}$
Kích thước các ma trận:
Ma trận $Y$: 14 dòng, 1 cột
Ma trận $X$: 14 dòng, 4 cột
Ma trận $\beta$: 3 dòng, 1 cột
Ma trận $E$: 14 dòng, 1 cột
### 7. Ước lượng các hệ số hồi quy trong mô hình tuyến tính ở câu 6
```
Call:
lm(formula = data$y ~ data$x1 + data$x2 + data$x3)
Residuals:
Min 1Q Median 3Q Max
-3.6973 -1.1259 0.1907 1.4846 4.4880
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 32.89132 11.66331 2.820 0.0182 *
data$x1 0.80190 0.29844 2.687 0.0228 *
data$x2 -0.38136 0.15658 -2.436 0.0351 *
data$x3 -0.03713 0.05202 -0.714 0.4917
```
Tương tự câu 3.2, ta có:
$E(\hat{\beta_0}|X) = \beta_0 = 32.891$
$E(\hat{\beta_1}|X) = \beta_1 = 0.802$
$E(\hat{\beta_2}|X) = \beta_2 = -0.381$
$E(\hat{\beta_3}|X) = \beta_3 = -0.037$
### 8. Trong mô hình tuyến tính ở câu 6, tính ước lượng của $V(\epsilon)$ và $V(\hat\beta)$
```
> var(data$y)
[1] 17.45055
> var(data$x1)
[1] 8.840659
> var(data$x2)
[1] 34.61538
> var(data$x3)
[1] 365.1868
```
Ta có:
Ước lượng của $Var(\epsilon)=Var(Y)=17.45$
$Var(\hat{\beta_1})=8.841$
$Var(\hat{\beta_2})=34.615$
$Var(\hat{\beta_3})=365.187$
### 9. Với độ tin cậy 95%, tìm khoảng tin cậy cho $V(\epsilon)$
```confint(model,"(Intercept)")
2.5 % 97.5 %
(Intercept) 6.90385 58.8788
```
Khoảng tin cậy $Var(\epsilon)$ là (6.904,58,879)
### 10. Khi thêm 2 biến độc lập $x_3$ và $x_2$ vào mô hình chỉ với 1 biến độc lập $x_1$ thì làm cho chất lượng ước lượng cao hơn không
Với mô hình hồi quy đơn với biến $x_1$, ta có:
```
Call:
lm(formula = data$y ~ data$x1)
Residuals:
Min 1Q Median 3Q Max
-4.6538 -1.6302 0.8048 2.1139 4.3698
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.5712 1.8891 6.125 5.14e-05 ***
data$x1 1.0118 0.2814 3.596 0.00367 **
Residual standard error: 2.539 on 11 degrees of freedom
Multiple R-squared: 0.6875, Adjusted R-squared: 0.6307
F-statistic: 12.1 on 2 and 11 DF, p-value: 0.001665
```
Hệ số xác định của mô hình hồi quy đơn: R = 0.688
Hệ số xác định của mô hình hồi quy bội với 2 biến $x_1$ và $x_2$ ở câu 3.4: R = 0.688
Hệ số xác định của mô hình hồi quy bội với 3 biến $x_1$, $x_2$ và $x_3$ ở câu 3.6: R = 0.702