Baitap_MultipleLinearRegression

# Baitap_MultipleLinearRegression ## Bat tap 3 ### 1. Viết các mô hình tuyến tính với 2 biến độc lập (có thể) Viết mô hình tuyến tính với cả 3 biến độc lập: ``` Call: lm(formula = data$y ~ data$x1 + data$x2 + data$x3) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 32.89132 11.66331 2.820 0.0182 * data$x1 0.80190 0.29844 2.687 0.0228 * data$x2 -0.38136 0.15658 -2.436 0.0351 * data$x3 -0.03713 0.05202 -0.714 0.4917 ``` Ở đây, ta phải loại bỏ biến $x_3$ khỏi mô hình do nó không có ý nghĩa thống kê. Do đó, chỉ có thể lập được duy nhất một mô hình tuyến tính với 2 biến độc lập $x_1$ và $x_2$: $y = 25.842 + 0.715*x_1 - 0.328*x_2$ ### 2. Ước lượng các hệ số hồi quy trong từng mô hình tuyến tính ở câu 1. Với mô hình tuyến tính với 2 biến độc lập $x_1$ và $x_2$: $E(\hat{\beta}|X) = E((X'X)^{-1}X'Y|X)$               $= (X'X)^{-1}X'E(Y|X)$               $= (X'X)^{-1}X'X\beta$               $= \beta$ Do đó, $E(\hat{\beta_0}|X) = \beta_0 = 25.842$ $E(\hat{\beta_1}|X) = \beta_1 = 0.715$ $E(\hat{\beta_2}|X) = \beta_2 = -0.328$ ### 3. Với độ tin cậy 95%, tìm khoảng tin cậy cho các tham số trong mô hình với 2 biến độc lập $x_1$ và $x_2$ ``` > confint(model1, level = 0.95) 2.5 % 97.5 % (Intercept) 12.4938794 39.1903962 data$x1 0.1288532 1.3009387 data$x2 -0.6242802 -0.0319457 ``` Khoảng tin cậy $\beta_0$ là $(2.494, 30.190)$ Khoảng tin cậy $\beta_1$ là $(0.129, 1.301)$ Khoảng tin cậy $\beta_2$ là $(-0.0624, -0.032)$ ### 4. Xác định hệ số xác định cho mỗi mô hình trong câu 1 ``` > anova(model1) Analysis of Variance Table Response: data$y Df Sum Sq Mean Sq F value Pr(>F) data$x1 1 117.659 117.659 18.2587 0.001314 ** data$x2 1 38.314 38.314 5.9458 0.032916 * Residuals 11 70.884 6.444 ``` Hệ số xác định cho mô hình tuyến tính với hai biến độc lập $x_1$ và $x_2$ được xác định bởi: $R^2=\frac{SSreg}{SST}=1-\frac{SSE}{SST}=0.688$ ### 5. Trong các mô hình trên, mô hình nào thích hợp nhất để giải thích sự biến thiên của Y? Ở câu 1, do chỉ lập được một mô hình tuyến tính nên mô hình với 2 biến $x_1$ và $x_2$ là thích hợp nhất để giải thích sự biến thiên của Y. ### 6. Viết mô hình tuyến tính dưới dạng ma trận với số biến độc lập nhiều nhất có thể, và xác định kích thước của ma trận $\begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_{14} \end{pmatrix}=\begin{pmatrix} 1 &x_{1,1}&x_{1,2}&x_{1,3} \\ 1 &x_{2,1}&x_{2,2}&x_{2,3} \\ \vdots&\vdots \\ 1 &x_{14,1}&x_{14,2}&x_{14,3}\end{pmatrix}\begin{pmatrix} \beta_0 \\ \beta_1 \\ \beta_2 \end{pmatrix}+\begin{pmatrix} e_1 \\ e_2 \\ \vdots \\ e_{14} \end{pmatrix}$ Kích thước các ma trận: Ma trận $Y$: 14 dòng, 1 cột Ma trận $X$: 14 dòng, 4 cột Ma trận $\beta$: 3 dòng, 1 cột Ma trận $E$: 14 dòng, 1 cột ### 7. Ước lượng các hệ số hồi quy trong mô hình tuyến tính ở câu 6 ``` Call: lm(formula = data$y ~ data$x1 + data$x2 + data$x3) Residuals: Min 1Q Median 3Q Max -3.6973 -1.1259 0.1907 1.4846 4.4880 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 32.89132 11.66331 2.820 0.0182 * data$x1 0.80190 0.29844 2.687 0.0228 * data$x2 -0.38136 0.15658 -2.436 0.0351 * data$x3 -0.03713 0.05202 -0.714 0.4917 ``` Tương tự câu 3.2, ta có: $E(\hat{\beta_0}|X) = \beta_0 = 32.891$ $E(\hat{\beta_1}|X) = \beta_1 = 0.802$ $E(\hat{\beta_2}|X) = \beta_2 = -0.381$ $E(\hat{\beta_3}|X) = \beta_3 = -0.037$ ### 8. Trong mô hình tuyến tính ở câu 6, tính ước lượng của $V(\epsilon)$ và $V(\hat\beta)$ ``` > var(data$y) [1] 17.45055 > var(data$x1) [1] 8.840659 > var(data$x2) [1] 34.61538 > var(data$x3) [1] 365.1868 ``` Ta có: Ước lượng của $Var(\epsilon)=Var(Y)=17.45$ $Var(\hat{\beta_1})=8.841$ $Var(\hat{\beta_2})=34.615$ $Var(\hat{\beta_3})=365.187$ ### 9. Với độ tin cậy 95%, tìm khoảng tin cậy cho $V(\epsilon)$ ```confint(model,"(Intercept)") 2.5 % 97.5 % (Intercept) 6.90385 58.8788 ``` Khoảng tin cậy $Var(\epsilon)$ là (6.904,58,879) ### 10. Khi thêm 2 biến độc lập $x_3$ và $x_2$ vào mô hình chỉ với 1 biến độc lập $x_1$ thì làm cho chất lượng ước lượng cao hơn không Với mô hình hồi quy đơn với biến $x_1$, ta có: ``` Call: lm(formula = data$y ~ data$x1) Residuals: Min 1Q Median 3Q Max -4.6538 -1.6302 0.8048 2.1139 4.3698 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 11.5712 1.8891 6.125 5.14e-05 *** data$x1 1.0118 0.2814 3.596 0.00367 ** Residual standard error: 2.539 on 11 degrees of freedom Multiple R-squared: 0.6875, Adjusted R-squared: 0.6307 F-statistic: 12.1 on 2 and 11 DF, p-value: 0.001665 ``` Hệ số xác định của mô hình hồi quy đơn: R = 0.688 Hệ số xác định của mô hình hồi quy bội với 2 biến $x_1$ và $x_2$ ở câu 3.4: R = 0.688 Hệ số xác định của mô hình hồi quy bội với 3 biến $x_1$, $x_2$ và $x_3$ ở câu 3.6: R = 0.702