Linear Regression

1. Giới thiệu về Linear Regression

Với mình và đa số các bạn sinh viên chuyên ngành khoa học máy tính nói chung, Hồi quy tuyến tính (hay Linear Regression) là một thuật toán gối đầu giường, hay nói cách khác là cực kỳ quen thuộc, phổ biến, thậm chí là "đẻ" ra là đã phải biết thuật toán này. Nên trong nội dung bài báo này mình chỉ tóm tắt sơ qua những gì đã quá quen thuộc với các bạn

Ta có một bảng dữ liệu như sau

Kinh nghiệm (tháng)	Lương (USD)
1	120
6	200
12	450
24	923
Ở đây có	Rất nhiều dòng như vậy

Note: Thật ra thì lương không thấp z đâu mấy bạn ơi

Việc của ta là đi tìm mức lương cho các mức kinh nghiệm tiếp theo dựa vào đống dữ liệu cho sẵn.

Trên thực tế, ai cũng biết bài toán này giải như nào. Để mình tóm tắt lại nhé. Đặt

\overset{―}{X}

là ma trận đã thêm bias

1

vào cột Kinh nghiệm và

Y

sẽ là cột Lương.

Ta sẽ có bài toán đi tìm bộ tham số

β

sao cho

L = \underset{(x, y) \sim D}{E} (β x - y)^{2}

là nhỏ nhất. Trong đó,

D \subset (X, Y)

là bộ dữ liệu huấn luyện được cho trước của chúng ta, ở đây là

X, Y

Cách làm thông thường của chúng ta sẽ là biến nó về dạng đại số tuyến tính rồi dùng giải tích tuyến tính tính đạo hàm rồi cho đạo hàm bằng

0

để giải quyết bài toán. Các bạn sẽ kết thúc với một công thức như thế này:

\hat{β} = (X^{T} X)^{- 1} X^{T} Y

Cách này đúng, đúng mạnh luôn. Không thể nói là cách này sai hay sao đó và thậm chí mình thừa nhận luôn, lúc đi làm đi học mình code công thức này cho nhanh chứ Gradient Descent cái quái gì? (sẽ có một bài về bạn này sau, bạn này khá hay nhưng mà để hiểu nó phải từ từ mình coi lại sách của Prof. Boyd)

2. Một vấn đề sẽ đề cập trong bài viết này

Giờ ví dụ như mình không chỉ có

1

thuộc tính là số tháng làm việc chuyên nghiệp, mà mình có

15000

thuộc tính khác nhau, có thể ví dụ như số căn nhà, tuổi tác, số người bạn, ngôn ngữ sử dụng, điện thoại bạn xài,…. Vậy để đoán lương, đôi lúc ta không thật sự dùng đến

15000

mà chỉ dùng

15

cái hoặc những cái mà chúng ta cho rằng liên quan nhất thì ta phải bỏ cái nào? Nhắc đến đây các bạn nghĩ ngay tới Principal Component Analysis? No, nó là đổi trục toạ độ so với những thuộc tính ban đầu, chúng ta sẽ bàn về vấn đề này sau (ý tôi là những bài blogpost khác). Ta sẽ bỏ thẳng các đặc trưng mà ta nghĩ là không cần thiết bằng một cách nào đó.

3. Bài toán cực đại hoá điều hợp lý (Maximum Likelihood Estimator)

Đây là bài toán cũng khá nổi trong giới học máy. Nói nôm na là như thế này: Bạn có một mô hình (gọi là

f

) được định nghĩa bằng tham số

θ

và một đống dữ liệu

d

. Ta sẽ GIẢ SỬ DỮ LIỆU ĐÃ ĐÚNG RỒI vậy thì chúng ta sẽ cố gắng tìm ra bộ tham số

θ

tốt nhất cho mô hình kia HỢP LÝ NHẤT. Ta sẽ gọi

p (d | θ)

là xác suất điểm dữ liệu

d

đúng với mô hình

f

. Gọi

D

là tất cả các điểm dữ liệu

d_{1}, d_{2}, . . . d_{m}

vậy thì ta sẽ muốn xác xuất của các điểm dữ liệu đều đúng

p (d_{1}, d_{2}, d_{3}, . . ., d_{m} | θ)

là cao nhất.

Một ví dụ trực quan hơn liên kết trực tiếp đến bài toán hồi quy tuyến tính.

Trong bài toán hồi quy tuyến tính ta cũng có tập dữ liệu

D

và các điểm dữ liệu

d_{i} = (x_{i}, y_{i})

, hơn nữa chúng ta đặt giả thiết là

y_{i}

có mối quan hệ tuyến tính với các thuộc tính của

x_{i}

, tức là

f = β x + β_{0}

. Vậy ta có thể nhìn bài toán này dưới góc nhìn bài toán Maximum Likelihood vì lúc này

θ

nói trên chính là bộ tham số

β

của mô hình tuyến tính

4. Góc nhìn xác suất của hồi quy tuyến tính

Ta định hình bài toán lại như sau. Giả sử ta có

k + 1

biến ngẫu nhiên

β_{i} | i = \overset{―}{1, k + 1}

. Với mỗi cặp

(x, y) \in D

y

sẽ có quan hệ tuyến tính với các công thuộc tính

x_{i}

của

x

. Công thức xấp xỉ

y

dựa vào

x

sẽ là:

\hat{y} = β_{0} + β_{1} x_{1} + β_{1} x_{1} + β_{2} x_{2} + . . . + β_{k} x_{k} + ϵ

Sau đó ta sẽ lấy mẫu ngẫu nhiên

(x, y) \sim D

và ta sẽ được rất nhiều quan sát khác nhau. Lúc này tập dữ liệu ta có sẽ là

D = {(x_{i, 1}, x_{i, 2}, x_{i, 3}, . . . x_{i, k}, y_{i}) | i = \overset{―}{1, m}}

Vậy, nhiệm vụ lúc này của ta là ước lượng các

{\hat{β}}_{i}

sao cho các số này gần

β_{i}

tương ứng.

Lúc này ta sẽ cần cực đại hoá

p (d_{i} = (x_{i}, y_{i}) | β)

. Ta sẽ giả sử với một

x_{i}

cho trước thì

\hat{y_{i}}

sẽ luôn có giá trị nằm xung quanh

y_{i}

và phân phối của độ lệch này sẽ là một phân phối chuẩn với độ lệch chuẩn

σ

. Điều này tức là:

ϵ \sim N (0, σ^{2})

Dựa vào phương trình trên ta có được

Y \sim p (y) = N (β_{0} + β_{1} x_{1} + β_{1} x_{1} + β_{2} x_{2} + . . . + β_{k} x_{k}, σ^{2})

Vì lương của mấy ông kia không liên quan đến nhau (ta giả sử không có trường hợp chia lương nhé :D, chơi z kỳ lắm). Nên các

d_{i} \overset{i . i . d}{\sim} p (y)

. Vậy cho nên ta có

\begin{aligned} p (d_{1}, d_{2}, d_{3}, . . ., d_{m} | β) = \prod_{j = 1}^{m} p (d_{j} | β) & = \prod_{j = 1}^{m} \frac{1}{\sqrt{2 π σ^{2}}} \exp {- \frac{{(y_{j} - β_{0} - β_{1} x_{j, 1} - β_{2} x_{j, 2} - \dots - β_{n} x_{j, k})}^{2}}{2 σ^{2}}} \\ \propto \exp {- \frac{\sum_{j = 1}^{m} {(y_{j} - β_{0} - β_{1} x_{j, 1} - β_{2} x_{j, 2} - \dots - β_{n} x_{j, k})}^{2}}{2 σ^{2}}} \end{aligned}

Và tất nhiên, bài toán chúng ta là Maximum Likelihood và hàm log là hàm đồng biến trên đoạn

(0, + \infty)

nên ta hoàn toàn có thể dùng Maximum Log Likehood và đưa bài toán về dạng tổng các Squared Error. Đây cũng chính là Mean Square Error. Nghiệm của bài toán tất nhiên là vẫn giữ nguyên:

\hat{β} = (X^{T} X)^{- 1} X^{T} Y

Ta chứng minh 2 ý sau đây:

$E [\hat{β}] = β$
$V [\hat{β}] = σ^{2} (X^{T} X)^{- 1}$

Ý đầu tiên

E [\hat{β}] = E [(X^{T} X)^{- 1} X^{T} Y] = (X^{T} X)^{- 1} X^{T} E [Y] = (X^{T} X)^{- 1} X^{T} X E [β] = (X^{T} X)^{- 1} X^{T} X β = β

Ý thứ hai

\begin{array}{r} V [\hat{β}] = V [(X^{T} X)^{- 1} X^{T} Y] = (X^{T} X)^{- 1} X^{T} V [Y] ((X^{T} X)^{- 1} X^{T})^{T} \\ = (X^{T} X)^{- 1} X^{T} σ^{2} ((X^{T} X)^{- 1} X^{T})^{T} \\ = σ^{2} (X^{T} X)^{- 1} X^{T} ((X^{T} X)^{- 1} X^{T})^{T} \\ = (X^{T} X)^{- 1} X^{T} (X (X^{- 1})^{T} X^{- 1}) \\ = σ^{2} (X^{T} X)^{- 1} \end{array}

Ta thừa nhận hai quan sát sau (1 cái chứng minh ròi, cái sau dùng nhiều kỹ thuật khá phức tạp nên chưa dám nhắc đến ở đây):

$\hat{β} \sim N (β, σ^{2} (X^{T} X)^{- 1})$
Đặt
$S = | | y - x \hat{β} | |_{2}^{2}$ thì
$\frac{S}{σ^{2}} \sim X_{m - k - 1}^{2}$

Vì quan sát đầu tiên, khi đặt

A = (X^{T} X)^{- 1}

thì

{\hat{β}}_{i} \sim N (β_{i}, σ^{2} A_{i i})

ta có:

\frac{\hat{β_{i}} - β_{i}}{\sqrt{\frac{A_{i i} \times S}{m - k - 1}}} \sim T_{m - n - 1}

Giờ ta sẽ thực hiện kiểm định giả thuyết thống kê cho từng

{\hat{β}}_{i}

với cặp giả thuyết sau:

Giả thuyết rỗng:
$H_{0} : {\hat{β}}_{i} = 0$ . Điều này đồng nghĩa với thuộc tính
$i$ không liên quan đến
$y$
Giả thuyết thay thế
$H_{1} : {\hat{β}}_{i} \neq 0$ . Điều này đồng nghĩa với thuộc tính
$i$ có liên quan đến
$y$

Lúc này, với độ tin cậy là

1 - α

thì nếu

$| {\hat{β}}_{i} | > t_{α / 2, m - n - 1} \sqrt{\frac{A_{i i} \times S}{m - n - 1}}$ . Lúc này ta bác bỏ giả thuyết rỗng tức là thuộc tính có liên quan đến nhãn
$y$
$| {\hat{β}}_{i} | \leq t_{α / 2, m - n - 1} \sqrt{\frac{A_{i i} \times S}{m - n - 1}}$ . Lúc này ta chấp nhận giả thuyết rỗng tức là thuộc tính không liên quan đến nhãn
$y$ . Và ta hoàn toàn có thể bỏ đi thuộc tính này vì thuộc tính này hoàn toàn có thể làm cho nhãn chúng ta bị nhiễu khi học bài toán Linear Regression.

5. Kết luận

Bài viết dùng những biến đổi đơn giản và những bổ đề mệnh đề lấy từ trong sách ra để đưa ra cho các bạn một góc nhìn khác về một thuật toán tưởng chừng quá quen thuộc. Khi nhìn bài toán dưới dạng thống kê, ta hoàn toàn có thể khai thác thêm nhiều khía cạnh của môn toán này trong ứng dụng thực tiễn. Trong khuôn khổ bài viết, mình cũng chưa thử bất kỳ thí nghiệm nào về việc chọn/bỏ các đặc trưng dựa trên kiểm định giả thuyết thống kê. Hãy thực hiện nó và cho mình biết kết quả nếu có thể nhé.

6. Lời nhắn

Mình đọc bài này cũng lâu rồi, trong blog nào đấy mình không nhớ, nay mình đọc lại mấy quyền sách Statiscal Learning thì thấy được họ có phân tích khá hay nên viết với chứng minh lại mấy công thức cho nó quen tay dần, tất nhiên sau tầm

1.5

năm không đụng gì tới toàn thì biến đổi của mình có thể bị lỗi và trình bày có thể sai nên mong được bỏ qua. Bài này kickstart lại cái quá trình học toán sắp tới của mình. Nếu được hy vọng có thể viết thêm vài bài về các thuật toán khác.