Linear Regression
Hồi quy tuyến tính
Bạn bán phở. Nhật ký cả tuần cho thấy: trời 35°C bán 80 tô, trời 25°C bán 120 tô, trời 18°C bán 150 tô. Ngày mai dự báo 30°C — bạn nấu bao nhiêu?
Hồi quy tuyến tính = tìm quy luật “mỗi lần tăng X thì Y thay đổi bao nhiêu”
Đi ăn cưới, bạn để ý: quãng đường càng xa, tiền xăng càng nhiều. Mỗi km thêm bao nhiêu tiền? Đây là quy luật tuyến tính — khi một thứ tăng, thứ kia tăng (hoặc giảm) theo một nhịp cố định. Hồi quy tuyến tính là công cụ máy dùng để tự học ra con số nhịp đó từ dữ liệu quan sát.
Bia hơi Tạ Hiện
Nhiệt độ càng cao → bán càng chạy. Biến cảm giác thành một công thức đo được.
Phòng trọ HUST
Diện tích tăng → giá tăng. Máy học được “mỗi m² đắt thêm bao tiền”.
Điểm thi đại học
Giờ học thêm tăng → điểm kỳ vọng tăng. Nhịp cụ thể là bao nhiêu? Hồi quy trả lời.
Hình minh họa
Đây là bàn làm việc của bạn. Kéo thanh trượtđể chỉnh độ dốc và điểm chặn — thử vẽ một đường mà bạn thấy “hợp” với đám điểm. Khi đã ưng ý, bật Đường tối ưu để so với cách máy tìm.
Bạn có thể thử bằng tay cho 5 điểm. Máy làm được chuyện đó cho 5 triệu điểm trong tích tắc. Chấm hết.
Máy tìm đường tối ưu như thế nào? — 3 bước
Đừng lo công thức. Chỉ cần nắm ý tưởng: tính sai số từng điểm → bình phương rồi cộng lại → tìm đường làm tổng nhỏ nhất. Bấm Tiếp tục để xem từng bước.
Lấy một điểm cụ thể: x = 100, giá trị thực y = 235. Đường thẳng giả định y = −0.5·x + 300 dự đoán ŷ = 250. Sai số (residual) = y − ŷ = 235 − 250 = −15. Dấu âm nghĩa là đường dự đoán cao hơn giá trị thực.
Sau khi fit, bạn nhận được MSE = 0 trên tập huấn luyện. Điều này có nghĩa là gì?
Bạn fit đường hồi quy cho giá nhà: y = 0.04·(diện tích) + 0.2 (đơn vị tỷ VNĐ, m²). Một căn 100m² thực tế bán 5 tỷ. Sai số (residual) của điểm này?
Giải thích
Hồi quy tuyến tínhtìm đường thẳng “hợp nhất” với dữ liệu bằng phương pháp bình phương tối thiểu(OLS — Ordinary Least Squares). Hãy đọc ba công thức sau theo kiểu “tóm tắt bằng ký hiệu” — phần giải thích nằm ngay dưới mỗi công thức, bằng tiếng Việt.
1. Phương trình đường thẳng
Đọc: giá trị dự đoán bằng độ dốc nhân với đầu vào cộng điểm chặn. w₁ nói “x tăng 1 đơn vị thì ŷ tăng bao nhiêu”. w₀ là giá trị ŷ khi x = 0 — nơi đường cắt trục y. Toàn bộ bài toán hồi quy là tìm đúng cặp (w₁, w₀).
Hình hoá bằng đường đồ thị
2. Thước đo chất lượng — MSE (Mean Squared Error)
Đọc: với mỗi điểm, lấy sai số (thực − dự đoán), bình phương, rồi lấy trung bình toàn bộ. Bình phương làm hai việc: bỏ dấu âm (sai trên hay sai dưới đều là sai) và phạt nặng các sai số lớn. MSE càng nhỏ, đường càng sát dữ liệu.
3. Lời giải đóng — cách máy tìm (w₀, w₁) không cần đoán
Đọc: nhìn qua cho biết có lời giải “cắm cốc”, không phải lo. Đây chính là lý do bạn không phải thử hàng triệu đường — máy tính được (w₁, w₀) tối ưu bằng đúng hai phép tổng (Σxy, Σx, Σy, Σx²). Với dữ liệu hàng tỷ mẫu, người ta dùng gradient descent thay vì công thức đóng, nhưng ý tưởng vẫn là: đi tìm đáy parabol của hàm MSE.
Hồi quy tuyến tính cũng có hạn chế: nó chỉ vẽ được đường thẳng. Nếu dữ liệu thực sự có dạng cong, bạn cần hồi quy đa thức. Nếu đầu ra là xác suất 0–1, bạn cần hồi quy logistic. Nếu có quá nhiều biến, người ta thêm regularization để tránh overfit.
- Mục tiêu: tìm đường thẳng ŷ = w₁·x + w₀ khớp nhất với dữ liệu.
- Thước đo: MSE — trung bình bình phương sai số. Nhỏ hơn = đường sát hơn.
- Có công thức đóng: máy tính (w₁, w₀) tối ưu ngay lập tức với dữ liệu nhỏ; với dữ liệu lớn dùng gradient descent.
- Nhạy cảm với ngoại lai: một điểm lệch xa có thể kéo cả đường.
- Chỉ bắt được quan hệ đường thẳng. Dữ liệu cong → cần mô hình khác.
Kiểm tra hiểu biết
Hồi quy tuyến tính tìm một đường thẳng sao cho điều gì là nhỏ nhất?