Supervised / Unsupervised / Reinforcement Learning
Ba kiểu học: có giám sát, không giám sát, tăng cường
Một đứa trẻ học cái gì đó trong ba tình huống sau. Bạn đoán xem tình huống nào giống 'học tăng cường' nhất?
Ba cách bạn từng học trong đời
Bạn làm đề, thầy khoanh đỏ, trả đáp án đúng. Lần sau gặp đề tương tự, bạn biết phải làm sao. Đây là học có giám sát.
Không ai dạy, nhưng bạn vẫn xếp được một chồng xe ô tô, một chồng búp bê, một chồng thú nhồi bông. Đây là học không giám sát.
Ngã thì đau, đi được thì vui. Dần dần cơ thể học ra công thức giữ thăng bằng. Đây là học tăng cường.
Hình minh họa
Học có giám sát — mở thẻ để xem nhãn
Bấm vào mỗi thẻ để “mở đáp án”. Giống hệt bạn lật thẻ từ vựng: xem đặc điểm, đoán trong đầu, rồi so với nhãn đúng.
Có nhãn ⇒ học có giám sát. Không nhãn ⇒ học không giám sát. Có môi trường để thử ⇒ học tăng cường. Dữ liệu của bạn quyết định kiểu học, không phải ngược lại.
Ghép công việc thực tế với kiểu học phù hợp
Năm tình huống đời thực dưới đây. Hãy ghép mỗi việc với kiểu học mà bạn sẽ chọn. Nhớ: câu trả lời nằm ở bạn có gì trong tay — nhãn, dữ liệu thô, hay môi trường tương tác.
Nối mỗi việc ở Cột A với kiểu học phù hợp ở Cột B.
Cột A
Cột B
Quy trình 4 bước chọn kiểu học cho bài toán mới
Có nhãn đúng sẵn cho mỗi mẫu không?Ví dụ: 10 nghìn ảnh đã dán nhãn “chó/mèo”; 50 nghìn giao dịch đã được bank xác nhận là “gian lận/hợp lệ”. Nếu có ⇒ ưu tiên học có giám sát, vì đây là cách nhanh và chắc nhất.
Một startup giao hàng muốn huấn luyện AI điều phối shipper sao cho đơn đến nhanh nhất. Họ có: 500 nghìn đơn lịch sử (có thời gian thực tế), bản đồ giao thông cập nhật theo phút, và bộ mô phỏng thành phố để AI thử các chiến lược. Kiểu học NÀO HỢP NHẤT cho việc chọn tuyến cho mỗi đơn mới?
Giải thích
Ba kiểu học máy khác nhau ở loại dữ liệu và loại tín hiệu học. Bạn không cần nhớ công thức — chỉ cần nhớ ba bộ ba dưới đây.
Dữ liệu: mỗi mẫu có nhãn đúng.
Tín hiệu: sai số giữa dự đoán và nhãn.
Ví dụ: dự đoán giá nhà, nhận diện chữ viết tay, lọc spam.
Thuật toán phổ biến: hồi quy tuyến tính, cây quyết định, mạng nơ-ron.
Dữ liệu: chỉ có input, không nhãn.
Tín hiệu: khoảng cách, mật độ, cấu trúc ẩn.
Ví dụ: phân nhóm khách hàng, phát hiện giao dịch bất thường.
Thuật toán phổ biến: K-means, DBSCAN, phân tích thành phần chính.
Dữ liệu: chuỗi (trạng thái, hành động, phần thưởng).
Tín hiệu: tổng phần thưởng tích luỹ.
Ví dụ: AlphaGo, robot tự lái, gợi ý Netflix.
Thuật toán phổ biến: Q-learning, policy gradient, RLHF.
Phân biệt bằng một câu hỏi duy nhất
Khi nhìn một bài toán mới, hãy hỏi: Máy nhận được tín hiệu gì sau khi đoán?
- Có nhãn đúng để so → có giám sát.Giống thầy cô chấm bài: bạn đoán “cam”, đáp án là “táo”, sai. Lần sau điều chỉnh.
- Không có tín hiệu nào → không giám sát.Máy tự tìm cấu trúc dựa trên “những điểm nào gần nhau”.
- Chỉ có điểm thưởng sau mỗi hành động → tăng cường.Máy không được bảo đúng/sai cụ thể, chỉ biết “hành động vừa rồi tốt hay xấu”.
Nhớ điều này trên hết:kiểu học đúng không đến từ “thuật toán nào hot nhất trên Twitter”. Nó đến từ việc bạn nhìn kỹ dữ liệu mình đang có — có nhãn, không nhãn, hay có môi trường. Chọn nhầm là đi lạc cả dự án.
- Có giám sát: dữ liệu có nhãn → học từ 'đáp án'. Dùng cho dự đoán, phân loại.
- Không giám sát: dữ liệu không nhãn → tự tìm cấu trúc. Dùng cho phân nhóm, phát hiện bất thường.
- Tăng cường: action + phần thưởng → học chính sách. Dùng cho game, robot, chatbot.
- Dữ liệu của bạn quyết định kiểu học, không phải ngược lại. Chọn nhầm = đi lạc cả dự án.
Kiểm tra hiểu biết
Bạn có 5.000 ảnh đã được dán nhãn 'chó' hoặc 'mèo'. Bạn muốn AI tự đoán con vật trong ảnh mới. Đây là kiểu học nào?