Supervised / Unsupervised / Reinforcement Learning
Ba kiểu học máy: supervised, unsupervised, reinforcement
Một đứa trẻ học cái gì đó trong ba tình huống sau. Bạn đoán xem tình huống nào giống học tăng cường (reinforcement) nhất?
Ba cách bạn từng học trong đời
Bạn làm đề, thầy khoanh đỏ, trả đáp án đúng. Lần sau gặp đề tương tự, bạn biết phải làm sao. Đây là học có giám sát (supervised learning).
Không ai dạy, nhưng bạn vẫn xếp được một chồng xe ô tô, một chồng búp bê, một chồng thú nhồi bông. Đây là học không giám sát (unsupervised learning).
Ngã thì đau, đi được thì vui. Dần dần cơ thể học ra công thức giữ thăng bằng. Đây là học tăng cường (reinforcement learning).
Hình minh họa
Học có giám sát: mở thẻ để xem nhãn
Bấm vào mỗi thẻ để “mở đáp án”. Giống hệt bạn lật thẻ từ vựng: xem đặc điểm, đoán trong đầu, rồi so với nhãn đúng.
Có nhãn thì dùng supervised. Không nhãn thì dùng unsupervised. Có môi trường để thử thì dùng reinforcement. Dữ liệu của bạn quyết định kiểu học, không phải ngược lại.
Ghép công việc thực tế với kiểu học phù hợp
Năm tình huống đời thực dưới đây. Hãy ghép mỗi việc với kiểu học mà bạn sẽ chọn. Câu trả lời nằm ở bạn có gì trong tay: nhãn, dữ liệu thô, hay môi trường tương tác.
Nối mỗi việc ở Cột A với kiểu học phù hợp ở Cột B.
Cột A
Cột B
Quy trình 4 bước chọn kiểu học cho bài toán mới
Có nhãn đúng sẵn cho mỗi mẫu không?Ví dụ, 10 nghìn ảnh đã dán nhãn “chó/mèo”, hoặc 50 nghìn giao dịch đã được bank xác nhận là “gian lận/hợp lệ”. Nếu có, hãy ưu tiên supervised, vì đây là cách nhanh và chắc nhất.
Một startup giao hàng muốn huấn luyện AI điều phối shipper sao cho đơn đến nhanh nhất. Họ có 500 nghìn đơn lịch sử (kèm thời gian thực tế), bản đồ giao thông cập nhật theo phút, và bộ mô phỏng thành phố để AI thử các chiến lược. Kiểu học NÀO HỢP NHẤT cho việc chọn tuyến cho mỗi đơn mới?
Giải thích
Ba kiểu học máy khác nhau ở loại dữ liệu và loại tín hiệu học. Bạn không cần nhớ công thức, chỉ cần nhớ ba bộ ba dưới đây.
Dữ liệu: mỗi mẫu có nhãn đúng.
Tín hiệu: sai số giữa dự đoán và nhãn.
Ví dụ: dự đoán giá nhà, nhận diện chữ viết tay, lọc spam.
Thuật toán phổ biến: hồi quy tuyến tính, cây quyết định, mạng nơ-ron.
Dữ liệu: chỉ có input, không nhãn.
Tín hiệu: khoảng cách, mật độ, cấu trúc ẩn.
Ví dụ: phân nhóm khách hàng, phát hiện giao dịch bất thường.
Thuật toán phổ biến: K-means, DBSCAN, phân tích thành phần chính.
Dữ liệu: chuỗi (trạng thái, hành động, phần thưởng).
Tín hiệu: tổng phần thưởng tích luỹ.
Ví dụ: AlphaGo, robot tự lái, gợi ý Netflix.
Thuật toán phổ biến: Q-learning, policy gradient, RLHF.
Phân biệt bằng một câu hỏi duy nhất
Khi nhìn một bài toán mới, hãy hỏi: Máy nhận được tín hiệu gì sau khi đoán?
- Có nhãn đúng để so, vậy là supervised.Giống thầy cô chấm bài. Bạn đoán “cam”, đáp án là “táo”, sai. Lần sau điều chỉnh.
- Không có tín hiệu nào, vậy là unsupervised.Máy tự tìm cấu trúc dựa trên “những điểm nào gần nhau”.
- Chỉ có reward sau mỗi hành động, vậy là reinforcement.Máy không được bảo đúng hay sai cụ thể, chỉ biết “hành động vừa rồi tốt hay xấu”.
Nhớ điều này trên hết.Kiểu học đúng không đến từ “thuật toán nào hot nhất trên Twitter”. Nó đến từ việc bạn nhìn kỹ dữ liệu mình đang có: có nhãn, không nhãn, hay có môi trường. Chọn nhầm là đi lạc cả dự án.
- Supervised: dữ liệu có nhãn, học từ đáp án. Dùng cho dự đoán, phân loại.
- Unsupervised: dữ liệu không nhãn, tự tìm cấu trúc. Dùng cho phân nhóm, phát hiện bất thường.
- Reinforcement: có action và reward, học ra policy. Dùng cho game, robot, chatbot.
- Dữ liệu của bạn quyết định kiểu học, không phải ngược lại. Chọn nhầm là đi lạc cả dự án.
Kiểm tra hiểu biết
Bạn có 5.000 ảnh đã được dán nhãn 'chó' hoặc 'mèo'. Bạn muốn AI tự đoán con vật trong ảnh mới. Đây là kiểu học nào?