foundations

Supervised / Unsupervised / Reinforcement Learning

Ba kiểu học máy: supervised, unsupervised, reinforcement

Độ khóbeginner

1Thử đoán1/8

Một đứa trẻ học cái gì đó trong ba tình huống sau. Bạn đoán xem tình huống nào giống học tăng cường (reinforcement) nhất?

2Ẩn dụ2/8

Ba cách bạn từng học trong đời

Học với thầy cô

Bạn làm đề, thầy khoanh đỏ, trả đáp án đúng. Lần sau gặp đề tương tự, bạn biết phải làm sao. Đây là học có giám sát (supervised learning).

Tự gom đồ chơi

Không ai dạy, nhưng bạn vẫn xếp được một chồng xe ô tô, một chồng búp bê, một chồng thú nhồi bông. Đây là học không giám sát (unsupervised learning).

Tập đạp xe

Ngã thì đau, đi được thì vui. Dần dần cơ thể học ra công thức giữ thăng bằng. Đây là học tăng cường (reinforcement learning).

Cốt lõi phải nhớ

Ba kiểu khác nhau ở chỗ tín hiệu mà máy nhận được. Có nhãn đúng sẵn thì là supervised. Không có tín hiệu nào thì là unsupervised. Có điểm thưởng sau mỗi hành động thì là reinforcement. Đổi tín hiệu là đổi kiểu học.

3Khám phá3/8

Hình minh họa

Học có giám sát: mở thẻ để xem nhãn

Bấm vào mỗi thẻ để “mở đáp án”. Giống hệt bạn lật thẻ từ vựng: xem đặc điểm, đoán trong đầu, rồi so với nhãn đúng.

Bạn đã xem 0 / 6 cặp (đặc điểm → nhãn). Mô hình cũng học đúng như bạn: càng nhiều cặp, càng giỏi đoán quả mới.

Hãy chạy cả ba tab

Bấm qua lại giữa ba tab. Bạn sẽ cảm nhận ngay rằng cùng một đám dữ liệu, tuỳ kiểu học máy cho ra những kết quả rất khác. Dữ liệu có nhãn thì dùng supervised. Dữ liệu không nhãn thì unsupervised. Có môi trường tương tác thì reinforcement.

4Khoảnh khắc Aha4/8

Ba kiểu học không đua với nhau xem kiểu nào “thông minh nhất”. Chúng là ba công cụ cho ba loại dữ liệu khác nhau.

Có nhãn thì dùng supervised. Không nhãn thì dùng unsupervised. Có môi trường để thử thì dùng reinforcement. Dữ liệu của bạn quyết định kiểu học, không phải ngược lại.

5Hiểu sâu5/8

Ghép công việc thực tế với kiểu học phù hợp

Năm tình huống đời thực dưới đây. Hãy ghép mỗi việc với kiểu học mà bạn sẽ chọn. Câu trả lời nằm ở bạn có gì trong tay: nhãn, dữ liệu thô, hay môi trường tương tác.

Nối mỗi việc ở Cột A với kiểu học phù hợp ở Cột B.

Cột A

Cột B

Quy trình 4 bước chọn kiểu học cho bài toán mới

Bước 1: Dữ liệu có nhãn không?

Có nhãn đúng sẵn cho mỗi mẫu không?Ví dụ, 10 nghìn ảnh đã dán nhãn “chó/mèo”, hoặc 50 nghìn giao dịch đã được bank xác nhận là “gian lận/hợp lệ”. Nếu có, hãy ưu tiên supervised, vì đây là cách nhanh và chắc nhất.

6Thử thách6/8

Một startup giao hàng muốn huấn luyện AI điều phối shipper sao cho đơn đến nhanh nhất. Họ có 500 nghìn đơn lịch sử (kèm thời gian thực tế), bản đồ giao thông cập nhật theo phút, và bộ mô phỏng thành phố để AI thử các chiến lược. Kiểu học NÀO HỢP NHẤT cho việc chọn tuyến cho mỗi đơn mới?

7Giải thích7/8

Giải thích

Ba kiểu học máy khác nhau ở loại dữ liệu và loại tín hiệu học. Bạn không cần nhớ công thức, chỉ cần nhớ ba bộ ba dưới đây.

Học có giám sát

Dữ liệu: mỗi mẫu có nhãn đúng.

Tín hiệu: sai số giữa dự đoán và nhãn.

Ví dụ: dự đoán giá nhà, nhận diện chữ viết tay, lọc spam.

Thuật toán phổ biến: hồi quy tuyến tính, cây quyết định, mạng nơ-ron.

Học không giám sát

Dữ liệu: chỉ có input, không nhãn.

Tín hiệu: khoảng cách, mật độ, cấu trúc ẩn.

Ví dụ: phân nhóm khách hàng, phát hiện giao dịch bất thường.

Thuật toán phổ biến: K-means, DBSCAN, phân tích thành phần chính.

Học tăng cường

Dữ liệu: chuỗi (trạng thái, hành động, phần thưởng).

Tín hiệu: tổng phần thưởng tích luỹ.

Ví dụ: AlphaGo, robot tự lái, gợi ý Netflix.

Thuật toán phổ biến: Q-learning, policy gradient, RLHF.

Phân biệt bằng một câu hỏi duy nhất

Khi nhìn một bài toán mới, hãy hỏi: Máy nhận được tín hiệu gì sau khi đoán?

Có nhãn đúng để so, vậy là supervised.Giống thầy cô chấm bài. Bạn đoán “cam”, đáp án là “táo”, sai. Lần sau điều chỉnh.
Không có tín hiệu nào, vậy là unsupervised.Máy tự tìm cấu trúc dựa trên “những điểm nào gần nhau”.
Chỉ có reward sau mỗi hành động, vậy là reinforcement.Máy không được bảo đúng hay sai cụ thể, chỉ biết “hành động vừa rồi tốt hay xấu”.

Bẫy phổ biến cho người mới

“Dữ liệu càng nhiều càng tốt” là câu đúng, nhưng với supervised thì chất lượng nhãn quan trọng hơn số lượng. 10 nghìn ảnh dán nhãn cẩu thả thua 1 nghìn ảnh dán cẩn thận. Hãy đầu tư thời gian cho việc gắn nhãn đúng.

Kiểu học lai ngoài sách giáo khoa

Trong thực tế, các đội AI hay dùng semi-supervised (ít nhãn cộng với nhiều dữ liệu thô) và self-supervised (máy tự tạo nhãn từ chính dữ liệu, ví dụ GPT đoán từ tiếp theo). GPT-4 và Claude được huấn luyện kết hợp cả self-supervised lẫn RLHF.

Nhớ điều này trên hết.Kiểu học đúng không đến từ “thuật toán nào hot nhất trên Twitter”. Nó đến từ việc bạn nhìn kỹ dữ liệu mình đang có: có nhãn, không nhãn, hay có môi trường. Chọn nhầm là đi lạc cả dự án.

8Tóm tắt & kiểm tra8/8

4 điều cần nhớ về ba kiểu học

Supervised: dữ liệu có nhãn, học từ đáp án. Dùng cho dự đoán, phân loại.
Unsupervised: dữ liệu không nhãn, tự tìm cấu trúc. Dùng cho phân nhóm, phát hiện bất thường.
Reinforcement: có action và reward, học ra policy. Dùng cho game, robot, chatbot.
Dữ liệu của bạn quyết định kiểu học, không phải ngược lại. Chọn nhầm là đi lạc cả dự án.

Bài ứng dụng liên quan

Muốn xem ba kiểu học này phối hợp cùng lúc trong một sản phẩm thực? Hãy đọc tiếp Ba kiểu học trong Netflix. Ở đó supervised đoán điểm, unsupervised chia nhóm sở thích, và reinforcement chọn ảnh bìa hiển thị.

Kiểm tra hiểu biết

Câu 1/6

Bạn có 5.000 ảnh đã được dán nhãn 'chó' hoặc 'mèo'. Bạn muốn AI tự đoán con vật trong ảnh mới. Đây là kiểu học nào?

Chủ đề liên quan

Linear Regression: Hồi quy tuyến tính K-Means Clustering: Phân cụm k-means RLHF: RLHF - Học tăng cường từ phản hồi con người