classic-ml

Decision Trees

Cây quyết định

Độ khóintermediate

1Hook1/8

Hỏi 20 câu để đoán đồ vật

Hồi nhỏ bạn từng chơi game “Tôi đang nghĩ đến một con vật”. Bạn hỏi liên tục: Nó sống trên cạn không? → Có 4 chân không? → Nó có sọc không?. Mỗi câu hỏi chia đôi khả năng cho đến khi chỉ còn lại một đáp án. Cây quyết định làm đúng như vậy. Khác biệt duy nhất: máy tính chọn câu hỏi có ích nhất bằng một công thức thay vì linh cảm.

Thử mini-game: đoán con vật

Nó sống trên cạn không?

Bạn đưa cho AI 24 học sinh (giờ học, điểm kiểm tra) và bảo nó dự đoán ai qua môn. AI chọn câu hỏi đầu tiên ở gốc cây bằng cách nào?

2Cách đọc cây2/8

Một cây có ba loại phần:

Nút câu hỏi

Mỗi nút bên trong cây là một câu hỏi kiểu “đặc trưng X ≤ ngưỡng T?”. Nhánh trái (≤), nhánh phải (>).

Lá QUA

Kết thúc nhánh. Lá xanh = đa số mẫu rơi vào đây thuộc lớp “qua môn”.

Lá RỚT

Lá đỏ = đa số mẫu ở đây thuộc lớp “rớt”. Dự đoán cho một điểm mới = đi theo câu hỏi đến khi chạm lá.

Mỗi câu hỏi cắt không gian dữ liệu thành 2 phần

Trên biểu đồ scatter, một câu hỏi kiểu “giờ học ≤ 5.5” là một đường thẳng đứng. Một câu hỏi “điểm ≤ 6.5” là một đường nằm ngang. Cả cây sẽ tạo ra những “ô chữ nhật” tô màu: nền xanh là vùng dự đoán qua môn, nền đỏ là vùng rớt.

3Khám phá3/8

Hình minh họa

1Thử nghiệm 1 · Tự tay xây cây

Chọn đặc trưng, kéo ngưỡng, và xem cây mọc ra. Mỗi lần áp dụng một split, cây mọc thêm một tầng. Tối đa độ sâu 3, đúng mức thường dùng trong thực tế để tránh overfitting.

Không gian đặc trưng

Xanh = qua môn, đỏ = rớt. Đường tím = ngưỡng bạn đang xem trước.

Cây quyết định hiện tại1 lá · acc 58%

Chia nútGốc: 24 mẫu

Ngưỡng (giờ học) ≤ 6.0trái 15 · phải 9

Gini trước

0.486

Gini sau

0.278

Giảm

+0.208

2Thử nghiệm 2 · max_depth và tiêu chí

Thử đổi max_depth: xem cây 'mọc' sâu hơn hay bị cắt tỉa

GINI3 lá · acc 100%

ENTROPY3 lá · acc 100%

Gini và Entropy thường cho kết quả rất gần nhau. Khi max_depth lớn hơn, cây sâu hơn. Độ chính xác trên tập train tăng nhưng rủi ro overfitting cũng tăng theo.

max_depth (giới hạn độ sâu)3

3Thử thách · Máy tính sẽ chọn split nào?

Lựa chọn chia nào giảm Gini nhiều nhất? (Gini gốc của 24 mẫu là 0.500 vì hai lớp cân bằng)

4Khoảnh khắc hiểu4/8

Cây quyết định không thông minh hơn bạn, nó chỉ chăm chỉ hơn. Nó thử mọi câu hỏi có thể, đo độ lẫn lộn của dữ liệu sau khi chia bằng công thức Gini, và chọn câu hỏi giảm độ lẫn lộn nhiều nhất. Lặp lại quy trình đó ở từng nút → bạn có một cây tự mọc ra từ dữ liệu, đọc được từng nhánh như đọc một bản thuật toán chẩn đoán của bác sĩ.

5Thử thách5/8

Bạn có 2 cây: A (sâu 2, acc_train = 82%, acc_val = 80%) vs B (sâu 8, acc_train = 99%, acc_val = 73%). Chọn cây nào đem ra dùng thật?

6Giải thích6/8

Giải thích

Ở mỗi nút, cây quyết định trả lời đúng một câu: trong tất cả cách chia, cách nào làm dữ liệu “sạch” nhất? Có hai công thức phổ biến để đo độ sạch. Cả hai đều nhỏ khi dữ liệu đã gần như cùng một lớp.

Công thức 1. Gini impurity (mặc định của scikit-learn)

\text{Gini} = 1 - \sum_{k} p_k^2

Nói bằng tiếng Việt đời thường: “Nếu bạn rút ngẫu nhiên 1 mẫu ra, rồi đoán nhãn cho nó bằng cách lại rút ngẫu nhiên 1 mẫu nữa, xác suất đoán sai là bao nhiêu?”. Dữ liệu thuần một lớp → Gini = 0. Hai lớp cân bằng 50/50 → Gini = 0.5 (cao nhất).

Gini Entropy

Thử p₁:p₁=0.50 · Gini=0.500 · H=1.000

Công thức 2. Entropy (nền tảng lý thuyết thông tin)

H = -\sum_{k} p_k \log_2 p_k

Nói bằng tiếng Việt đời thường: “Cần trung bình bao nhiêu câu hỏi yes/no để biết chắc nhãn của một mẫu?”. Thuần 1 lớp → cần 0 câu, H = 0. 50/50 → cần 1 câu, H = 1 (cho 2 lớp). Gini và Entropy thường cho cây gần như giống nhau, chọn cái nào cũng ổn. Scikit-learn mặc định dùng Gini vì nhanh hơn (không có log).

Giảm Gini bao nhiêu là đủ?

Không có ngưỡng cố định. Cây quyết định dừng khi: (a) đạt max_depth bạn đặt, (b) nút đã thuần khiết, hoặc (c) không còn split nào làm giảm Gini đáng kể. Trong thực tế, bạn để max_depth cố định nhỏ (2–6) và để thuật toán tự quyết khi nào dừng sớm.

Quy trình ở mỗi nút

Bước 1: liệt kê

Liệt kê mọi ngưỡng ứng viên. Với mỗi đặc trưng, sắp xếp các giá trị khác nhau, rồi lấy trung điểm giữa hai giá trị kề nhau làm ngưỡng thử. Nếu đặc trưng có 15 giá trị khác nhau → 14 ngưỡng.

Tham số quan trọng cần biết

max_depth

Giới hạn số tầng của cây. Nhỏ (2–4) → đơn giản, dễ hiểu, ít overfit. Lớn (8+) → accuracy train cao nhưng rủi ro overfit.

min_samples_leaf

Số mẫu tối thiểu ở mỗi lá. Đặt 10–20 với dataset vừa phải để tránh lá quá nhỏ = lá học thuộc.

criterion

'gini' (mặc định, nhanh) hoặc 'entropy' (gốc lý thuyết thông tin). Hai cái thường cho kết quả rất gần nhau.

ccp_alpha

Cost-complexity pruning, 'phạt' cây lớn. Tăng α → cây nhỏ hơn. Là cách hiện đại để tránh overfit thay cho min_samples.

Một cây đơn có variance rất cao

Đổi vài điểm trong tập huấn luyện → cây có thể đổi gần như toàn bộ. Đó là lý do trong thực tế hiếm khi bạn dùng một cây đơn, mà dùng Random Forest (trung bình hàng trăm cây) hoặc Gradient Boosting (XGBoost, LightGBM). Cây đơn chỉ nên dùng khi bạn cần đọc được luật để trình bày cho người ngoài chuyên môn.

Cây quyết định kết nối với nhiều khái niệm khác: overfitting/underfitting giải thích vì sao phải giới hạn độ sâu, đánh đổi bias-variancelà khung lý thuyết chung. Khi bạn thấy cây quyết định “đọc” xong, bạn cũng đã sẵn sàng học Random Forest.

7Tóm tắt7/8

4 điều cần nhớ về cây quyết định

Cây quyết định = chuỗi câu hỏi 'đặc trưng ≤ ngưỡng?'. Dự đoán = đi theo câu hỏi từ gốc đến khi chạm lá.
Chọn split tốt nhất ở mỗi nút bằng Gini (hoặc Entropy): thử hết mọi cặp (đặc trưng, ngưỡng), chọn cái giảm độ lẫn lộn nhiều nhất.
Ưu điểm: dễ đọc, không cần chuẩn hóa dữ liệu, xử lý đặc trưng hỗn hợp tự nhiên, robust với outlier.
Nhược điểm: cây sâu = overfit. Kiểm soát bằng max_depth, min_samples_leaf, ccp_alpha. Hoặc dùng Random Forest / Boosting để mạnh hơn hẳn.

Muốn xem ngành thật dùng cây quyết định ra sao?

Xem ứng dụng chấm điểm tín dụng: Cây quyết định trong chấm điểm tín dụng. Cách ngân hàng và FICO dùng cây để quyết cho vay hay không, và vì sao tính “đọc được” của cây là yêu cầu pháp lý.

8Kiểm tra8/8

Kiểm tra hiểu biết

Câu 1/5

Cây quyết định chọn câu hỏi nào tại mỗi nút để chia dữ liệu?

Chủ đề liên quan

Random Forests: Rừng ngẫu nhiên Gradient Boosting (XGBoost): Tăng cường gradient Ensemble Methods: Phương pháp kết hợp. Đồng tay vỗ nên kêu