classic-ml

Confusion Matrix / Precision / Recall / F1

Ma trận nhầm lẫn

Độ khóintermediate

1Thử đoán1/8

Một bệnh viện có mô hình sàng lọc ung thư đạt 99% accuracy. Chỉ 2 trong 100 bệnh nhân thực sự mắc bệnh. Bạn có yên tâm với con số 99% đó?

2Hiểu bằng hình ảnh2/8

Bốn loại kết quả khi mô hình phán đoán

Hãy tưởng tượng bạn là bác sĩ đang dùng một mô hình AI hỗ trợ. Với mỗi bệnh nhân, có đúng hai câu hỏi quan trọng: “mô hình dự đoán có bệnh hay không?” và “thực tế bệnh nhân có bệnh hay không?”. Hai câu hỏi × hai đáp án = bốn ô.

TPĐoán có bệnh, đúng

Đoán 'có bệnh' và thực tế có bệnh. Bắt đúng ca cần chữa.

FPBáo động giả

Đoán 'có bệnh' nhưng thực tế không bệnh. Làm bệnh nhân lo và tốn xét nghiệm.

FNBỏ sót

Đoán 'không bệnh' nhưng thực tế có bệnh. Nguy hiểm, bệnh nhân về nhà không được chữa.

TNĐoán không bệnh, đúng

Đoán 'không bệnh' và thực tế không bệnh. Cho bệnh nhân yên tâm ra về.

Lưu ý cách gọi tên: chữ T/Fở đầu nói về “mô hình đoán có đúng không”, chữ P/N nói về “mô hình đoán gì”. TP = đoán dương + đúng. FP = đoán dương + sai. Một mẹo ghi nhớ: chữ thứ hai (P/N) luôn là dự đoán của mô hình.

3Khám phá3/8

Hình minh họa

Dưới đây là 20 bệnh nhân. Mỗi người có một điểm nguy cơdo mô hình tính ra, từ 0 (chắc chắn khoẻ) đến 1 (chắc chắn bệnh). Bạn đặt một ngưỡng. Ai vượt ngưỡng thì gán là “có bệnh”. Kéo thanh trượt và quan sát từng bệnh nhân nhảy qua lại giữa bốn ô.

Ngưỡng quyết địnhT = 0.50

0.05 · lưới rất rộng0.50 · mặc định0.95 · chỉ ca hiển nhiên

Cân bằng. Mặc định ban đầu.

20 bệnh nhân, mỗi biểu tượng là một ca thật

0.92TP

0.88TP

0.83TP

0.78TP

0.72FP

0.68TP

0.63FP

0.58TP

0.55FP

0.51TP

0.48TN

0.44FN

0.40TN

0.36TN

0.31TN

0.26FN

0.21TN

0.16TN

0.11TN

0.06TN

TP: Đoán có bệnh, đúng

FP: Báo động giả

FN: Bỏ sót

TN: Đoán không bệnh, đúng

Ma trận nhầm lẫn 2 × 2

Thực tế: BỆNH

Thực tế: KHOẺ

Đoán: BỆNH

Đoán có bệnh, đúng

Báo động giả

Đoán: KHOẺ

Bỏ sót

Đoán không bệnh, đúng

Accuracy

75.0%

Đoán đúng bao nhiêu phần trăm?

Precision

70.0%

Khi báo có bệnh, đúng bao nhiêu?

Recall

77.8%

Bắt được bao nhiêu ca bệnh thật?

73.7%

Cân bằng Precision và Recall

Quan sát quan trọng khi kéo thanh

Khi ngưỡng thấp (T ≤ 0.3): precision giảm vì báo nhầm nhiều (FP cao), nhưng recall gần 100%, bạn bắt gần hết người bệnh. Khi ngưỡng cao(T ≥ 0.8): precision cao (hầu như đoán là chắc chắn đúng) nhưng recall giảm, nhiều bệnh nhân thật bị bỏ sót. Không có con số “đúng” tuyệt đối. Nó phụ thuộc chi phí thật của FP và FN trong bài toán cụ thể.

4Khoảnh khắc hiểu4/8

Một con số accuracy không cho bạn biết mô hình đang sai ở đâu. Mô hình có thể đạt 99% accuracy mà vẫn vô dụng nếu nó bỏ sót 100% ca bệnh.

Ma trận 2 × 2 chia lỗi thành hai loại khác nhau về chất: báo động giả (FP) và bỏ sót (FN). Hai loại này thường có chi phí không cân bằng. Biết lỗi nào đắt hơn, bạn biết phải chỉnh ngưỡng bên nào.

5Đi sâu5/8

Khi nào ưu tiên Recall, khi nào ưu tiên Precision?

Hai bài toán dưới đây có vẻ giống nhau, nhưng chi phí lỗi hoàn toàn khác. Bấm qua lại để cảm nhận vì sao một con số metric không đủ.

Hai tình huống, hai cách cân bằng khác nhau.

Sàng lọc ung thư

Bỏ sót (FN) = bệnh nhân tin mình khoẻ, ung thư di căn, có thể tử vong. Báo động giả (FP) chỉ tốn thêm một lượt xét nghiệm xác nhận.

Chiến lược: hạ ngưỡng xuống thấp, chấp nhận nhiều FP để bảo đảm recall cao. Mô hình sàng lọc thường chỉ là bước đầu, đội y tế sẽ kiểm tra kỹ những ca báo dương.

Bốn bài toán thực tế, bốn chiến lược khác nhau từ cùng một công cụ

Mỗi ngành nghề có cấu trúc chi phí FP / FN riêng. Bảng dưới đây tóm tắt cách bốn lĩnh vực quen thuộc chọn metric ưu tiên và vì sao.

🏥Sàng lọc ung thư

Chi phí FP: Thêm một lượt xét nghiệm xác nhận

Chi phí FN: Bỏ sót bệnh nhân, có thể tử vong

Chiến lược: Recall cao

📨Lọc spam email công ty

Chi phí FP: Xoá nhầm email khách hàng quan trọng

Chi phí FN: Spam lọt vào hộp thư, bất tiện nhưng không nguy hiểm

Chiến lược: Precision cao

💳Phát hiện gian lận thẻ

Chi phí FP: Chặn giao dịch thật, khách bực, có thể đổi ngân hàng

Chi phí FN: Để lọt gian lận, thẻ bị hack, thiệt hại tiền thật

Chiến lược: Cân bằng F-beta (β≈0.5), ưu tiên precision nhẹ

🚨Cảnh báo cháy rừng

Chi phí FP: Triển khai xe cứu hoả không cần thiết (tốn nhân lực)

Chi phí FN: Bỏ sót đám cháy, thiệt hại rất lớn, bất khả hồi phục

Chiến lược: Recall rất cao

Bốn bước đọc một ma trận nhầm lẫn lạ

Khi bạn gặp một báo cáo mô hình mới, đây là thứ tự bạn nên kiểm tra:

Bước 1: Nhìn FN

Có bao nhiêu ca bệnh bị bỏ sót? Đây là con số quan trọng nhất trong y tế, an ninh, phát hiện gian lận. Nếu FN quá cao, bạn biết ngay rằng mô hình đang quá dè dặt.

6Thử thách6/8

Với xét nghiệm nhanh HIV cho mục đích sàng lọc diện rộng ở cộng đồng, bạn nên ưu tiên metric nào?

Một nhóm phát hiện gian lận thẻ tín dụng thấy mô hình đang chặn nhầm 30% giao dịch hợp pháp (FP cao) nhưng vẫn để lọt 5% gian lận (FN thấp). Họ nên làm gì trước?

7Giải thích7/8

Giải thích

Bốn ô TP, FP, FN, TN sinh ra ba chỉ số thường dùng nhất. Mỗi công thức đi kèm một câu giải thích bằng tiếng Việt thường ngày, bạn không cần nhớ công thức nếu nhớ ý nghĩa.

Precision(độ chính xác của dự đoán dương)

\text{Precision} = \frac{TP}{TP + FP}

Trong mọi lần mô hình báo có bệnh, bao nhiêu phần trăm là đúng? Precision cao nghĩa là mô hình ít báo nhầm.

Ví dụ hình dung:

Mô hình báo 5 ca: 4 đúng, 1 nhầm. Precision = 4/5 = 80%.

Recall(tỉ lệ bắt được ca bệnh)

\text{Recall} = \frac{TP}{TP + FN}

Trong tất cả người thực sự có bệnh, bao nhiêu phần trăm bị mô hình bắt được? Recall cao nghĩa là mô hình ít bỏ sót.

Ví dụ hình dung:

Có 5 người bệnh, mô hình bắt được 3, bỏ sót 2. Recall = 3/5 = 60%.

F1(một con số cân bằng cả hai)

F_1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}

Trung bình điều hoà của precision và recall. Nếu một trong hai rất thấp, F1 cũng sẽ thấp, khác với trung bình cộng (bị lừa khi một bên cao bù một bên thấp).

Ví dụ: Precision = 0.9, Recall = 0.1. Trung bình cộng = 0.5 (nghe tốt), nhưng F1 = 0.18 (phản ánh đúng việc mô hình bỏ sót 90% ca bệnh).

Mỗi chỉ số nhìn vào một phần khác của ma trận

Precision

Nhìn cột 'đoán dương': cộng TP và FP, hỏi tỉ lệ đúng.

Recall

Nhìn hàng 'thực tế dương': cộng TP và FN, hỏi bắt được bao nhiêu.

Accuracy

Nhìn đường chéo: tỉ lệ cả TP và TN trên tổng.

Vì precision và recall nhìn các phần khác nhau của ma trận, chúng có thể cùng cao, cùng thấp, hoặc ngược chiều, phụ thuộc cách mô hình phân bố lỗi. Luôn xem cả ba con số để tránh mù điểm.

Mẹo nhanh khi FP và FN có chi phí khác nhau

Nếu một lỗi FN tốn chi phí C_FN và một lỗi FP tốn C_FP, chi phí kỳ vọng trên mỗi dự đoán là:

Cost = C_FN × (số ca FN) + C_FP × (số ca FP)

Khi bạn không chắc “nên ưu tiên precision hay recall”, hãy ước lượng hai con số C_FN và C_FP:

Sàng lọc ung thư

C_FN: 10 000 (tổn thương sức khoẻ nặng, mất thời gian vàng)

C_FP: 200 (một lượt xét nghiệm bổ sung)

C_FN / C_FP = 50 → hạ ngưỡng, ưu tiên recall rất cao.

Gợi ý sản phẩm

C_FN: 1 (chỉ là cơ hội bán hàng bị bỏ qua)

C_FP: 5 (slot gợi ý trên trang chủ là tài nguyên khan hiếm)

C_FN / C_FP ≈ 0.2 → nâng ngưỡng, ưu tiên precision cao.

Bẫy accuracy với dữ liệu mất cân bằng

Với dữ liệu mà lớp dương chỉ chiếm 1-5% (spam, gian lận, bệnh hiếm), mô hình luôn đoán “âm” đạt 95-99% accuracy nhưng recall = 0%. Đây là sai lầm tuyển dụng MLphổ biến nhất. Luôn đi kèm precision, recall, F1. Với dữ liệu rất mất cân bằng, xem cả cross-validation để đảm bảo ổn định.

Nhiều lớp, không chỉ 2 × 2

Với K lớp (ví dụ phân loại chữ số 0–9), ma trận là K × K. Mỗi hàng là lớp thực tế, mỗi cột là lớp dự đoán. Precision/Recall/F1 tính riêng cho mỗi lớp, rồi tổng hợp bằng macro-average (trung bình đều) hoặc weighted-average (có trọng số theo số mẫu).

Ma trận nhầm lẫn là cánh cửa đầu tiên để hiểu hiệu suất phân loại. Khi bạn đã quen, hãy xem thêm hồi quy logistic, mô hình sinh ra điểm xác suất mà chúng ta đang đặt ngưỡng ở đây. Sau đó cross-validation giúp bạn ước lượng các chỉ số một cách ổn định, không bị lừa bởi một tập test may mắn.

8Tóm tắt & Kiểm tra8/8

5 điều cần nhớ về ma trận nhầm lẫn

Mỗi dự đoán rơi vào đúng một trong bốn ô: TP, FP, FN, TN. Ma trận này là nguồn gốc của mọi chỉ số.
Accuracy có thể lừa bạn khi dữ liệu mất cân bằng. Hãy luôn nhìn precision, recall cùng lúc.
Precision trả lời 'khi tôi báo dương, tôi đúng bao nhiêu?'. Recall trả lời 'trong các ca dương thật, tôi bắt được bao nhiêu?'.
Ngưỡng là cái nút trực tiếp: nâng lên thì precision tăng, recall giảm; hạ xuống thì recall tăng, precision giảm.
Chọn metric khớp chi phí thật: y tế ưu tiên recall, gợi ý sản phẩm ưu tiên precision, nhiều bài toán chung dùng F1.

Xem ứng dụng thực tế

Câu chuyện COVID-19 RT-PCR và nghịch lý sàng lọc diện rộng: Ma trận nhầm lẫn trong xét nghiệm y tế.

Kiểm tra hiểu biết

Câu 1/6

Một bộ lọc spam đạt 99% accuracy trên 1000 email, nhưng chỉ 12 email thực sự là spam. Nếu nó luôn đoán 'không spam', accuracy sẽ là bao nhiêu?

Bạn có thể làm lại quiz bất cứ lúc nào.

Chủ đề liên quan

Logistic Regression: Hồi quy logistic ROC & AUC: ROC & AUC. Đo khả năng phân biệt Cross-Validation: Kiểm định chéo. Xoay vòng 5 đề thi thử

Hình minh họa

Ngưỡng quyết địnhT = 0.50

0.05 · lưới rất rộng0.50 · mặc định0.95 · chỉ ca hiển nhiên

Cân bằng. Mặc định ban đầu.

20 bệnh nhân, mỗi biểu tượng là một ca thật

0.92TP

0.88TP

0.83TP

0.78TP

0.72FP

0.68TP

0.63FP

0.58TP

0.55FP

0.51TP

0.48TN

0.44FN

0.40TN

0.36TN

0.31TN

0.26FN

0.21TN

0.16TN

0.11TN

0.06TN

TP: Đoán có bệnh, đúng

FP: Báo động giả

FN: Bỏ sót

TN: Đoán không bệnh, đúng

Ma trận nhầm lẫn 2 × 2

Thực tế: BỆNH

Thực tế: KHOẺ

Đoán: BỆNH

Đoán có bệnh, đúng

Báo động giả

Đoán: KHOẺ

Bỏ sót

Đoán không bệnh, đúng

Accuracy

75.0%

Đoán đúng bao nhiêu phần trăm?

Precision

70.0%

Khi báo có bệnh, đúng bao nhiêu?

Recall

77.8%

Bắt được bao nhiêu ca bệnh thật?

73.7%

Cân bằng Precision và Recall

Quan sát quan trọng khi kéo thanh

Giải thích

Precision(độ chính xác của dự đoán dương)

\text{Precision} = \frac{TP}{TP + FP}

Trong mọi lần mô hình báo có bệnh, bao nhiêu phần trăm là đúng? Precision cao nghĩa là mô hình ít báo nhầm.

Ví dụ hình dung:

Mô hình báo 5 ca: 4 đúng, 1 nhầm. Precision = 4/5 = 80%.

Recall(tỉ lệ bắt được ca bệnh)

\text{Recall} = \frac{TP}{TP + FN}

Trong tất cả người thực sự có bệnh, bao nhiêu phần trăm bị mô hình bắt được? Recall cao nghĩa là mô hình ít bỏ sót.

Ví dụ hình dung:

Có 5 người bệnh, mô hình bắt được 3, bỏ sót 2. Recall = 3/5 = 60%.

F1(một con số cân bằng cả hai)

F_1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}

Trung bình điều hoà của precision và recall. Nếu một trong hai rất thấp, F1 cũng sẽ thấp, khác với trung bình cộng (bị lừa khi một bên cao bù một bên thấp).

Ví dụ: Precision = 0.9, Recall = 0.1. Trung bình cộng = 0.5 (nghe tốt), nhưng F1 = 0.18 (phản ánh đúng việc mô hình bỏ sót 90% ca bệnh).

Mỗi chỉ số nhìn vào một phần khác của ma trận

Precision

Nhìn cột 'đoán dương': cộng TP và FP, hỏi tỉ lệ đúng.

Recall

Nhìn hàng 'thực tế dương': cộng TP và FN, hỏi bắt được bao nhiêu.

Accuracy

Nhìn đường chéo: tỉ lệ cả TP và TN trên tổng.

Mẹo nhanh khi FP và FN có chi phí khác nhau

Nếu một lỗi FN tốn chi phí C_FN và một lỗi FP tốn C_FP, chi phí kỳ vọng trên mỗi dự đoán là:

Cost = C_FN × (số ca FN) + C_FP × (số ca FP)

Khi bạn không chắc “nên ưu tiên precision hay recall”, hãy ước lượng hai con số C_FN và C_FP:

Sàng lọc ung thư

C_FN: 10 000 (tổn thương sức khoẻ nặng, mất thời gian vàng)

C_FP: 200 (một lượt xét nghiệm bổ sung)

C_FN / C_FP = 50 → hạ ngưỡng, ưu tiên recall rất cao.

Gợi ý sản phẩm

C_FN: 1 (chỉ là cơ hội bán hàng bị bỏ qua)

C_FP: 5 (slot gợi ý trên trang chủ là tài nguyên khan hiếm)

C_FN / C_FP ≈ 0.2 → nâng ngưỡng, ưu tiên precision cao.

Bẫy accuracy với dữ liệu mất cân bằng

Nhiều lớp, không chỉ 2 × 2