classic-ml

Naive Bayes

Naive Bayes: cộng dồn bằng chứng từng từ

Độ khóintermediate

1Thử đoán1/8

Ba người bạn thân, không hẹn nhau, cùng nhắn bạn: 'Tiệm phở góc đường ngon lắm, đi thử đi.' Bạn đi hay không đi?

2Hiểu bằng hình ảnh2/8

Mỗi bằng chứng là một lá phiếu

Tưởng tượng bạn đang phân loại email. Mỗi từ trong email là một lá phiếu, nhưng không phải ai cũng có sức nặng bằng nhau. Từ “trúng thưởng” cầm tấm thẻ to tướng: 80% email chứa từ này là spam. Từ “họp” cầm thẻ ngược chiều: 58% email chứa từ này là công việc.

Naive Bayes cộng dồntất cả lá phiếu, không để một lá phiếu lớn quyết định mọi thứ. Nếu email chứa cả “trúng thưởng” lẫn “báo cáo”, thuật toán so sánh hai phe xem bên nào mạnh hơn.

Từ rất “spam”

trúng thưởng, miễn phí, nhấn vào đây. Mỗi từ là lá phiếu nặng nghiêng về SPAM.

Từ rất “công việc”

họp, báo cáo, deadline. Lá phiếu nặng nghiêng về HAM (email hợp lệ).

Quyết định cuối

Nhân xác suất từng từ với prior, so sánh hai phe. Phe lớn hơn thắng.

3Khám phá3/8

Hình minh họa

1Thử nghiệm: bật tắt từng từ trong email

Chọn các từ bạn tưởng tượng có trong email. Mỗi khi bạn bật thêm một từ, xác suất P(Spam) và P(Ham) cập nhật tức thì. Quan sát thanh đỏ và thanh xanh “giằng co” lẫn nhau theo từng bằng chứng.

Email mô phỏng

... khuyến mãi ... miễn phí ...

Tích xác suất đang chạyDự đoán: SPAM

P(SPAM | email)97.3%

P(HAM | email)2.7%

Từng từ “bỏ phiếu” thế nào

khuyến mãi

→ SPAM

miễn phí

→ SPAM

Độ đỏ và xanh ở thanh ngang là tỉ lệ P(từ|Spam) so với P(từ|Ham). Đỏ càng dài, từ đó càng là manh mối nghiêng về spam.

4Mổ xẻ một lần phân loại4/8

Bật “Tiếp tục” dưới đây để đi qua từng bước Naive Bayes xử lý một email cụ thể: “trúng thưởng miễn phí nhấn vào đây”. Mỗi bước vừa hiện công thức, vừa có thanh trực quan đi kèm.

Bước 1: prior, xác suất nền

Trước khi nhìn nội dung email, chúng ta đã có thông tin nền: khoảng 35% email gửi đến hộp thư là spam (con số này tuỳ nhà cung cấp dịch vụ). Đây gọi là prior.

P(SPAM)

35%

P(HAM)

65%

Nếu bạn đoán bừa mà không xem email, đoán “ham” sẽ đúng 65% lần, vì đa số email trong hộp thư là hợp lệ.

5Khoảnh khắc hiểu5/8

Naive Bayes không “hiểu” ngôn ngữ. Nó chỉ đếm tần suất từng từ trong lớp Spam và lớp Ham, rồi dùng chính những con số đếm được để cho mỗi từ mới một lá phiếu.

Sức mạnh của thuật toán đến từ số lượng lá phiếu độc lập. Một email 50 từ là 50 lá phiếu cùng bỏ cho một quyết định. Ngay cả khi từng lá phiếu yếu, tổng hợp lại vẫn ra kết quả rõ ràng. Đó là lý do một thuật toán “ngây thơ” vẫn làm xương sống của bộ lọc spam trong hơn hai mươi năm.

Một lá phiếu mạnh

“trúng thưởng” có likelihood ratio 41:1. Một từ có thể đẩy P(Spam) lên cao, nhưng dễ sai khi email hỗn hợp.

Nhiều lá phiếu yếu

9 từ, mỗi từ chỉ hơi nghiêng về spam (ratio 1.5:1). Tích lại: 1.5⁹≈ 38:1, mạnh ngang một từ “trúng thưởng” mà lại ổn định hơn.

Hai loại lỗi: false positive và false negative

Khi bộ lọc sai, có hai kiểu sai khác hẳn nhau về hậu quả. Gmail chọn nghiêng về một kiểu. Bạn đoán kiểu nào quan trọng hơn?

False positive (chặn nhầm)

Bộ lọc nói “SPAM” nhưng thực tế là email quan trọng. Hậu quả: bạn không thấy email từ sếp, khách hàng, ngân hàng.

Hậu quả tệ hơn. Mất thông tin quan trọng.

False negative (lọt spam)

Bộ lọc nói “HAM” nhưng thực tế là spam. Hậu quả: bạn thấy vài quảng cáo trong hộp thư đến.

Hậu quả nhẹ hơn. Chỉ khó chịu một chút.

Đó là lý do Gmail đặt ngưỡng quyết định rất cao (thường ≥ 0.9). Bộ lọc thà để lọt vài spam còn hơn chặn nhầm một email quan trọng. Tỉ lệ false positive thực tế dưới 0.2%, tức cứ 1.000 email hợp lệ chỉ chặn nhầm 2.

6Thử thách6/8

Giả định 'ngây thơ' trong Naive Bayes là gì, và vì sao nó vẫn cho kết quả tốt dù giả định đó hiếm khi đúng trong thực tế?

7Giải thích7/8

Giải thích

Naive Bayes xuất phát từ một công thức xác suất cổ điển: định lý Bayes. Công thức này cho phép bạn cập nhật niềm tin khi có bằng chứng mới:

P(c \mid \mathbf{x}) = \frac{P(\mathbf{x} \mid c) \, P(c)}{P(\mathbf{x})}

Đọc từng mảnh. P(c) là prior, tỉ lệ spam nền (ví dụ 35% email là spam). P(x|c) là khả năng, xác suất email có nội dung x khi biết nó thuộc lớp c. P(c|x) là kết quả bạn cần, xác suất email là spam khi đã biết nội dung.

Công thức Bayes vẽ thành các khối

1. Prior

Trước khi nhìn email: 35% email nền là spam. Đây là điểm xuất phát.

2. Khả năng

Nội dung email “khớp” với lớp spam đến mức nào? Tính từ từng từ.

3. Posterior

Sau khi xem nội dung: xác suất mới. Bạn đã cập nhật niềm tin.

Đây là phần “ngây thơ”. Khi có nhiều từ, Naive Bayes giả định các từ độc lập nhau khi biết lớp:

P(\mathbf{x} \mid c) \approx \prod_{i=1}^{d} P(x_i \mid c)

Giả định này sai trong thực tế. “Khuyến mãi” và “miễn phí” thường đi cùng nhau. Nhưng nó đủ dùng vì quyết định cuối chỉ cần so sánh hai phía. Kết quả: thuật toán “sai về xác suất tuyệt đối” nhưng “đúng về phân loại”.

Nhân nhiều xác suất nhỏ sẽ tràn số. Dùng log.

\log P(c \mid \mathbf{x}) \propto \log P(c) + \sum_{i=1}^{d} \log P(x_i \mid c)

Log biến phép nhân thành phép cộng. Thay vì nhân 50 số rất nhỏ (nguy cơ tiến về 0 trên máy tính, gọi là underflow), ta cộng 50 giá trị log. Số thắng lớn hơn là lớp được chọn.

Laplace smoothing chống xác suất bằng 0

Nếu từ “blockchain” chưa bao giờ xuất hiện trong lớp Spam khi huấn luyện, P(blockchain|Spam) = 0. Nhân với 0 kéo toàn bộ tích về 0. Một từ lạ có thể “giết” cả dự đoán. Giải pháp: thêm +1 vào mọi đếm (đôi khi viết là +α). Nhờ vậy không xác suất nào bằng 0 tuyệt đối. Scikit-learn mặc định đã bật smoothing.

Vì sao Naive Bayes vẫn chạy được trên hàng triệu email

Huấn luyện Naive Bayes chỉ là việc đếm từ. Độ phức tạp tỉ lệ tuyến tính với số email và số từ. Không có ma trận đảo, không có gradient descent. Đó là lý do bộ lọc spam đầu tiên của Gmail dùng Naive Bayes, và đến nay nhiều hệ thống filter vẫn giữ Naive Bayes làm lớp kiểm tra đầu vì cực nhanh.

Vòng đời của một bộ lọc Naive Bayes

Có hai pha. Huấn luyện chạy một lần, chậm nhưng chỉ đếm từ. Suy luận chạy cho mỗi email, cực nhanh. Nhờ vậy Naive Bayes theo kịp tốc độ hàng tỷ email mỗi ngày.

1Pha huấn luyện (training)

Lấy tập email đã gán nhãn (spam / ham)
Với mỗi từ, đếm số lần xuất hiện ở lớp spam và lớp ham
Chia ra tỉ lệ → được bảng P(từ | lớp)
Áp dụng Laplace smoothing cho chắc

Làm một lần, nhưng có thể cập nhật mỗi giờ từ phản hồi người dùng.

2Pha suy luận (inference)

Email mới đến, tách thành danh sách từ
Với mỗi từ, tra bảng P(từ | spam) và P(từ | ham)
Cộng log các xác suất, so sánh hai phe
Nếu log P(spam) > log P(ham) → chặn

Thời gian xử lý mỗi email: ~1 mili-giây. Đó là lý do Gmail xử lý được hàng tỷ email/ngày.

Ba biến thể thường gặp

Gaussian NB

Dùng khi đặc trưng là số thực (chiều cao, cân nặng). Mỗi đặc trưng được giả định tuân theo phân phối chuẩn trong mỗi lớp.

Multinomial NB

Dùng khi đếm số lần xuất hiện (số lần từ “khuyến mãi” trong email). Phổ biến nhất cho phân loại văn bản.

Bernoulli NB

Dùng khi đặc trưng chỉ có/không có (0 hoặc 1). Phù hợp cho tình huống chỉ quan tâm sự có mặt của từ, không quan tâm tần suất.

Khi các đặc trưng thực sự phụ thuộc nhau mạnh (diện tích nhà và số phòng chẳng hạn), giả định “ngây thơ” có thể sai nhiều. Lúc này bạn nên thử hồi quy logistic hoặc SVM, hai mô hình học trực tiếp ranh giới giữa các lớp mà không cần giả định độc lập.

8Tóm tắt và kiểm tra8/8

4 điều cần nhớ về Naive Bayes

Ý tưởng gốc: nhiều bằng chứng độc lập cùng chiều thì niềm tin tăng. Mỗi từ là một “lá phiếu” nhỏ.
Công thức: P(lớp|email) ∝ prior × tích xác suất từng từ. Dùng log để tránh tràn số.
“Ngây thơ” nằm ở giả định các từ độc lập khi biết lớp. Giả định sai nhiều, nhưng quyết định cuối vẫn đúng nhờ so sánh hai phía.
Cần Laplace smoothing để chống xác suất bằng 0 khi gặp từ mới chưa từng thấy trong dữ liệu huấn luyện.

Kiểm tra hiểu biết

Câu 1/4

Tại sao Naive Bayes được gọi là 'ngây thơ' (naive)?

Ứng dụng thực tế

Bộ lọc spam huyền thoại của Gmail và SpamAssassin ra đời từ Naive Bayes. Xem chi tiết cách Paul Graham “cứu” Internet khỏi biển thư rác năm 2002 ở bài ứng dụng: Naive Bayes lọc email.

Chủ đề liên quan

Logistic Regression: Hồi quy logistic Text Classification: Text classification: gắn nhãn cho tin nhắn Sentiment Analysis: Sentiment analysis: đọc cảm xúc trong bình luận

Hình minh họa

1Thử nghiệm: bật tắt từng từ trong email

Email mô phỏng

... khuyến mãi ... miễn phí ...

Tích xác suất đang chạyDự đoán: SPAM

P(SPAM | email)97.3%

P(HAM | email)2.7%

Từng từ “bỏ phiếu” thế nào

khuyến mãi

→ SPAM

miễn phí

→ SPAM

Độ đỏ và xanh ở thanh ngang là tỉ lệ P(từ|Spam) so với P(từ|Ham). Đỏ càng dài, từ đó càng là manh mối nghiêng về spam.

Giải thích

Naive Bayes xuất phát từ một công thức xác suất cổ điển: định lý Bayes. Công thức này cho phép bạn cập nhật niềm tin khi có bằng chứng mới:

P(c \mid \mathbf{x}) = \frac{P(\mathbf{x} \mid c) \, P(c)}{P(\mathbf{x})}

Công thức Bayes vẽ thành các khối

1. Prior

Trước khi nhìn email: 35% email nền là spam. Đây là điểm xuất phát.

2. Khả năng

Nội dung email “khớp” với lớp spam đến mức nào? Tính từ từng từ.

3. Posterior

Sau khi xem nội dung: xác suất mới. Bạn đã cập nhật niềm tin.

Đây là phần “ngây thơ”. Khi có nhiều từ, Naive Bayes giả định các từ độc lập nhau khi biết lớp:

P(\mathbf{x} \mid c) \approx \prod_{i=1}^{d} P(x_i \mid c)

Nhân nhiều xác suất nhỏ sẽ tràn số. Dùng log.

\log P(c \mid \mathbf{x}) \propto \log P(c) + \sum_{i=1}^{d} \log P(x_i \mid c)

Laplace smoothing chống xác suất bằng 0

Vì sao Naive Bayes vẫn chạy được trên hàng triệu email

Vòng đời của một bộ lọc Naive Bayes

1Pha huấn luyện (training)

Lấy tập email đã gán nhãn (spam / ham)
Với mỗi từ, đếm số lần xuất hiện ở lớp spam và lớp ham
Chia ra tỉ lệ → được bảng P(từ | lớp)
Áp dụng Laplace smoothing cho chắc

Làm một lần, nhưng có thể cập nhật mỗi giờ từ phản hồi người dùng.

2Pha suy luận (inference)

Email mới đến, tách thành danh sách từ
Với mỗi từ, tra bảng P(từ | spam) và P(từ | ham)
Cộng log các xác suất, so sánh hai phe
Nếu log P(spam) > log P(ham) → chặn

Thời gian xử lý mỗi email: ~1 mili-giây. Đó là lý do Gmail xử lý được hàng tỷ email/ngày.

Ba biến thể thường gặp

Gaussian NB

Dùng khi đặc trưng là số thực (chiều cao, cân nặng). Mỗi đặc trưng được giả định tuân theo phân phối chuẩn trong mỗi lớp.

Multinomial NB

Dùng khi đếm số lần xuất hiện (số lần từ “khuyến mãi” trong email). Phổ biến nhất cho phân loại văn bản.

Bernoulli NB

Dùng khi đặc trưng chỉ có/không có (0 hoặc 1). Phù hợp cho tình huống chỉ quan tâm sự có mặt của từ, không quan tâm tần suất.

Kiểm tra hiểu biết

Câu 1/4

Tại sao Naive Bayes được gọi là 'ngây thơ' (naive)?