classic-ml

Logistic Regression in Spam Filtering

Gmail biến email thành xác suất spam

Độ khóbeginner

Công ty nào đang ứng dụng Hồi quy logistic?

Mỗi sáng bạn mở Gmail và hộp thư đến rất gọn. Không có email giả mạo ngân hàng, không có "trúng thưởng 500 triệu", không có "xác thực tài khoản NGAY". Bạn hiếm khi thấy chúng vì hệ thống đã âm thầm chuyển sang thùng rác từ trước.

Dưới đây là một hộp thư mô phỏng để bạn nhìn thẳng vào cơ chế đó. Thử bật tắt các đặc trưng rồi kéo ngưỡng. Cùng một dãy email nhưng cách phân loại thay đổi theo từng giây.

Ngưỡng phán "spam"50%

10%, dễ đánh dấu spam95%, phải rất chắc mới cho là spam

Hộp thư đến · 3

Anh Minh (CEO)

P=10%

Báo cáo tuần - xin xem giúp

Chào cả team, file báo cáo tuần đính kèm, có thắc mắc nhắn em Hương.

Tiki Khuyến Mãi

P=27%

Deal cuối tuần 70% - chỉ hôm nay

Áo thun unisex - giảm sốc 70% cho đơn đầu tiên. Mã: TIKI70NOW.

Grab Việt Nam

P=17%

Hoá đơn chuyến đi 12/04 - 78.000đ

Cảm ơn bạn đã di chuyển cùng Grab. Tổng cộng: 78.000đ, phương thức Momo.

Thùng rác · 3

no-reply@ngan-hang-quoc-gia.top

P=99%

KHẨN - Tài khoản của bạn bị khoá, xác thực NGAY

Bạn có 24h để XÁC MINH tại link bên dưới, nếu không tài khoản sẽ bị đóng vĩnh viễn.

WINNER-ALERT@prize-888.club

P=100%

CHÚC MỪNG! Bạn vừa TRÚNG 500 TRIỆU - nhận ngay

Bạn là khách hàng may mắn tuần này, truy cập link để lấy tiền thưởng trong 2 giờ.

unknown-trader@fx-asia.win

P=97%

Forex sinh lời 40%/tháng - đầu tư ngay hôm nay

Cơ hội đầu tư không rủi ro, click để nhận tài khoản demo miễn phí.

TP (bắt đúng spam)

FP (báo nhầm thư thường)

FN (bỏ sót spam)

TN (thư thường giữ đúng)

Precision100%

Recall100%

Precision đếm tỉ lệ email bị gắn nhãn spam mà đúng là spam thật. Recall đếm tỉ lệ email spam thật mà hệ thống bắt được. Khi bạn tăng ngưỡng, precision lên (ít báo nhầm) còn recall xuống (bỏ sót nhiều hơn). Gmail phải cân hai số này trên hàng tỷ email mỗi ngày.

Vấn đề công ty cần giải quyết

Gmail phục vụ 1,8 tỷ người dùng. Mỗi ngày hệ thống nhận hàng chục tỷ email, trong đó khoảng 15 tỷ là thư rác. Kẻ gửi spam liên tục đổi chiến thuật: viết sai chính tả cố ý (tr-úng th-ưởng), chèn ký tự đặc biệt, đổi sang domain mới, giấu chữ vào hình ảnh.

Vấn đề cốt lõi nằm ở chỗ: mỗi email phải được gán một xác suất spam, sau đó hệ thống tự quyết định cho vào hộp thư hay thùng rác. Sai chiều này (để lọt spam) chỉ gây phiền. Sai chiều kia (chặn nhầm email quan trọng của sếp) có thể gây hậu quả nghiêm trọng.

Nếu bắt được

Bạn không bao giờ nhìn thấy spam đó. Hộp thư sạch. Đây là phần việc im lặng giúp Gmail đáng dùng mỗi ngày.

Nếu bỏ sót hoặc báo nhầm

Bỏ sót thì mất tiền (lừa đảo trúng ví). Báo nhầm thì mất hợp đồng (email của sếp lạc vào thùng rác).

Cách Hồi quy logistic giải quyết vấn đề

Bóc đặc trưng từ email. Hệ thống quét mọi dấu hiệu có thể: số từ VIẾT HOA, số link, từ khoá đáng ngờ, domain người gửi, IP máy chủ, cấu trúc HTML. Mỗi email biến thành một danh sách con số, tức là một vector feature.
Bật tắt từng dấu hiệu, xem P(spam) đổi theo
Link:0
P(spam)10%
0%, an toàn50%, ngưỡng mặc định100%, chắc chắn spam
Mỗi lần bạn bật một dấu hiệu, xác suất nhảy theo. Bạn vừa nhìn thấy bản chất của logistic regression: mỗi đặc trưng góp một phần vào "điểm spam", rồi hàm sigmoid bóp tổng đó về một số trong khoảng 0 tới 1.
Tính điểm tuyến tính w·x + b.Mỗi đặc trưng được nhân với một trọng số. Đặc trưng nào "nặng ký" hơn (ví dụ domain lạ) sẽ mang trọng số lớn hơn. Cộng tất cả lại thành một điểm số z duy nhất. Đây chính là phần hồi quy tuyến tính nằm trong lòng mô hình.
Bóp z qua sigmoid để ra xác suất. Điểm z có thể là bất kỳ số nào trên trục thực, nhưng ta cần một xác suất nằm trong khoảng (0, 1) để ra quyết định. Hàm sigmoid ép z về đúng khoảng đó. Số ra chính là P(email này là spam).
z thấp
z = −3: σ(z) ≈ 0.05. Email gần như chắc chắn là thư thường. Vào hộp thư đến.
Đặt ngưỡng để chốt quyết định. Ngưỡng mặc định là 0.5. Gmail có thể nâng cao hơn cho người dùng doanh nghiệp (sợ báo nhầm) hoặc hạ thấp hơn cho tài khoản hay bị tấn công. Hộp thư đến nhận mọi email có P nhỏ hơn ngưỡng. Thùng rác nhận phần còn lại.
Học liên tục từ phản hồi của bạn.Khi bạn bấm "Đánh dấu là spam", Gmail học thêm. Khi bạn kéo email từ thùng rác về, Gmail cũng học. Qua hàng tỷ phản hồi mỗi ngày, trọng số w và bias b được cập nhật liên tục bằng cross-entropy loss và gradient descent. Bộ lọc ngày nay đã mở rộng sang mạng nơ-ron (RETVec), nhưng cơ chế "tính xác suất rồi phân loại" của logistic regression vẫn là tư duy gốc.

Con số thật

Độ chính xác 99,9%. Chỉ 1 trong 1.000 thư rác lọt qua. [3]
Chặn khoảng 15 tỷ thư rác mỗi ngày trên toàn hệ thống [1]
1,8 tỷ người dùng Gmail được bảo vệ [3]
RETVec nâng tỉ lệ phát hiện spam thêm 38% [2]

Nếu không có Hồi quy logistic, app sẽ ra sao?

Không có logistic regression, bộ lọc spam sẽ phải dựa vào luật cứng do con người viết tay: "nếu email chứa từ X thì chặn". Cách này rất dễ bị qua mặt (chỉ cần viết sai chính tả là thoát) và không co giãn được khi kẻ gửi spam đổi chiến thuật.

Logistic regression biến mỗi email thành một xác suất, gộp nhiều đặc trưng nhẹ thành một điểm số chung. Kẻ gửi spam giờ phải lách tất cả đặc trưng cùng lúc, khó hơn rất nhiều. Ý tưởng "tính xác suất nhị phân từ đặc trưng đầu vào" đã trở thành viên gạch nền của mọi hệ thống phân loại email hiện đại.

Một con số đổi hẳn ngành email

Trước năm 2002, lượng email spam tăng 500% mỗi năm. Sau khi Paul Graham đề xuất bộ lọc xác suất (tiền thân của logistic regression cộng với cross-entropy), spam bị đẩy lùi về dưới 10% tổng email. Gmail và các dịch vụ khác chỉ việc mở rộng quy mô ý tưởng đó. Từ vài nghìn từ khoá lên hàng triệu đặc trưng, rồi sau này là mạng nơ-ron. Nhưng trái tim vẫn là một câu: "biến dữ liệu thành xác suất, rồi quyết định theo ngưỡng".

Ngưỡng đang là 0.5. Một email spam tinh vi cho P = 0.42 (dưới ngưỡng). Nó vào đâu?

4 điều rút ra từ bộ lọc spam Gmail

Mỗi email biến thành một danh sách đặc trưng: số link, từ đáng ngờ, domain lạ, VIẾT HOA, v.v.
Logistic regression cộng các đặc trưng thành điểm số z, rồi sigmoid ép z thành xác suất P(spam).
Ngưỡng chốt quyết định: P lớn hơn hoặc bằng ngưỡng thì rơi vào thùng rác. Ngưỡng cao thì ít báo nhầm, ngưỡng thấp thì bắt được nhiều hơn.
Mỗi lần bạn đánh dấu 'spam' hay 'không spam', Gmail cập nhật lại trọng số. Mô hình sống chứ không cố định.

Bốn chiêu của kẻ gửi spam và cách mô hình học lại

1. Sai chính tả cố ý

"tr-úng th-ưởng", "m1ễn ph1" né được bộ lọc dựa trên chuỗi chữ chính xác. Đối phó bằng RETVec hoặc character-level embedding.

2. Chữ giấu trong hình ảnh

Toàn bộ nội dung được đẩy vào một tấm ảnh, bộ lọc không có text để quét. Đối phó bằng OCR nội dung ảnh và mô hình đa-phương tiện.

3. Domain giả danh ngân hàng

"no-reply@vietcom-bank.top" thay cho "vietcombank.com.vn". Đối phó bằng kiểm tra whois, DMARC và lịch sử domain.

4. Thay đổi liên tục theo ngày

Sáng nay một mẫu, chiều đã khác. Đối phó bằng mô hình học online (online learning), cập nhật trọng số ngay trên dòng dữ liệu.

Kiểm tra hiểu biết

Câu 1/4

Gmail muốn giảm số email thư thường bị gắn nhầm là spam (False Positive). Họ nên chỉnh ngưỡng theo hướng nào?

Chủ đề liên quan

Logistic Regression: Hồi quy logistic

Công ty nào đang ứng dụng Hồi quy logistic?

Ngưỡng phán "spam"50%

10%, dễ đánh dấu spam95%, phải rất chắc mới cho là spam

Hộp thư đến · 3

Anh Minh (CEO)

P=10%

Báo cáo tuần - xin xem giúp

Chào cả team, file báo cáo tuần đính kèm, có thắc mắc nhắn em Hương.

Tiki Khuyến Mãi

P=27%

Deal cuối tuần 70% - chỉ hôm nay

Áo thun unisex - giảm sốc 70% cho đơn đầu tiên. Mã: TIKI70NOW.

Grab Việt Nam

P=17%

Hoá đơn chuyến đi 12/04 - 78.000đ

Cảm ơn bạn đã di chuyển cùng Grab. Tổng cộng: 78.000đ, phương thức Momo.

Thùng rác · 3

no-reply@ngan-hang-quoc-gia.top

P=99%

KHẨN - Tài khoản của bạn bị khoá, xác thực NGAY

Bạn có 24h để XÁC MINH tại link bên dưới, nếu không tài khoản sẽ bị đóng vĩnh viễn.

WINNER-ALERT@prize-888.club

P=100%

CHÚC MỪNG! Bạn vừa TRÚNG 500 TRIỆU - nhận ngay

Bạn là khách hàng may mắn tuần này, truy cập link để lấy tiền thưởng trong 2 giờ.

unknown-trader@fx-asia.win

P=97%

Forex sinh lời 40%/tháng - đầu tư ngay hôm nay

Cơ hội đầu tư không rủi ro, click để nhận tài khoản demo miễn phí.

TP (bắt đúng spam)

FP (báo nhầm thư thường)

FN (bỏ sót spam)

TN (thư thường giữ đúng)

Precision100%

Recall100%

Vấn đề công ty cần giải quyết

Nếu bắt được

Bạn không bao giờ nhìn thấy spam đó. Hộp thư sạch. Đây là phần việc im lặng giúp Gmail đáng dùng mỗi ngày.

Nếu bỏ sót hoặc báo nhầm

Bỏ sót thì mất tiền (lừa đảo trúng ví). Báo nhầm thì mất hợp đồng (email của sếp lạc vào thùng rác).

Cách Hồi quy logistic giải quyết vấn đề

Bóc đặc trưng từ email. Hệ thống quét mọi dấu hiệu có thể: số từ VIẾT HOA, số link, từ khoá đáng ngờ, domain người gửi, IP máy chủ, cấu trúc HTML. Mỗi email biến thành một danh sách con số, tức là một vector feature.

Bật tắt từng dấu hiệu, xem P(spam) đổi theo

Link:0

P(spam)10%

0%, an toàn50%, ngưỡng mặc định100%, chắc chắn spam

Mỗi lần bạn bật một dấu hiệu, xác suất nhảy theo. Bạn vừa nhìn thấy bản chất của logistic regression: mỗi đặc trưng góp một phần vào "điểm spam", rồi hàm sigmoid bóp tổng đó về một số trong khoảng 0 tới 1.

Tính điểm tuyến tính w·x + b.Mỗi đặc trưng được nhân với một trọng số. Đặc trưng nào "nặng ký" hơn (ví dụ domain lạ) sẽ mang trọng số lớn hơn. Cộng tất cả lại thành một điểm số z duy nhất. Đây chính là phần hồi quy tuyến tính nằm trong lòng mô hình.

Bóp z qua sigmoid để ra xác suất. Điểm z có thể là bất kỳ số nào trên trục thực, nhưng ta cần một xác suất nằm trong khoảng (0, 1) để ra quyết định. Hàm sigmoid ép z về đúng khoảng đó. Số ra chính là P(email này là spam).

z thấp

z = −3: σ(z) ≈ 0.05. Email gần như chắc chắn là thư thường. Vào hộp thư đến.

Đặt ngưỡng để chốt quyết định. Ngưỡng mặc định là 0.5. Gmail có thể nâng cao hơn cho người dùng doanh nghiệp (sợ báo nhầm) hoặc hạ thấp hơn cho tài khoản hay bị tấn công. Hộp thư đến nhận mọi email có P nhỏ hơn ngưỡng. Thùng rác nhận phần còn lại.

Học liên tục từ phản hồi của bạn.Khi bạn bấm "Đánh dấu là spam", Gmail học thêm. Khi bạn kéo email từ thùng rác về, Gmail cũng học. Qua hàng tỷ phản hồi mỗi ngày, trọng số w và bias b được cập nhật liên tục bằng cross-entropy loss và gradient descent. Bộ lọc ngày nay đã mở rộng sang mạng nơ-ron (RETVec), nhưng cơ chế "tính xác suất rồi phân loại" của logistic regression vẫn là tư duy gốc.

Nếu không có Hồi quy logistic, app sẽ ra sao?

Một con số đổi hẳn ngành email

Kiểm tra hiểu biết

Câu 1/4

Gmail muốn giảm số email thư thường bị gắn nhầm là spam (False Positive). Họ nên chỉnh ngưỡng theo hướng nào?

Logistic Regression in Spam Filtering

Công ty nào đang ứng dụng Hồi quy logistic?

Vấn đề công ty cần giải quyết

Cách Hồi quy logistic giải quyết vấn đề

Bật tắt từng dấu hiệu, xem P(spam) đổi theo

Con số thật

Nếu không có Hồi quy logistic, app sẽ ra sao?

Tài liệu tham khảo (5)

Kiểm tra hiểu biết

Chủ đề liên quan

Logistic Regression in Spam Filtering

Công ty nào đang ứng dụng Hồi quy logistic?

Vấn đề công ty cần giải quyết

Cách Hồi quy logistic giải quyết vấn đề

Bật tắt từng dấu hiệu, xem P(spam) đổi theo

Con số thật

Nếu không có Hồi quy logistic, app sẽ ra sao?

Tài liệu tham khảo (5)

Kiểm tra hiểu biết

Chủ đề liên quan