Overfitting & Underfitting in COMPAS
COMPAS overfit: 137 đặc trưng thua 2 biến
Công ty nào đang ứng dụng Overfit vs Underfit?
Tại Mỹ, hơn 1 triệu người đã từng được công cụ COMPAS (Correctional Offender Management Profiling for Alternative Sanctions, hệ thống chấm điểm rủi ro tái phạm) đánh giá. Phần mềm này thu thập 137 đặc trưng rồi trả về một con số: rủi ro cao hay thấp. Thẩm phán dùng con số đó để quyết định tạm giam hay tại ngoại.
Năm 2016, ProPublica phát hiện COMPAS đánh giá sai một cách có hệ thống. Người da đen bị gán nhãn “rủi ro cao” nhầm gần gấp đôi so với người da trắng. Hai năm sau, Dressel & Farid (Dartmouth) chứng minh: model chỉ dùng 2 biến (tuổi và số tiền án) đạt độ chính xác 67%, cao hơn cả COMPAS 137 biến (65%). Đây là ví dụ giáo khoa về overfit trong thế giới thật.
Cái bẫy: thêm đặc trưng không có nghĩa là thêm độ chính xác
Model 2 biến
Chỉ tuổi và số tiền án
COMPAS, 137 biến
Tuổi, tiền án, bảng hỏi tâm lý, mối quan hệ...
135 đặc trưng bổ sung KHÔNG giúp. Chúng khiến model học thuộc lòng thiên kiến trong dữ liệu lịch sử.
Vấn đề công ty cần giải quyết
Dữ liệu tư pháp Mỹ vốn chứa thiên kiến lịch sử. Cảnh sát tuần tra dày hơn ở khu vực người thiểu số, nên các nhóm này bị ghi nhận “tái phạm” với tỷ lệ cao hơn trên giấy tờ, dù hành vi thực tế không nhất thiết khác. Khi model “học” dữ liệu này với 137 đặc trưng, nó không học “ai thực sự có nguy cơ tái phạm”. Thay vào đó, nó học các khuôn mẫu nhân khẩu học tương quan với lịch sử giam giữ.
Đây chính là overfit trong hình hài nguy hiểm nhất. Model có train loss thấp trên dữ liệu cũ, nhưng khi triển khai cho hai người có cùng hồ sơ tội phạm (cùng tuổi, cùng số tiền án) nhưng khác chủng tộc, nó cho ra hai điểm rủi ro hoàn toàn khác nhau. Hậu quả là công lý không đồng đều giữa các công dân.
Vì sao dữ liệu lịch sử đã “nghiêng” ngay từ đầu
Nếu hành vi thực tế hai nhóm như nhau nhưng dữ liệu đã nghiêng, model sẽ “học” sự nghiêng đó thành quy luật. Model càng phức tạp, càng ghi nhớ chính xác độ nghiêng. Hệ quả là nó càng xuất ra điểm rủi ro cao cho nhóm B một cách hệ thống.
Cách Overfit vs Underfit giải quyết vấn đề
COMPAS thu thập 137 đặc trưng.Hệ thống hỏi bị cáo hàng chục câu về hoàn cảnh sống, lịch sử gia đình, bạn bè, công việc, kết hợp với hồ sơ tư pháp. Với hàng chục thông tin như vậy, model có quá nhiều “tự do” để khớp từng đặc điểm nhỏ nhất trong dữ liệu huấn luyện. Đây chính là kịch bản đa thức bậc 20 mà bạn vừa gặp ở bài lý thuyết.
Overfit lên thiên kiến lịch sử.ProPublica phân tích 7.000 hồ sơ tại hạt Broward, Florida. Tỷ lệ dương tính giả (false positive: gán “rủi ro cao” cho người không tái phạm) ở người da đen là 44,9%, gần gấp đôi so với 23,5%ở người da trắng. Model đang “nhớ” các mối tương quan xã hội thay vì học nguy cơ tái phạm thực sự.
Dressel & Farid (2018): 2 biến đạt 67%. Họ thay 137 đặc trưng bằng hai biến duy nhất là tuổi và số tiền án. Model đơn giản hơn nhưng độ chính xác lại cao hơn COMPAS. Đây là bằng chứng giáo khoa cho thấy thêm đặc trưng không phải lúc nào cũng giúp. Nhiều khi chúng phá hoại vì model bắt đầu học nhiễu.
Con người cũng chỉ đạt 63–67%. Cùng nghiên cứu đó, 400 tình nguyện viên không chuyên dự đoán tái phạm dựa trên mô tả ngắn. Họ cũng đạt 63–67%. Điều này lộ ra giới hạn nội tại của bài toán: dự đoán tái phạm cá nhân có trần tự nhiên khoảng 67%. Mọi đặc trưng thêm vào không phá được trần đó. Nó chỉ làm model phức tạp hơn và overfit nhiều hơn.
Model overfit và model cân bằng cho ra công bằng khác nhau ra sao
Cùng 24 bị cáo giả định. Đổi model để thấy hậu quả công bằng.
Model 2 biến
Acc 71%Nhóm A
Tỷ lệ dương tính giả
Nhóm B
Tỷ lệ dương tính giả
Khoảng cách FP: +-22% ở nhóm B, bất công!
Chỉ dùng tuổi và số tiền án. Tỷ lệ dương tính giả (FP) gần nhau giữa hai nhóm.
Vì sao model 137 biến lại thua model 2 biến?
Thêm đặc trưng tức là thêm “nút vặn” cho model. Với 137 nút, model có thể vặn vừa đúng từng đặc điểm nhỏ trong dữ liệu lịch sử, kể cả những đặc điểm ngẫu nhiên không liên quan đến tái phạm (ví dụ: mã vùng nhà ở, một câu trả lời bảng hỏi tâm lý bất thường).
Số đặc trưng và độ chính xác đi theo đường cong chữ ∩
Train acc @ 2 feat
66.1%
Test acc @ 2 feat
59.8%
Kéo slider từ 2 đến 137 feature. Đường train (cam) luôn tăng vì thêm feature luôn giúp khớp dữ liệu train. Đường test (xanh, đứt nét) tăng tới mốc 3–5 feature rồi đi ngang hoặc giảm. Đây là chữ ∩ kinh điển của overfit: thêm phức tạp chỉ giúp tới một điểm.
Một kỹ sư AI nói: 'Tôi sẽ thêm 50 feature nữa vào model dự đoán tín dụng để tăng độ chính xác.' Căn cứ bài học COMPAS, nhận định nào là ĐÚNG nhất?
Bạn là kỹ sư ML được giao dự đoán rủi ro tín dụng tại một ngân hàng Việt Nam. Ngân hàng có dữ liệu lịch sử 10 năm, nhưng bạn biết trong quá khứ một số chi nhánh từ chối đơn của người ngoại tỉnh nhiều hơn (thiên kiến địa phương). Bạn nên làm gì?
Con số thật
Nếu không có Overfit vs Underfit, app sẽ ra sao?
Nếu không hiểu overfit, ta dễ tin rằng “model càng nhiều biến càng chính xác”. COMPAS minh hoạ điều ngược lại. 137 đặc trưng không cải thiện dự đoán mà còn giấu thiên kiến trong lớp vỏ phức tạp, khiến việc kiểm tra và phản biện trở nên cực kỳ khó khăn.
Hiểu overfit giúp ta đặt câu hỏi đúng. Trước khi thêm đặc trưng, hãy hỏi “Model đơn giản nhất đạt bao nhiêu phần trăm?”. Nếu model 2 biến đã đạt 67% mà model 137 biến chỉ đạt 65%, vấn đề không phải thiếu dữ liệu. Bài toán có giới hạn nội tại, và thêm phức tạp chỉ thêm rủi ro thiên kiến.
- Baseline đơn giản đạt bao nhiêu? Feature mới cải thiện bao nhiêu phần trăm trên test (không phải train)?
- Feature có phải proxy cho đặc điểm nhạy cảm (chủng tộc, giới tính, thu nhập)?
- Tỷ lệ dương tính giả và âm tính giả có đồng đều giữa các nhóm dân số không?