MLP in Credit Scoring
MLP chấm tín dụng
Công ty nào đang ứng dụng MLP?
Bạn mở app ngân hàng, bấm “Vay tiêu dùng”, điền 5 ô (thu nhập, công việc, học vấn, nợ hiện tại, số tiền muốn vay) rồi bấm gửi. Vài giây sau, app trả về một trong ba kết quả: duyệt, cần xem thêm, hay từ chối, kèm lãi suất đề xuất.
Đằng sau cái nút ấy không còn là con người ngồi đọc hồ sơ. Đó là một MLP (mạng nơ-ron nhiều lớp) nhìn đồng thời hàng trăm biến số, bắt được các pattern (quy luật) mà mô hình thống kê truyền thống bỏ lỡ.
Ở Mỹ, Upstarttiên phong hướng đi này từ 2014, dùng MLP để chấm điểm những người vay “thin file”: hồ sơ tín dụng mỏng, bị FICO từ chối oan. Kết quả: duyệt thêm 27% người vay, lãi suất trung bình thấp hơn 16%. Các ngân hàng Việt cũng đang đi cùng con đường, áp dụng cho vay tiêu dùng qua app.
Vấn đề công ty cần giải quyết
Hệ thống chấm điểm truyền thống (ở Mỹ là FICO, ở Việt Nam là điểm CIC) chỉ nhìn khoảng 20 biến tài chính: lịch sử trả nợ, tổng dư nợ, số năm có tín dụng. Model đứng sau là hồi quy logistic, tiêu chuẩn ngành ngân hàng từ thập niên 1980.
Hạn chế lớn nhất của hồi quy logistic: chỉ bắt được quan hệ tuyến tính. Nó cho rằng “thu nhập cao hơn 1 triệu = giảm 0,5% rủi ro”, đều đặn ở mọi ngưỡng. Thực tế đời sống không như vậy: một người thu nhập 5 triệu vay 100 triệu và người thu nhập 50 triệu vay 100 triệu có mức rủi ro khác nhau, không theo tỉ lệ thẳng.
Hậu quả: hàng triệu người Việt thực sự có khả năng trả nợ (sinh viên vừa ra trường, người tự do, tiểu thương) bị ngân hàng từ chối oan chỉ vì hồ sơ mỏng hoặc vì hồ sơ không khớp vào đường thẳng của model cũ. Cần một cách chấm điểm:
- Bắt được quan hệ phi tuyến giữa thu nhập, nợ, nghề nghiệp.
- Tận dụng hàng trăm biến, không chỉ 20 chỉ số tín dụng kinh điển.
- Duyệt được trong vài giây để app hoạt động “thời gian thật”.
- Vẫn kiểm tra được bởi cơ quan quản lý, tức là giải thích được vì sao từng hồ sơ bị từ chối hay duyệt.
Cách MLP giải quyết vấn đề
Thu thập đặc trưng đa chiều. Hệ thống lấy về khoảng 100–1.600 biến số từ hồ sơ người vay: thu nhập, tỉ lệ nợ, số tháng làm công việc hiện tại, trình độ học vấn, địa điểm cư trú, lịch sử giao dịch qua ngân hàng, thậm chí cả số lần mở-đóng ví điện tử. Tất cả được chuẩn hoá (normalize) về khoảng 0..1 để mạng nơ-ron xử lý.
Lan truyền qua các lớp ẩn. Dữ liệu chảy qua 2–4 lớp ẩn. Lớp ẩn 1học các khái niệm trung gian kiểu “ổn định công việc”, “khả năng trả”, “gánh nặng nợ hiện tại”. Lớp ẩn 2tổ hợp chúng thành các khái niệm phức tạp hơn, ví dụ “pattern rủi ro của khách hàng trẻ có bằng đại học mới ra trường”. Đây là những pattern mà hồi quy logistic không thể bắt, vì đòi hỏi tổ hợp phi tuyến.
Đầu ra là xác suất vỡ nợ. Lớp cuối cùng dùng hàm sigmoid (hàm S, nén giá trị về khoảng 0..1). Kết quả là một xác suất, ví dụ 0,18 nghĩa là ước lượng 18% khả năng người này không trả nợ đúng hạn. Dưới ngưỡng thấp thì duyệt tự động, trên ngưỡng cao thì từ chối, ở giữa thì đẩy sang chuyên viên tín dụng xem thêm hồ sơ.
Huấn luyện trên dữ liệu lịch sử. Ngân hàng có hàng triệu khoản vay quá khứ đã biết kết quả (trả đúng, trả muộn, hay vỡ nợ). Dùng backpropagation (lan truyền ngược) để mạng tự chỉnh trọng số: những cấu hình hồ sơ từng dẫn đến vỡ nợ sẽ được đẩy về xác suất cao, ngược lại. Mỗi tháng, model được huấn luyện lại với dữ liệu mới để theo kịp nền kinh tế.
Thử tự tay
Bạn điền hồ sơ, MLP chấm tức thì
Kéo 5 thanh bên dưới để thử nhiều kiểu hồ sơ vay. MLP sẽ tính lại xác suất vỡ nợ tức thì, gợi ý lãi suất, và hiển thị những yếu tố đóng góp lớn nhất vào quyết định.
Hoặc bắt đầu từ một hồ sơ mẫu
Năm biến số đầu vào
Hồ sơ hiện tại
Quyết định của MLP
Duyệt vay
Xác suất vỡ nợ
0.5%
Rủi ro thấp. Hồ sơ đủ điều kiện duyệt tự động.
Độ tin cậy
Lãi suất gợi ý
6.1% /năm
Yếu tố ảnh hưởng lớn nhất
Một đơn vay đi qua những chặng nào?
Bấm Tiếp tục để xem từng bước. Cả quy trình chỉ tính bằng giây ở phần tự động, cộng vài giờ tới vài ngày nếu cần chuyên viên xem tay.
Nhập hồ sơ
Khách điền 5–10 ô trên app: thu nhập, công việc, số tiền vay, kỳ hạn. App đọc thêm dữ liệu ngân hàng liên kết (lịch sử giao dịch, ví điện tử) để lấy hàng trăm biến phụ.
Công bằng và kiểm toán: phần ít ai nói nhưng quan trọng nhất
MLP là một “hộp đen” hơn hồi quy logistic. Với cùng một quyết định từ chối, hồi quy logistic trả về đúng một danh sách hệ số “thu nhập: −0,4, tỉ lệ nợ: +0,6, học vấn: −0,1”, dễ nói với khách hàng. MLP có hàng chục nghìn trọng số ẩn, giải thích không đơn giản như vậy. Vì thế ngân hàng phải làm thêm vài việc:
Không dùng biến nhạy cảm
Luật Mỹ (ECOA) và thông lệ Việt cấm dùng giới tính, sắc tộc, tôn giáo để ra quyết định cho vay. Các biến này không bao giờ vào đầu vào MLP.
Kiểm tra disparate impact
So tỉ lệ duyệt của các nhóm khác nhau. Nếu MLP duyệt nữ thấp hơn nam đáng kể mà lý do không giải thích được bằng rủi ro thật, phải chỉnh lại mô hình.
Giải thích từng quyết định
Dùng SHAP, LIME hoặc lớp giải thích riêng để báo cho khách 'vì sao bạn bị từ chối', thường là 3 yếu tố lớn nhất. Đây là yêu cầu pháp lý ở nhiều nước.
Thử tình huống thực tế
MLP đang từ chối một lượng lớn hồ sơ từ sinh viên mới ra trường (dưới 1 năm đi làm). Đội vận hành phải phản ứng thế nào?
Một khách bị từ chối và khởi kiện ngân hàng vì 'không biết vì sao'. Ngân hàng cần gì để bảo vệ quyết định này?
Con số thật
- MLP của Upstart duyệt thêm 27% người vay so với hồi quy logistic truyền thống, ở cùng ngưỡng rủi ro [1]
- Lãi suất trung bình thấp hơn 16% so với model chỉ dùng FICO, nhờ bắt đúng hồ sơ 'thin file' chất lượng tốt [1]
- Khoảng 70% khoản vay được duyệt hoàn toàn tự động, không cần chuyên viên tín dụng xem xét [3]
- Upstart IPO tháng 12 năm 2020 với định giá 1,5 tỉ USD. Thị trường vốn công nhận hiệu quả của MLP chấm tín dụng [3]
Nếu không có MLP, app sẽ ra sao?
Nếu tắt MLP, quay lại hồi quy logistic cổ điển với 20 biến FICO/CIC:
- Hàng triệu người vay “thin file” (sinh viên mới ra trường, người tự do, tiểu thương) tiếp tục bị từ chối oan hoặc phải vay với lãi suất quá cao.
- Ngân hàng vẫn an toàn về thống kê, nhưng bỏ lỡ một thị trường lớn gồm những khách hàng thực sự có khả năng trả nợ.
- Thời gian duyệt kéo dài vài ngày đến vài tuần, vì hồ sơ rìa phải chuyển qua chuyên viên xem tay.
MLP không thay thế chuyên viên tín dụng. Nó mở rộng phạm vi ngân hàng tiếp cận: hồ sơ rõ ràng được duyệt tự động, hồ sơ rìa được chuyển đến đúng người với bối cảnh đầy đủ. Cả ngân hàng và khách hàng đều hưởng lợi.
- MLP là nhiều perceptron xếp thành nhiều lớp, đủ linh hoạt để bắt quan hệ phi tuyến giữa hàng trăm biến.
- Quy trình: nhập hồ sơ → chuẩn hoá → lan truyền qua 2–4 lớp ẩn → sigmoid → xác suất vỡ nợ → áp chính sách.
- Lợi thế: duyệt thêm ~27% hồ sơ, lãi suất trung bình thấp hơn 16% so với chỉ dùng FICO (số liệu Upstart 2021).
- Rủi ro lớn: hộp đen cộng định kiến dữ liệu. Cần SHAP/LIME để giải thích, kiểm tra disparate impact, và loại biến nhạy cảm.
- MLP không thay thế chuyên viên tín dụng. Nó mở rộng phạm vi ngân hàng tiếp cận đúng khách hàng.