MLP in Credit Scoring
Mạng đa tầng trong Chấm điểm Tín dụng
Công ty nào đang ứng dụng Mạng đa tầng?
Bạn nộp đơn vay tiêu dùng trên Upstart (nền tảng cho vay trực tuyến dùng AI). Thay vì chỉ xem điểm FICO (thang điểm tín dụng truyền thống dựa trên lịch sử vay-trả), hệ thống phân tích hàng trăm biến số — từ trình độ học vấn, lịch sử việc làm đến hành vi tài chính — và đưa ra quyết định trong vài phút.
Đằng sau là một mạng nơ-ron đa tầng (Multi-Layer Perceptron — MLP, kiến trúc mạng gồm nhiều tầng nơ-ron nối tiếp nhau). MLP có khả năng nắm bắt mối quan hệ phi tuyến (nonlinear relationship — quan hệ không theo đường thẳng) giữa hàng trăm biến đầu vào, điều mà mô hình hồi quy logistic (logistic regression — phương pháp thống kê truyền thống) không thể làm hiệu quả.
Vấn đề công ty cần giải quyết
Hệ thống chấm điểm FICO truyền thống chỉ dựa trên khoảng 20 biến tài chính: lịch sử trả nợ, tổng dư nợ, thời gian có tín dụng. Mô hình hồi quy logistic — tiêu chuẩn ngành từ thập niên 1980 — giả định mối quan hệ tuyến tính giữa các biến và xác suất vỡ nợ.
Vấn đề: hàng triệu người có khả năng trả nợ tốt nhưng bị từ chối vì thiếu lịch sử tín dụng dài (“thin file” — hồ sơ mỏng). Đặc biệt là giới trẻ, người nhập cư, hoặc người chưa từng vay ngân hàng. Cần một mô hình có thể khai thác nhiều nguồn dữ liệu hơn và phát hiện các mẫu (pattern) phức tạp hơn.
Cách Mạng đa tầng giải quyết vấn đề
Thu thập đặc trưng đa chiều.Upstart thu thập hơn 1.600 biến số từ hồ sơ người vay: trình độ học vấn, chuyên ngành, lịch sử việc làm, thu nhập, hành vi tài chính, và nhiều yếu tố khác mà FICO bỏ qua. Dữ liệu được chuẩn hóa (normalize — đưa về cùng thang đo) trước khi đưa vào mạng.
Lan truyền qua các tầng ẩn (hidden layers — tầng xử lý trung gian trong MLP). Dữ liệu đầu vào đi qua nhiều tầng nơ-ron. Mỗi nơ-ron tính tổng có trọng số (weighted sum) của đầu vào, rồi áp dụng hàm kích hoạt phi tuyến (nonlinear activation function). Qua mỗi tầng, mạng học được các mẫu phức tạp hơn — ví dụ: “người có bằng kỹ sư + việc ổn định 2 năm + thu nhập trung bình” có rủi ro thấp dù hồ sơ tín dụng mỏng.
Đầu ra xác suất vỡ nợ.Tầng cuối cùng dùng hàm sigmoid (hàm S, nén giá trị về khoảng 0-1) để cho ra xác suất người vay sẽ vỡ nợ. Nếu xác suất dưới ngưỡng — duyệt đơn vay và tính lãi suất tương ứng rủi ro.
Huấn luyện trên dữ liệu lịch sử.MLP được huấn luyện trên hàng triệu khoản vay đã có kết quả (trả đúng hạn hay vỡ nợ), dùng backpropagation (lan truyền ngược) để tối ưu trọng số. Khoảng 70% khoản vay trên Upstart được duyệt hoàn toàn tự động — không cần nhân viên xem xét.
Con số thật
- Mô hình AI của Upstart duyệt thêm 27% người vay so với mô hình truyền thống [1]
- Lãi suất trung bình thấp hơn 16% so với mô hình chỉ dùng FICO [1]
- ~70% khoản vay được duyệt hoàn toàn tự động, không cần nhân viên xem xét [3]
- Upstart IPO tháng 12/2020, định giá 1,5 tỉ USD — minh chứng thị trường tin tưởng mô hình MLP [3]
Nếu không có Mạng đa tầng, app sẽ ra sao?
Nếu chỉ dùng hồi quy logistic với 20 biến FICO, hàng triệu người có khả năng trả nợ nhưng thiếu lịch sử tín dụng sẽ tiếp tục bị từ chối hoặc phải chịu lãi suất cao bất hợp lý.
MLP cho phép khai thác hàng trăm biến số và phát hiện mối quan hệ phi tuyến mà hồi quy logistic bỏ lỡ. Kết quả: mở rộng tiếp cận tín dụng cho nhóm dân số bị thiệt thòi, đồng thời giảm rủi ro vỡ nợ cho ngân hàng.