Decision Trees in Credit Scoring
Cây quyết định chấm tín dụng
Công ty nào đang ứng dụng Cây quyết định?
Bạn nộp đơn vay mua xe máy. Vài giây sau khi bấm nút, ngân hàng đã biết bạn có được duyệt hay không, và nếu được thì mức lãi suất là bao nhiêu. Đằng sau quyết định “chỉ vài giây” đó là một cây quyết định (decision tree) chạy qua vài câu hỏi về thu nhập, nợ hiện tại, lịch sử thanh toán.
Phần tiếp theo sẽ cho bạn đóng vai hệ thống chấm điểm. Kéo thanh thu nhập, chọn có hoặc không cho ô trễ hạn, và xem cây sáng lên từng bước cho đến khi ra kết quả. Không cần lập trình, không cần công thức.
Vấn đề công ty cần giải quyết
Mỗi ngày các ngân hàng lớn ở Việt Nam nhận hàng chục nghìn đơn vay, từ vay tiêu dùng nhỏ (mua điện thoại, xe máy) đến vay trung dài hạn (mua nhà, ô tô). Không chuyên viên nào đọc tay đủ nhanh cho ngần ấy đơn. Hệ thống chấm điểm tự động phải phân loại người vay thành các nhóm rủi ro, đồng thời phải giải thích được lý do khi từ chối.
Luật tín dụng ở Mỹ (Equal Credit Opportunity Act, Đạo luật cơ hội tín dụng bình đẳng) và hướng dẫn của Ngân hàng Nhà nước Việt Nam đều yêu cầu: khi từ chối, tổ chức tín dụng phải nêu lý do cụ thể. Một model “hộp đen” không đáp ứng được yêu cầu này. Cây quyết định thì đáp ứng được, vì mỗi nhánh là một lý do đọc được.
Cách Cây quyết định giải quyết vấn đề
Gom thông tin đầu vào. Hệ thống lấy thông tin tài chính của người vay từ nhiều nguồn: thu nhập khai báo, dữ liệu ngân hàng liên kết, lịch sử thanh toán với các khoản vay cũ, thời gian đã mở thẻ tín dụng đầu tiên, tỉ lệ nợ đang gánh so với thu nhập. Mỗi con số là một đặc trưng (feature) mà cây quyết định sẽ đặt câu hỏi về.
Chạy qua chuỗi câu hỏi.Bắt đầu từ gốc: “Thu nhập có đủ không?”. Nếu có, cây rẽ sang câu hỏi tiếp theo: “Tỉ lệ nợ dưới 40% không?”. Nếu thu nhập thấp hơn, cây đi nhánh khác với yêu cầu chặt hơn về lịch sử. Mỗi câu hỏi loại bớt một phần khả năng, giống trò “20 câu hỏi” bạn chơi hồi nhỏ.
Chạm lá và ra kết luận.Sau 3 đến 4 câu hỏi, đường đi chạm một lá. Mỗi lá là một quyết định cụ thể: duyệt hạn mức cao, duyệt có điều kiện, yêu cầu xem xét thêm, hoặc từ chối. Điều quan trọng là mỗi lá đi kèm lý do, chính là chuỗi câu hỏi vừa trả lời. Người vay nhận được thư từ chối có nêu rõ: “Tỉ lệ nợ vượt ngưỡng an toàn”.
Nhiều cây hợp lực. Một cây đơn lẻ dễ chao đảo khi dữ liệu biến động. Thực tế FICO và các hệ thống lớn dùng gradient boosted trees: hàng trăm cây được xây tuần tự, mỗi cây sửa lỗi của cây trước, rồi cùng bỏ phiếu. Cách làm này tăng độ chính xác khoảng 20% so với scorecard cổ điển, mà vẫn giải thích được từng quyết định nhờ cấu trúc cây.
Hình minh họa
Bạn vừa ngồi vào ghế của hệ thống chấm điểm. Điều chỉnh bốn ô bên dưới để mô phỏng một hồ sơ, rồi nhìn sang bên phải. Cây sẽ sáng dần từ gốc xuống lá, mỗi bước trả lời một câu hỏi về bạn.
Thu nhập tốt, nợ dưới ngưỡng, không trễ hạn, lịch sử dài. Hồ sơ đạt mọi tiêu chí ưu tiên.
- 1
Thu nhập ≥ 15 triệu / tháng?
→ Trả lời: Có
- 2
Tỉ lệ nợ / thu nhập ≤ 40%?
→ Trả lời: Có
- 3
Không có khoản trễ hạn > 30 ngày trong 24 tháng?
→ Trả lời: Có
- 4
Có ít nhất 3 năm lịch sử tín dụng?
→ Trả lời: Có
Ba câu chuyện dưới đây là các hồ sơ đặc trưng của khách hàng Việt Nam. Nhấn “Tiếp tục” để đi qua từng hồ sơ và xem vì sao mỗi hồ sơ dẫn đến một kết quả riêng.
Hồ sơ 1: Kỹ sư phần mềm, 28 tuổi
Thu nhập 35 triệu/tháng, hiện đang trả góp điện thoại (nợ 25% thu nhập), chưa từng trễ hạn, có thẻ tín dụng 6 năm. Hệ thống chạy qua 4 câu hỏi trong cây và ra kết quả duyệt hạn mức cao.
Thu nhập tốt, nợ dưới ngưỡng, không trễ hạn, lịch sử dài. Hồ sơ đạt mọi tiêu chí ưu tiên.
Giả sử một cây được huấn luyện trên dữ liệu cũ và nó luôn từ chối người không có xe hơi. Điều này có công bằng không?
Con số thật
Nếu không có Cây quyết định, app sẽ ra sao?
Không có cây quyết định, hệ chấm điểm tín dụng phải lựa giữa hai con đường. Một là quay về viết luật tay (tốn công, không bắt kịp dữ liệu mới). Hai là dùng mạng nơ-ron kiểu “hộp đen” (chính xác hơn nhưng không giải thích được từng quyết định, vi phạm quy định của Ngân hàng Nhà nước và hướng dẫn công bằng tín dụng quốc tế).
Cây quyết định mang lại điều hiếm có: vừa phân loại chính xác, vừa giải thích minh bạch. Mỗi nhánh là một lý do đọc được, từ “trễ hạn 30 ngày” cho tới “nợ vượt ngưỡng an toàn”. Trong lĩnh vực mà mỗi quyết định ảnh hưởng đến cuộc sống của một con người, tính minh bạch này không chỉ là ưu điểm kỹ thuật mà còn là yêu cầu đạo đức và pháp lý.
- Cây quyết định trả lời câu hỏi 'duyệt hay không' bằng 3 đến 4 câu hỏi rõ ràng, không có ma thuật.
- Đường đi qua cây chính là lời giải thích. Ngân hàng có thể đưa trực tiếp cho khách hàng khi từ chối.
- Một cây đơn lẻ thì yếu. Thực tế dùng nhiều cây ensemble (boosted trees) để tăng độ chính xác, vẫn giữ tính đọc được.
- Giải thích được không đồng nghĩa với công bằng. Vẫn phải kiểm tra fairness để tránh proxy bias dựa vào vùng miền, giới tính, tuổi.
Muốn hiểu kỹ hơn phần thuật toán đứng sau, gồm cách cây tự chọn câu hỏi, chỉ số Gini và max depth, xem lại bài lý thuyết: Cây quyết định.