Decision Trees in Credit Scoring
Cây quyết định chấm tín dụng
Công ty nào đang ứng dụng Cây quyết định?
Bạn nộp đơn vay mua xe máy. Chỉ vài giây sau khi bấm nút, ngân hàng đã biết bạn có được duyệt hay không — và nếu được, mức lãi suất là bao nhiêu. Đằng sau quyết định “chỉ vài giây” đó là cây quyết định chạy qua vài câu hỏi về thu nhập, nợ hiện tại, lịch sử thanh toán.
Phần tiếp theo sẽ cho bạn đóng vai hệ thống chấm điểm: kéo thanh thu nhập, chọn “có/không” trễ hạn, và xem cây sáng lên từng bước cho đến khi ra kết quả. Không cần lập trình, không cần công thức.
Vấn đề công ty cần giải quyết
Mỗi ngày các ngân hàng lớn ở Việt Nam nhận hàng chục nghìn đơn vay: từ vay tiêu dùng nhỏ (mua điện thoại, xe máy) đến vay trung dài hạn (mua nhà, ô tô). Không có chuyên viên nào đọc tay đủ nhanh cho ngần ấy đơn. Hệ thống chấm điểm tự động phải phân loại người vay thành các nhóm rủi ro — nhưng cũng phải giải thích được lý do khi từ chối.
Luật tín dụng ở Mỹ (Equal Credit Opportunity Act, Đạo luật cơ hội tín dụng bình đẳng) và hướng dẫn của Ngân hàng Nhà nước Việt Nam đều yêu cầu: khi từ chối, tổ chức tín dụng phải nêu lý do cụ thể. Mô hình “hộp đen” không đáp ứng được yêu cầu này — cây quyết định thì có, vì mỗi nhánh là một lý do đọc được.
Cách Cây quyết định giải quyết vấn đề
Gom thông tin đầu vào.Hệ thống lấy thông tin tài chính của người vay từ nhiều nguồn: thu nhập khai báo, dữ liệu ngân hàng liên kết, lịch sử thanh toán với các khoản vay cũ, thời gian đã mở thẻ tín dụng đầu tiên, tỉ lệ nợ đang gánh so với thu nhập. Mỗi con số sẽ là một “đặc trưng” mà cây quyết định sẽ đặt câu hỏi về nó.
Chạy qua chuỗi câu hỏi.Bắt đầu từ gốc: “Thu nhập có đủ không?”. Nếu có, cây rẽ sang nhánh câu hỏi tiếp: “Tỉ lệ nợ dưới 40% không?”. Nếu không có thu nhập cao, cây đi nhánh khác với yêu cầu chặt hơn về lịch sử. Mỗi câu hỏi loại bớt một phần khả năng — giống trò “20 câu hỏi” bạn chơi hồi nhỏ.
Chạm lá — kết luận.Sau 3–4 câu hỏi, đường đi chạm một lá. Mỗi lá là một quyết định cụ thể: duyệt hạn mức cao, duyệt có điều kiện, yêu cầu xem xét thêm, hoặc từ chối. Quan trọng: mỗi lá đi kèm lý do — là chính chuỗi câu hỏi vừa trả lời. Người vay nhận được thư từ chối có nêu rõ: “Tỉ lệ nợ vượt ngưỡng an toàn”.
Nhiều cây hợp lực. Một cây đơn hay thay đổi khi dữ liệu biến động. Thực tế FICO và các hệ thống lớn dùng gradient boosted trees — hàng trăm cây được xây tuần tự, mỗi cây sửa lỗi của cây trước, rồi bỏ phiếu chung. Điều này tăng độ chính xác lên khoảng 20% so với scorecard cổ điển, mà vẫn giải thích được từng quyết định nhờ cấu trúc cây.
Hình minh họa
Bạn vừa ngồi vào ghế của hệ thống chấm điểm. Điều chỉnh bốn ô bên dưới để mô phỏng một hồ sơ, rồi xem bên phải: cây sẽ sáng dần từ gốc xuống lá, mỗi bước trả lời một câu hỏi về bạn.
Thu nhập tốt, nợ dưới ngưỡng, không trễ hạn, lịch sử dài — hồ sơ đạt mọi tiêu chí ưu tiên.
- 1
Thu nhập ≥ 15 triệu / tháng?
→ Trả lời: Có
- 2
Tỉ lệ nợ / thu nhập ≤ 40%?
→ Trả lời: Có
- 3
Không có khoản trễ hạn > 30 ngày trong 24 tháng?
→ Trả lời: Có
- 4
Có ít nhất 3 năm lịch sử tín dụng?
→ Trả lời: Có
Ba câu chuyện dưới đây là các hồ sơ đặc trưng của khách hàng Việt Nam. Nhấn “Tiếp tục” để đi qua từng hồ sơ và xem vì sao mỗi hồ sơ dẫn đến một kết quả riêng.
Hồ sơ 1 — Kỹ sư phần mềm, 28 tuổi
Thu nhập 35 triệu/tháng, hiện đang trả góp điện thoại (nợ 25% thu nhập), chưa từng trễ hạn, có thẻ tín dụng 6 năm. Hệ thống chạy qua 4 câu hỏi trong cây và ra kết quả duyệt hạn mức cao.
Thu nhập tốt, nợ dưới ngưỡng, không trễ hạn, lịch sử dài — hồ sơ đạt mọi tiêu chí ưu tiên.
Giả sử một cây được huấn luyện trên dữ liệu cũ và nó luôn từ chối người không có xe hơi. Điều này có công bằng không?
Con số thật
Nếu không có Cây quyết định, app sẽ ra sao?
Không có cây quyết định, hệ chấm điểm tín dụng hoặc phải quay về viết luật tay (tốn công, không bắt kịp dữ liệu mới) hoặc dùng mạng nơ-ron “hộp đen” (chính xác hơn nhưng không giải thích được từng quyết định — vi phạm quy định của Ngân hàng Nhà nước và hướng dẫn công bằng tín dụng quốc tế).
Cây quyết định mang lại điều hiếm có: vừa phân loại chính xác, vừa giải thích minh bạch. Mỗi nhánh là một lý do đọc được — từ “trễ hạn 30 ngày” đến “nợ vượt ngưỡng an toàn”. Trong lĩnh vực nơi mỗi quyết định ảnh hưởng đến cuộc sống một con người, tính minh bạch này không chỉ là ưu điểm kỹ thuật mà còn là yêu cầu đạo đức và pháp lý.
- Cây quyết định trả lời câu hỏi 'duyệt hay không' bằng 3–4 câu hỏi rõ ràng, không có ma thuật.
- Đường đi qua cây chính là lời giải thích — ngân hàng có thể đưa trực tiếp cho khách hàng khi từ chối.
- Một cây đơn yếu. Thực tế dùng nhiều cây ensemble (boosted trees) để tăng accuracy, vẫn giữ tính đọc được.
- Giải thích được ≠ công bằng: vẫn phải kiểm tra fairness để tránh proxy bias dựa vào vùng miền, giới, tuổi.
Muốn hiểu kỹ hơn phần thuật toán đứng sau — cách cây tự chọn câu hỏi, Gini, max depth — xem lại bài lý thuyết: Cây quyết định.