ai-safety

Explainability (XAI)

Explainability: bắt AI giải thích quyết định

Độ khóadvanced

1Dự đoán1/8

Ngân hàng từ chối cho bạn vay. AI đưa ra quyết định. Theo bạn, bạn có quyền đòi hỏi lý do cụ thể không?

2Trực giác ban đầu2/8

Explainability (khả năng giải thích được) là việc AI không chỉ đưa ra kết quả mà còn cho con người biết vì saokết quả đó ra đời. Khi AI nói “đồng ý” hay “từ chối”, nó phải chỉ ra yếu tố nào đã đẩy quyết định về phía đó và yếu tố nào kéo về phía ngược lại.

Ẩn dụ: AI là hóa đơn thanh toán

Khi bạn đi siêu thị, nhân viên đưa bạn hóa đơn liệt kê từng món: cà phê 80.000đ, bánh mì 25.000đ…. Bạn không chỉ biết tổng 350.000đ, bạn biết trả cho cái gì. Nếu chỉ đưa tờ giấy “350.000đ” không kèm chi tiết, bạn sẽ không tin.

AI cũng vậy. Khi nó “tính tiền” cho một quyết định quan trọng, cho vay, tuyển dụng, chẩn đoán bệnh, bạn cần một “hóa đơn” liệt kê từng yếu tố đã góp phần vào quyết định đó.

Để bảo vệ người dùng

Không ai bị từ chối vay, từ chối khám bệnh, từ chối việc làm mà không biết lý do.

Để tuân thủ luật

EU AI Act, GDPR, Nghị định 13/2023 của Việt Nam đều có điều khoản về quyền được giải thích.

Để phát hiện lỗi

Khi nhìn thấy lý do, nhà phát triển mới biết AI đang dùng yếu tố đáng ngờ như địa chỉ hay giới tính.

3Quan sát3/8

Hình minh họa

Yếu tố nào quan trọng đến đâu?

Hồ sơ xin vay của bạn. AI cân 8 yếu tố. Nhấn vào từng thanh để “bỏ yếu tố đó ra” và xem quyết định có đảo chiều không.

Mỗi thanh là một yếu tố AI cân nhắc khi xét hồ sơ vay. Nhấn vào thanh để tạm bỏ yếu tố đó ra, xem quyết định có đổi không.

AI quyết định: ĐỒNG Ý CHO VAYĐiểm: 96/100

Điều bạn vừa thấy

Đây chính là feature importance, AI không chỉ nói “đồng ý” hay “từ chối”, mà cho bạn biết yếu tố nào quan trọng đến đâu. Khi bạn bỏ thu nhập (32 điểm) ra, quyết định thường đảo chiều. Khi bỏ học vấn (1 điểm) ra, gần như không đổi gì.

Tô màu đơn xin vay, cách LIME giải thích

LIME là một công cụ phổ biến. Nó tô xanh các ô “giúp duyệt” và đỏ các ô “bị trừ điểm”. Bạn so sánh: có giải thích khác không giải thích thế nào?

So sánh hai cách AI trả lời một đơn xin vay.

Mỗi ô được tô màu theo ảnh hưởng của nó đến quyết định. Di chuột/nhấn để xem lý do.

Đơn xin vay, đã giải thích

Họ và tên

Nguyễn Thị Hương

Không ảnh hưởng quyết định, chỉ để nhận dạng.

Thu nhập/tháng

35.000.000 ₫GIÚP

Thu nhập trên ngưỡng 25 triệu → mô hình tăng điểm tin cậy cho khả năng trả nợ.

Số tiền muốn vay

800.000.000 ₫TRỪ

Khoản vay lớn hơn 20× lương tháng → mô hình giảm điểm vì rủi ro trả chậm cao.

Lịch sử tín dụng

Không nợ quá hạn 5 nămGIÚP

Lịch sử sạch → đây là tín hiệu mạnh nhất cho khả năng trả nợ tương lai.

Địa chỉ

Phường 12, Quận 8, TP.HCMTRỪ

Mã bưu chính này xuất hiện nhiều trong lịch sử nợ xấu của ngân hàng, mô hình giảm điểm. Đây có thể là dấu hiệu của thiên kiến theo khu vực.

Độ tuổi

34GIÚP

Khoảng tuổi 30–45 được xem là ổn định về sự nghiệp và thu nhập.

Nghề nghiệp

Kế toán trưởngGIÚP

Nghề văn phòng có hợp đồng dài hạn → thu nhập ổn định hơn nghề tự do.

Học vấn

Cử nhân

Có đóng góp nhỏ nhưng không thay đổi quyết định cuối.

4 yếu tố giúp duyệt2 yếu tố bị trừ điểm

Hộp trắng và hộp đen, hai loại AI

Không phải AI nào cũng như nhau. Một số mô hình tự nó đã rõ ràng, còn một số khác thì… chính kỹ sư làm ra cũng không đọc được.

Hộp trắng, dễ giải thích

Cây quyết định, hồi quy tuyến tính, luật if-then. Bạn đọc lại từng bước: “Thu nhập ≥ 25 triệu? Nếu có, kiểm tra lịch sử...” Kết quả được giải thích sẵn.

Hộp đen, khó giải thích

Mạng nơ-ron sâu, mô hình ngôn ngữ lớn, rừng ngẫu nhiên nhiều cây. Hàng triệu phép nhân nối tiếp, ngay cả kỹ sư cũng không đọc được. Cần công cụ riêng(SHAP, LIME…) để “soi”.

4Aha4/8

Không phải AI nào cũng “giải thích được” một cách tự nhiên.

Cây quyết định và luật if-then có phần giải thích nằm sẵn trong chính cấu trúc. Nhưng mạng nơ-ron sâu, mô hình ngôn ngữ lớn (như ChatGPT), là hộp đen. Để “hé lộ” chúng, chúng ta cần công cụ bên ngoài: SHAP, LIME, Grad-CAM, Attention Maps.

Giống như kính hiển vi không làm thay đổi vi khuẩn, nó chỉ giúp bạn nhìn thấy.

5Thử thách nhanh5/8

Một công ty bảo hiểm dùng AI để từ chối bồi thường. Họ nói “AI tự quyết định, chúng tôi không biết lý do”. Lập luận nào ĐÚNG?

6Đào sâu6/8

Giải thích

Ba kiểu giải thích, ba góc nhìn khác nhau

Local, 1 quyết định

“Vì sao TÔIbị từ chối?”

Giải thích cho từng trường hợp cá nhân, SHAP, LIME thường làm việc này.

Global, toàn mô hình

“Mô hình nói chung coi trọng yếu tố nào nhất?”

Dùng để kiểm tra tổng thể, mô hình có công bằng không, có quan tâm đúng yếu tố không.

Counterfactual, giả định

“Nếu thu nhập tôi tăng 5 triệu thì có được duyệt không?”

Giúp khách hàng biết phải làm gì để lần sau thành công.

Ghép tên công cụ với đặc điểm của nó

Nhấn một công cụ bên trái, rồi nhấn đặc điểm đúng bên phải.

Cột A

Cột B

Khung pháp lý, bạn đang được bảo vệ như thế nào?

EU, GDPR Điều 22

Bạn có quyền không bị “quyết định hoàn toàn tự động” nếu nó ảnh hưởng đáng kể. Tổ chức phải cung cấp “thông tin có ý nghĩa về logic”.

EU, AI Act (2024)

AI “rủi ro cao” (tín dụng, tuyển dụng, y tế, giáo dục) bắt buộcphải có giải thích “thực chất”, không chung chung.

Việt Nam, NĐ 13/2023

Nghị định về bảo vệ dữ liệu cá nhân có điều khoản về quyền được biết khi dữ liệu bị xử lý tự động và được phản đối quyết định.

7Gói gọn7/8

Nhớ: AI quan trọng phải giải thích được

Explainability = AI giải thích vì sao nó ra quyết định, như hóa đơn liệt kê từng khoản thanh toán.
Có 3 kiểu giải thích: local (1 quyết định), global (toàn mô hình), counterfactual (nếu đổi X thì sao).
Không phải AI nào cũng tự giải thích được, hộp đen (mạng nơ-ron sâu) cần công cụ bên ngoài như SHAP, LIME, Grad-CAM.
Luật Việt Nam (NĐ 13/2023), EU (GDPR, AI Act), Mỹ (CFPB) đều yêu cầu giải thích cho AI ảnh hưởng đến quyền lợi con người.
Coi chừng 'giải thích giả', một lý do nghe xuôi tai nhưng không phản ánh đúng mô hình bên trong.

8Kiểm tra hiểu biết8/8

Kiểm tra hiểu biết

Câu 1/6

AI ngân hàng từ chối bạn vay. Theo nghĩa vụ của Explainable AI, bạn có quyền nhận gì?

Chủ đề liên quan

Bias & Fairness: Bias và fairness: AI học cả định kiến AI Guardrails: Guardrails: rào chắn cho chatbot Self-Attention: Tự chú ý