Retrieval-Augmented Generation
RAG - Trợ lý AI biết tra tài liệu công ty
Bạn hỏi ChatGPT: 'Công ty mình cho nghỉ phép mấy ngày một năm?' Nó trả lời rất tự tin nhưng SAI. Lý do khả dĩ nhất là gì?
AI thường (không RAG)
Như một sinh viên học thuộc sách từ 2 năm trước rồi đi thi. Bí câu nào là đoán bừa— nói tự tin để "trả có gì đó". Đây là hallucination.
AI với RAG
Như sinh viên được mở sổ tay vào phòng thi. Nghe câu hỏi → mở đúng trang → trích dẫn → viết trả lời. Mỗi câu đều kiểm chứng được.
Với dân văn phòng, RAG giống như thuê một trợ lý đã đọc hết nội quy công ty, báo cáo quý, quy trình CSKH... và sẵn sàng trả lời kèm số trang tài liệu.
Hình minh họa
A. Cùng một câu hỏi: AI trần vs AI + RAG
Câu hỏi
Công ty cho nghỉ phép mấy ngày một năm?
Câu hỏi
Công ty cho nghỉ phép mấy ngày một năm?
B. Toàn bộ pipeline: từ file PDF → câu trả lời
Chọn câu hỏi bạn hay gặp ở chỗ làm:
K nhỏ: trả lời gọn, có thể bỏ sót. K lớn: đầy đủ nhưng dễ lẫn nhiễu và tốn chi phí.
Chuẩn bị kho tài liệu (làm 1 lần duy nhất)
1. Tài liệu gốc
2. Cắt thành đoạn
3. Mã hoá nghĩa
4. Kho vector
Bốn bước trên chỉ làm một lần. Sau đó mỗi câu hỏi chỉ đi qua phần truy vấn bên dưới — rất nhanh.
Truy vấn online — "Công ty cho nghỉ phép mấy ngày một năm?"
Độ liên quan của từng đoạn với câu hỏi (chọn top-2)
Nội quy nghỉ phép năm 2026
noi-quy-2026.pdf
Nhân viên chính thức có 14 ngày phép/năm, tăng 2 ngày so với 2025. Đơn nghỉ phải gửi qua hệ thống HRMS trước 3 ngày làm việc, trừ trường hợp nghỉ ốm có giấy bác sĩ.
Nghỉ phép không lương và nghỉ thai sản
noi-quy-2026.pdf
Sau khi dùng hết 14 ngày phép có lương, nhân viên có thể xin nghỉ không lương tối đa 30 ngày/năm. Nghỉ thai sản 6 tháng theo luật, trả 100% lương bình quân 6 tháng gần nhất.
Chính sách thưởng KPI
hop-dong-nhan-su.docx
Thưởng KPI được tính theo quý. Đạt 100% chỉ tiêu: 1 tháng lương. Đạt 120% trở lên: 1,5 tháng lương. Dưới 80% không có thưởng. Tháng 12 có thưởng Tết riêng.
Quy trình xử lý khiếu nại khách hàng
quy-trinh-cskh.md
Khi nhận khiếu nại, nhân viên phản hồi trong 2 giờ làm việc. Trường hợp phức tạp chuyển lên trưởng nhóm trong 24 giờ. Mọi cuộc gọi phải ghi âm và lưu vào CRM.
Doanh thu quý 4 năm 2025
bao-cao-q4-2025.xlsx
Doanh thu Q4/2025 đạt 185 tỷ đồng, tăng 12% so với cùng kỳ. Mảng B2B đóng góp 68%, mảng bán lẻ 32%. Lợi nhuận ròng 14,3 tỷ, biên lợi nhuận 7,7%.
Thị trường dược phẩm Việt Nam 2025
bao-cao-thi-truong.pdf
Thị trường dược phẩm Việt Nam đạt 7,2 tỷ USD năm 2025, tăng 8% so với 2024. Thuốc OTC chiếm 35%, thuốc kê đơn 65%. Top 3 công ty nội địa chiếm 28% thị phần.
C. RAG cơ bản vs các mẹo nâng cao
Khi nào AI vẫn trả lời sai dù có RAG? Dưới đây là 4 cách để hệ thống khôn hơn:
Cách cơ bản: Lấy 3 đoạn giống câu hỏi nhất rồi đưa AI.
Nhận xét: Đủ dùng cho 80% tình huống, nhưng đôi khi dính đoạn 'hao hao' không đúng ý.
RAG = cho AI quyền mở sổ tay trước khi trả lời. Quy trình Hỏi → Tra cứu → Ghép tài liệu → Viết trả lời tách biệt kiến thức (lưu trong tài liệu, dễ cập nhật) khỏi kỹ năng ngôn ngữ (lưu trong AI).
Thêm tài liệu mới = thêm file, không cần huấn luyện lại AI. Thấy trả lời sai = xem lại tài liệu nguồn, không phải đoán tại sao AI ảo giác. Đây là nền móng của vector database và tìm kiếm ngữ nghĩa.
Bạn là kế toán. Dùng chatbot RAG nội bộ có ưu thế gì so với ChatGPT công cộng?
Đồng nghiệp hỏi: 'Đã cài RAG rồi sao vẫn có lúc trả lời sai?'
Giải thích
RAG (Retrieval-Augmented Generation) ghép hai thành phần: Retriever tra đoạn tài liệu từ kho vector, Generator (LLM) đọc câu hỏi + đoạn tra được và viết trả lời có trích dẫn. Kho tài liệu và khả năng ngôn ngữ tách biệt.
Các mảnh ghép trong hệ thống RAG
Cắt PDF dài thành đoạn 300-800 chữ, overlap 10-20% để không cắt ngang ý.
Biến mỗi đoạn thành vector — 'toạ độ ý nghĩa' trong không gian số.
Pinecone, Qdrant, pgvector, Chroma... lưu vector + metadata, tìm nhanh trong triệu đoạn.
Lấy top-K đoạn liên quan nhất qua tìm kiếm ngữ nghĩa (K = 3-10).
Bộ lọc nâng cao
Cross-encoder chấm lại các ứng viên để chọn đoạn thật sự liên quan.
LLM trả lời
Nhận prompt 'system + tài liệu + câu hỏi', viết câu trả lời có trích dẫn.
Mỗi tình huống, chọn mẹo RAG nào?
Ghép tình huống công sở với kỹ thuật RAG phù hợp nhất.
Cột A
Cột B
Hành trình trả lời: RAG cơ bản vs RAG có lọc
Cùng một câu hỏi, cùng một kho — khác nhau số bước xử lý.
Nhanh (~200ms). Phù hợp 80% tình huống.
- Context precision / recall: đoạn tra đúng không? bỏ sót không?
- Faithfulness: câu trả lời bám đoạn tra, hay AI "chế"?
- Answer relevance: có thật sự trả lời câu hỏi không?
Framework: RAGAS, TruLens, LangSmith.
- HyDE: AI tưởng tượng câu trả lời giả trước, rồi tìm đoạn gần câu giả đó — hiệu quả khi câu hỏi ngắn.
- Self-RAG: AI tự quyết định khi nào cần tra và đánh giá chất lượng đoạn trước khi dùng.
- Corrective RAG: điểm tin cậy thấp → fallback sang web search thay vì kho nội bộ.
- Hybrid search: ghép từ khoá (BM25) + ngữ nghĩa (vector) — hữu ích khi có mã sản phẩm, tên riêng.
Ứng dụng thực tế cho dân văn phòng
Chatbot hỏi đáp nội quy
Nhân viên hỏi 'phép năm nay khác không?' → bot đọc PDF HR trả lời kèm link trang.
Trợ lý hợp đồng / pháp lý
'Điều khoản phạt chậm giao hàng hợp đồng A?' → bot trả lời + trích dẫn điều khoản.
Phân tích báo cáo ngành
Marketer có 50 PDF báo cáo dược → hỏi xu hướng, bot trả từng số liệu có nguồn.
CSKH — FAQ sản phẩm
Khách hỏi cấu hình, đổi trả → bot đọc manual + chính sách hiện hành, không lạc bản cũ.
Tìm email / tài liệu cá nhân
'Tôi đã gửi hợp đồng với X chưa?' → trợ lý tra hộp thư và Drive cá nhân.
Giáo viên tra sách giáo khoa
'Bài Giỗ Tổ Hùng Vương sách lớp 4 dạy gì?' → bot trả đúng đoạn sách.
- RAG = cho AI quyền tra cứu tài liệu nội bộ trước khi trả lời — thay vì đoán theo trí nhớ chung chung.
- Pipeline offline: Tài liệu → Cắt đoạn → Mã hoá vector → Kho vector. Pipeline online: Câu hỏi → Tìm top-K → Ghép vào prompt → AI viết trả lời có trích dẫn.
- Lợi ích lớn nhất với dân văn phòng: câu trả lời ĐÚNG nội quy công ty mình, ĐÚNG số liệu báo cáo, có trích dẫn kiểm chứng được.
- Chất lượng RAG = chất lượng kho tài liệu. Rác vào, rác ra. Dọn kho và cập nhật đều đặn quan trọng hơn mô hình AI xịn.
- Muốn khôn hơn: lọc metadata (ngày/phòng ban), viết lại câu hỏi, rerank cross-encoder — tăng precision mà không cần đổi AI.
- Đánh giá cần 3 chỉ số: đoạn tra có đúng không, AI có bám tài liệu không, câu trả lời có trả đúng câu hỏi không.
Kiểm tra hiểu biết
RAG nghĩa là gì trong ngôn ngữ đời thường?