File cũ làm AI nói sai.
Bạn hỏi AI về chính sách hoàn tiền, quy trình nghỉ phép, hoặc bảng giá mới. Câu trả lời nghe tự tin, nhưng nếu kho Drive còn đầy template cũ, bản nháp chưa xoá và wiki lỗi thời, AI có thể viết theo nguồn sai. Một nghiên cứu Nature về cách ngôn ngữ lặp lại đi vào training data cho thấy bài học rộng hơn: model không tự phân biệt nguồn nào còn hiệu lực. Với nhân viên văn phòng, cách dùng an toàn là yêu cầu citation, kiểm ngày cập nhật, và coi AI là người viết nháp chứ không phải nguồn sự thật.
AI trả lời theo tài liệu bạn cho nó đọc
Mở chatbot trong công ty và hỏi: “Chính sách hoàn tiền cho khách VIP đang như thế nào?” Nếu kho tài liệu của team có ba file cũ, hai deck bán hàng đã lỗi thời, và một wiki chưa ai cập nhật từ quý trước, câu trả lời có thể nghe rất tự tin nhưng vẫn đi theo dữ liệu sai.
Nghiên cứu mới trên Nature nói về một trường hợp lớn hơn: ngôn ngữ từ state media có thể đi vào web, vào training data, rồi hiện lại trong câu trả lời của LLM. Với dân văn phòng, bài học thực tế gần hơn nhiều: AI không tự biết tài liệu nào mới, tài liệu nào là bản nháp, và tài liệu nào chỉ là template copy qua nhiều năm.
Template cũ vào kho dữ liệu, AI trả lời như thật
LLM học từ văn bản. Công cụ AI trong văn phòng cũng thường dựa vào văn bản: PDF, email, biên bản họp, slide, wiki, handbook, bảng giá, file Excel và chính sách nội bộ. Khi những tài liệu đó được đưa vào RAG hoặc dùng làm ngữ cảnh cho chatbot, model sẽ viết theo những gì nó thấy nhiều nhất.
Vấn đề không nằm ở việc AI cố tình nói sai. Vấn đề là nguồn sai đã được đóng gói lại thành câu trả lời trôi chảy. Người dùng chỉ thấy một đoạn văn gọn gàng, trong khi đường đi của dữ liệu phía sau đã biến mất.
email và slide được copy lại
bản nháp sống cạnh bản chính
AI lấy đoạn giống câu hỏi
câu trả lời nghe chắc chắn
người dùng phải kiểm nguồn
Cùng một câu hỏi, kho tài liệu khác thì đáp án khác
Hãy tưởng tượng hai team cùng hỏi AI viết email trả lời khách hàng về phí huỷ dịch vụ. Team A có policy mới, bảng giá mới, và FAQ được gắn ngày rõ ràng. Team B có thêm năm bản nháp cũ chưa xoá. Với cùng một prompt, AI của Team B dễ lấy lại ngôn ngữ cũ vì nó xuất hiện nhiều hơn trong kho tài liệu.
Nghe mượt, nhưng chính sách, bảng giá hoặc quy trình đã hết hạn.
Câu trả lời kèm file, ngày cập nhật, và đoạn gốc để người dùng kiểm tra.
Template cũ làm AI hứa mức hoàn tiền không còn áp dụng.
AI tóm tắt theo file draft vì file final đặt tên khó tìm hơn.
Quy trình nghỉ phép cũ xuất hiện nhiều hơn bản cập nhật mới.
Thông điệp định vị cũ bị lặp lại trong deck mới.
AI đọc nhầm sheet phụ vì sheet chính không có tên rõ ràng.
Ý kiến chưa được duyệt bị viết lại như quyết định chính thức.
Đừng hỏi AI đúng hay sai. Hỏi nó lấy từ đâu
Với công việc văn phòng, câu hỏi tốt không phải chỉ là “AI trả lời đúng chưa?” mà là “AI lấy câu này từ file nào, trang nào, bản cập nhật ngày nào?” Nếu công cụ không đưa ra citation, hãy coi câu trả lời như bản nháp chứ chưa phải nguồn sự thật.
Cách làm thực tế: yêu cầu AI nêu tên file, trích đoạn gốc, so sánh với tài liệu mới nhất, và báo rõ khi không tìm thấy nguồn. Với tài liệu quan trọng như hợp đồng, chính sách nhân sự, bảng giá, báo cáo tài chính, người duyệt cuối vẫn phải là người.
AI giỏi viết nháp, nhưng không thay kho dữ liệu sạch
Hãy dùng AI để tóm tắt biên bản họp, viết email nháp, đổi giọng văn, tạo outline slide, hoặc gom ý từ nhiều tài liệu. Những việc này nhanh hơn rất nhiều nếu bạn đã có nguồn đúng.
Ngược lại, đừng dùng AI như nguồn duy nhất khi câu trả lời liên quan đến tiền, pháp lý, nhân sự, quyền lợi khách hàng hoặc quyết định quản trị. Với các việc đó, AI chỉ là người đọc phụ. Nguồn chính vẫn phải là tài liệu được duyệt và còn hiệu lực.
Nguồn nền cho bài học này: bài Nature State media control influences large language models và companion site của nhóm nghiên cứu.