AI đọc PDF như thế nào. Vì sao việc tưởng dễ lại khó.
Bạn kéo thả một file PDF 50 trang báo cáo tài chính vào Claude, hỏi 'doanh thu Q3 là bao nhiêu', nhận đúng con số 245 tỷ trong bốn giây. Cảm giác trơn tru, nhưng bên trong là một quy trình cồng kềnh. PDF được Adobe thiết kế năm 1993 để in ra giấy, không phải để máy đọc. File chỉ chứa lệnh 'vẽ glyph X tại tọa độ (x, y)', không có khái niệm đoạn văn, tiêu đề, hay bảng. Mọi cấu trúc người đọc cảm nhận được đều phải tự tái dựng. Bài viết mổ xẻ hai chiến lược các sản phẩm AI dùng năm 2026 để giải bài toán này: vision-first (multimodal model nhìn ảnh từng trang) và parse-first (Marker, Mistral OCR, LlamaParse bóc tách Markdown trước). Mỗi chiến lược thắng ở một loại tài liệu, nhưng cách thắng tổng thể lại là kết hợp cả hai.
Bạn mở Claude hoặc ChatGPT, kéo thả một file PDF dài 50 trang báo cáo tài chính, gõ một câu hỏi: “Doanh thu Q3 năm ngoái là bao nhiêu?”. Bốn giây sau, AI trả ra đúng con số 245 tỷ đồng, kèm trang nguồn 17. Bạn không mở file lần nào. AI đã đọc thay bạn.
Cảm giác đầu tiên là mọi thứ trơn tru. Tuy nhiên, bên trong cái khoảnh khắc bốn giây đó là một quy trình khá cồng kềnh, và quy trình đó năm 2026 vẫn đang là chỗ các công ty AI cạnh tranh dữ dội. Cùng một file PDF, cùng một câu hỏi, mỗi sản phẩm cho ra cost và accuracy khác hẳn nhau. Bài viết này giải thích vì sao đọc PDF lại là việc khó với AI, và hai chiến lược chính các sản phẩm đang dùng để giải nó.
PDF được thiết kế cho máy in, không cho máy đọc
Adobe phát hành PDF lần đầu năm 1993. Mục tiêu thiết kế khi đó rất rõ: cùng một file, in ở Hà Nội và in ở Tokyo phải ra hai bản giấy giống hệt nhau. Để đạt mục tiêu in chính xác, PDF chọn cách mô tả trang theo toạ độ. Bên trong file PDF không có khái niệm đoạn văn, tiêu đề, hay bảng. Chỉ có một chuỗi lệnh kiểu “vẽ chữ D tại toạ độ (72.0, 540.5) bằng font Times-Roman 11pt”.
Ví dụ câu “Doanh thu Q3 đạt 245 tỷ đồng” trong PDF không phải một string đơn giản. Nó là 25 lệnh Tjriêng lẻ, mỗi lệnh vẽ đúng một glyph tại đúng một toạ độ. Một bảng tài chính cũng vậy. Không có lệnh nào trong file đánh dấu “đây là một cell”, “đây là một row”. Chỉ có những con số nằm cách đều nhau trên trang. Mắt người nhìn vào nhận ra ngay đó là bảng. Máy đọc file thô chỉ thấy một đám toạ độ.
Đây là điểm khiến PDF khác hẳn HTML hay Word. HTML có thẻ <table>, <p>, <h1>. Word có style structure rõ ràng. PDF thì không. Mọi cấu trúc người đọc cảm nhận được đều phải tự tái dựngtừ toạ độ và font, sau khi file đã được sinh ra. Đây mới là phần khó. Một câu hỏi đơn giản như “đoạn này thuộc cell nào của bảng nào?” không có sẵn câu trả lời trong file, phải đoán.
Đọc bằng mắt. Đưa hẳn trang cho multimodal model.
Cách giải đơn giản nhất là bỏ qua việc tái dựng cấu trúc. Mỗi trang PDF được render thành một bức ảnh độ phân giải khoảng 1568 × 2048 pixel, rồi nhét thẳng cho một multimodal model như Claude Opus 4.7, GPT-5 Vision hoặc Gemini 2.5 Pro. Model nhìn ảnh đúng cách một con người nhìn: thấy tiêu đề ở đầu trang, thấy bảng có viền, thấy footnote ở chân trang, thấy biểu đồ.
Hiện tượng “upload PDF rồi hỏi” trong Claude và ChatGPT mặc định chạy bằng cách này. Bạn không cần cài đặt gì, model thấy trang như bạn đang thấy. Mạnh nhất khi PDF có nhiều thứ ngoài chữ: bảng có border vẽ thẳng, công thức toán, biểu đồ tài chính, sơ đồ kỹ thuật, scan tay. Vision model nhìn cái nào thì hiểu cái đó, không cần biết bên dưới có Tj hay không.
Điểm yếu duy nhất là cost. Một trang ở độ phân giải đó tốn khoảng 3.000 token chỉ để đại diện ảnh, chưa kể prompt và output. Một báo cáo 50 trang tốn 150.000 token cho ảnh, gần chạm context window của các model hạng trung. Một sách 300 trang thì chạy không nổi: ngốn cả triệu token, đắt và chậm. Đây là chỗ chiến lược thứ hai vào cuộc.
Mỗi trang xuất 1568 × 2048 pixel. Layout, font, bảng, figure giữ nguyên hệt như khi in.
Claude, GPT-5 Vision, Gemini 2.5 Pro. Khoảng 3.000 token cho mỗi ảnh, chưa kể prompt.
Đi kèm reference trang. Vision thấy gì thì hiểu cái đó, không cần biết Tj hay không.
Bóc tách trước. Xuất Markdown sạch rồi mới đưa cho LLM.
Cách thứ hai đặt một bước trung gian giữa file PDF và LLM. Bước trung gian là một công cụ chuyên dụng làm duy nhất một việc: tái dựng lại cấu trúc của trang. Đầu ra của nó là một file Markdown sạch (hoặc JSON có schema), với heading, paragraph, table, footnote đều được tag đúng. Sau khi có file Markdown, bạn đưa nó cho bất kỳ LLM nào, không cần multimodal.
Các công cụ phổ biến năm 2026 gồm Marker (mã mở, mạnh nhất ở paper khoa học), Mistral OCR (free tier rộng tay, OCR đa ngôn ngữ tốt), LlamaParse (của LlamaIndex, trả phí, mạnh ở bảng phức tạp), Unstructured.io (enterprise, nhiều format), Docling (IBM, chuyên doc kỹ thuật).
Bên trong, các công cụ này cùng dùng ba lớp phân tích. Lớp một là text extraction: đọc thẳng object stream của PDF, gom các Tj liền nhau thành chuỗi. Lớp hai là OCR bằng một mô hình thị giác chạy local, chỉ dùng cho trang scan không có text layer. Lớp ba là layout analysis: nhìn pattern toạ độ, font, kích thước, để đoán chỗ nào là heading, chỗ nào là paragraph, chỗ nào là cell của bảng.
Một trang sau khi qua parser tốn khoảng 500 token cho LLM. Rẻ hơn vision sáu lần. Một báo cáo 50 trang chỉ tốn 25.000 token, nằm gọn trong context của LLM rẻ tiền. Một sách 300 trang vẫn chạy được. Đây là cách NotebookLM xử lý nguồn lớn, ChatPDF xử lý PDF doanh nghiệp, và phần lớn pipeline RAG chạy bằng.
Điểm yếu của parser nằm ở những trang khó: bảng có cell merge, header lồng hai tầng, công thức toán, layout 2 cột báo. Parser hay nhập nhằng, đọc bảng thiếu cột, công thức bị lượm về dạng plain text mất ý nghĩa, hoặc flatten 2 cột thành một cột rối tung.
Có thể có text layer hoặc chỉ có ảnh scan. Parser xử lý cả hai.
Bất kỳ LLM nào cũng đọc được Markdown. Sáu lần rẻ hơn vision.
Cùng một báo cáo 50 trang. Hai cách. Cost lệch nhau 6 lần.
Accuracy bảng 95%, formula 92%, scan tay 90%. Đắt và chậm với báo cáo dài.
Accuracy bảng 78%, formula 60% (mất LaTeX). Có thể hỏng vài bảng phức tạp.
Hai con số phía trên là chi phí cho cùng một báo cáo tài chính 50 trang, có chữ thường, vài bảng cell ghép, không có công thức. Vision đắt gần sáu lần parser nhưng đảm bảo đọc đúng từng bảng. Parser rẻ và nhanh nhưng có thể vấp ở 2 đến 4 bảng phức tạp, đếm thiếu cột hoặc lẫn dòng.
Quy tắc thực dụng năm 2026: PDF thuần văn bản (hợp đồng, sách, báo cáo dài chỉ có chữ) thì parser luôn thắng. PDF nhiều ảnh, nhiều bảng cell ghép, scan tay thì vision thắng. PDF khoa học có công thức và figure thì hai bên huề, lúc đó cần một chiến lược chung. Phần kế tiếp nói về chiến lược đó.
Sản phẩm tốt năm 2026 dùng cả hai. Hybrid thắng.
Cách phổ biến nhất hiện nay không phải chọn một bên, mà là kết hợp. Logic thường thấy: chạy parser trên mọi trang trước. Trên mỗi trang, parser tự ước lượng độ tự tin của nó qua một số signal: trang có border bảng phức tạp, trang có ký hiệu toán, trang có ảnh bitmap lớn. Khi confidence thấp dưới ngưỡng, hệ thống fallback sang vision cho riêng trang đó. Trang còn lại vẫn đi đường rẻ.
Kết quả: parser-cost trên khoảng 90% trang, vision-cost trên 10% trang khó. Cost giảm sáu đến tám lần so với vision thuần, accuracy gần bằng vision thuần. Đây là cách Claude xử lý PDF lớn từ Files API, NotebookLM xử lý nguồn dài, và pattern Mistral OCR cộng Claude phổ biến trong cộng đồng dev.
Một bài học thực dụng: lần tới khi bạn upload một PDF lớn vào một sản phẩm AI và thấy nó chậm hoặc đắt, có khả năng sản phẩm đó đang chạy vision-only. Đó là một tín hiệu sản phẩm chưa tối ưu. Sản phẩm tốt sẽ phân loại trang trước, gửi đa số trang qua parser, chỉ giữ trang khó cho vision. Bạn có thể làm thủ công bước đó bằng Marker (mã mở, miễn phí) trên local, rồi paste Markdown sang LLM thường, tiết kiệm gần như cả khoản tiền vision.
PDF không sắp được thay thế. Hợp đồng vẫn ký bằng PDF, báo cáo vẫn xuất bằng PDF, thư công vẫn ban hành bằng PDF. Tất cả các format mới (Markdown, EPUB, HTML doc) đều không lay được vị trí của PDF trong giấy tờ thật. Vì thế việc đọc hiểu PDF của AI sẽ còn quan trọng dài dài. Hai chiến lược ở trên đang là điểm cạnh tranh thật sự, không phải vẻ ngoài. Lần tới khi bạn so hai sản phẩm AI đọc tài liệu, hỏi đúng câu này: bên nào dùng vision, bên nào dùng parser, bên nào dùng cả hai. Trả lời được, bạn đã hiểu phần lõi.