llm-concepts

Context Window in Long Documents

Context window khi đọc tài liệu dài

Độ khóadvanced

Công ty nào đang ứng dụng Context window?

Năm 2023, Anthropic ra mắt Claude 2 với cửa sổ ngữ cảnh 100.000 token, gấp 25 lần so với GPT-3.5. Lần đầu tiên, bạn có thể tải lên một bản hợp đồng 200 trang hoặc một cuốn sách dày và hỏi AI bất kỳ câu hỏi nào về nội dung, mà AI đọc được toàn bộ trong một lần.

Google Gemini 1.5 Pro nâng cửa sổ lên 1 triệu token. Anthropic sau đó cũng mở rộng Claude Sonnet 4 và Opus 4.6 lên 1 triệu token, với độ chính xác truy xuất đạt 90% trên toàn bộ cửa sổ. Đây là bước nhảy biến AI từ trợ lý hỏi-đáp thành công cụ phân tích tài liệu cho dân văn phòng.

Cuộc chạy đua context window 2022 → 2026

thang đo log · 4K → 2M

2022

GPT-3.5 bản đầu4K token · ≈ 6 trang A4

2023

GPT-4 bản 32K32K token · ≈ 50 trang

2024

Claude 3.5 Sonnet200K token · ≈ 310 trang

2025

Gemini 1.5 Pro · Claude Sonnet 41M token · ≈ 1.500 trang

2026

Gemini 1.5 Pro (bản 2M)2M token · ≈ 3.100 trang

Ý nghĩa thực tế:năm 2022 AI chỉ đọc được một email dài. Ba năm sau, cùng một mô hình có thể đọc hết cuốn "Chiến tranh và Hòa bình" (hơn 1.200 trang) trong một lần.

Vấn đề công ty cần giải quyết

Context window là giới hạn số lượng token, đơn vị chữ nhỏ nhất, mỗi từ tiếng Anh khoảng 1,3 token, mà mô hình có thể "nhìn thấy" cùng lúc. Quan trọng: con số này bao gồm cả câu hỏi, tài liệu bạn gửi lẫn câu trả lời của AI.

GPT-3.5 năm 2022 chỉ có cửa sổ 4.096 token, tương đương khoảng 6 trang A4. Khi bạn là nhân viên văn phòng cần AI phân tích một hợp đồng 80 trang, một báo cáo tài chính quý hay một email chuỗi dài, mô hình đơn giản không đủ "bàn làm việc" để đọc hết.

Cùng một công việc thật: tóm tắt báo cáo tài chính 500 trang.

Cách làm bắt buộc: chia 500 trang thành 10 phần, gửi từng phần riêng lẻ, nhận 10 bản tóm tắt nhỏ, rồi tự gộp thành một bản tóm tắt cuối.

Ít nhất 10 prompt riêng cho cùng một file
Mỗi phần AI không biết phần khác nói gì → dễ mâu thuẫn
Bạn phải tự làm "biên tập viên" gộp kết quả
Mất 60–90 phút; dễ bỏ sót khi phần hay nằm ở giữa file

Trước năm 2023, thói quen "cắt tài liệu thành mảnh vừa ăn" là kỹ năng bắt buộc khi làm việc với AI. Hàng triệu nhân viên văn phòng, luật sư, kế toán, nhân viên chăm sóc khách hàng đều rơi vào quy trình này mỗi ngày, tốn thời gian và dễ mất ý.

Cách Context window giải quyết vấn đề

Claude 2: mở đường
Claude 2 mở đường với 100K token (2023). Anthropic ra mắt mô hình thương mại đầu tiên có cửa sổ 100.000 token, khoảng 75.000 từ, tương đương một cuốn tiểu thuyết ngắn hoặc một bản hợp đồng dày. Lần đầu tiên người dùng có thể tải toàn bộ tài liệu pháp lý hay báo cáo nghiên cứu và đặt câu hỏi xuyên suốt mà không cần cắt nhỏ.
Trước đó, GPT-4 bản phổ thông chỉ có 8K token, bản 32K phải đăng ký riêng. Bước nhảy lên 100K là một trật tự độ lớn, lần đầu "AI đọc tài liệu" trở thành thao tác ai cũng dùng được.
Gemini: nhảy 10×
Gemini 1.5 Pro nâng lên 1 triệu token (2024–2025). Google công bố Gemini 1.5 Pro hỗ trợ cửa sổ 1 triệu token (bản nghiên cứu thử nghiệm tới 2 triệu), cho phép phân tích:
1.500trang A4
tài liệu hay sách
11giờ
audio ghi âm cuộc họp
60phút
video có lời thoại
30.000dòng
mã nguồn phần mềm
trong cùng một cửa sổ. Không còn phải chọn giữa âm thanh, văn bản hay mã nguồn, AI đọc chung tất cả.
Claude 1M: cố định giá
Claude Sonnet 4 / Opus 4.6 mở rộng 1 triệu token với giá cố định (2025–2026). Anthropic mở rộng dòng Claude lên 1 triệu token, với một điểm khác biệt quan trọng cho doanh nghiệp: giá mỗi token không tăng khi cửa sổ lớn hơn, token thứ 900.000 có giá bằng token thứ 100.
Cùng một tác vụ: phân tích 800 trang báo cáo (≈ 560K token).
Nhiều nhà cung cấp trước đây tính phí "long context" cao hơn 2–4 lần. Một tác vụ 500K token có thể mất vài USD mỗi lần chạy, không đủ rẻ để dùng hằng ngày.
90% chính xác
Độ chính xác truy xuất đạt 90%.Anthropic báo cáo Claude Opus 4.6 đạt độ chính xác truy xuất, khả năng tìm đúng thông tin cụ thể trong tài liệu rất dài, ở mức 90% trên toàn bộ cửa sổ 1 triệu token, giảm đáng kể vấn đề "mất thông tin ở phần giữa" mà nhiều mô hình trước đây gặp phải.
So sánh độ chính xác khi tìm lại thông tin trong tài liệu dài
Claude 2 (2023)72%
GPT-4 Turbo 128K (2024)78%
Gemini 1.5 Pro 1M87%
Claude Opus 4.6 (2026)90%
Số càng cao, AI càng ít bỏ sót thông tin. Ngưỡng 90% là mức mà một chuyên gia văn phòng có thể dựa vào, nhưng vẫn nên kiểm tra lại các con số quan trọng trước khi gửi sếp.

Con số thật

1 triệu token context window, tương đương khoảng 750.000 từ hoặc 1.500 trang [2]
90% độ chính xác truy xuất trên toàn bộ cửa sổ 1 triệu token [4]
Gấp 250 lần so với GPT-3.5 (4.096 token) chỉ trong 3 năm [3]

Những con số đáng nhớ

(cuộn vào để chạy)

0token

context của Claude Sonnet 4 (bản 1M)

≈ 1.500 trang A4 hoặc 750.000 từ tiếng Anh

độ chính xác truy xuất trong tài liệu dài

Anthropic công bố cho Opus 4.6 trên toàn cửa sổ 1M token

0lần

chênh lệch so với GPT-3.5 chỉ sau 3 năm

Từ 4.000 token (2022) lên 1.000.000 token (2025)

0tiếng

video có thể đưa trực tiếp cho Gemini 1.5 Pro

Hoặc 11 giờ audio, 30.000 dòng code, cùng một cửa sổ

Mẹo dùng cho người Việt

Cửa sổ 1M token "hiệu quả" cho tiếng Việt thường bằng khoảng 60–70% con số quảng cáo, vì tiếng Việt tốn thêm token cho dấu. Với Claude 1M, bạn có thể yên tâm thả 1.000–1.200 trang tiếng Việt vào mà không lo tràn.

Nếu không có Context window, app sẽ ra sao?

Nếu cửa sổ ngữ cảnh vẫn bị giới hạn ở vài nghìn token, AI sẽ mãi là công cụ trả lời những câu hỏi ngắn. Không ai dám tin tưởng giao cho AI một hợp đồng, một báo cáo tài chính hay một vụ án pháp lý, vì nó chưa từng đọc hết. Người dùng sẽ tiếp tục cắt tài liệu thành những mảnh vụn, tự mình đóng vai biên tập viên.

Một ngày làm việc điển hình của trưởng phòng pháp chế.

Nhận hợp đồng 120 trang, dành 2 giờ chia nhỏ, hỏi AI từng phần
Báo cáo tuân thủ 80 trang, không đủ giờ đọc kỹ, chỉ lướt qua mục lục
Sổ tay nhân sự 300 trang, "thôi kệ, khi nào cần tra cứu thì mở tay"
Các cuộc họp ghi âm → không bao giờ được chuyển thành ghi chú có ích

Kết quả: nhiều quyết định được đưa ra mà người ra quyết định không thực sự đọc tài liệu gốc.

Context window 1 triệu token đã biến AI từ một trợ lý hỏi-đáp thành đối tác phân tích tài liệu, với khả năng đọc và hiểu lượng thông tin tương đương một chuyên gia nghiên cứu mất nhiều ngày. Trong ba năm, công việc "đọc tài liệu dài" đã chuyển từ mấy giờ đồng hồ xuống vài phút, và điều đó thay đổi nghề của rất nhiều người Việt Nam làm việc với tài liệu hằng ngày.

Chủ đề liên quan

Context Window: Context window: bàn làm việc của AI

Công ty nào đang ứng dụng Context window?

Cuộc chạy đua context window 2022 → 2026

thang đo log · 4K → 2M

2022

GPT-3.5 bản đầu4K token · ≈ 6 trang A4

2023

GPT-4 bản 32K32K token · ≈ 50 trang

2024

Claude 3.5 Sonnet200K token · ≈ 310 trang

2025

Gemini 1.5 Pro · Claude Sonnet 41M token · ≈ 1.500 trang

2026

Gemini 1.5 Pro (bản 2M)2M token · ≈ 3.100 trang

Vấn đề công ty cần giải quyết

Cùng một công việc thật: tóm tắt báo cáo tài chính 500 trang.

Cách làm bắt buộc: chia 500 trang thành 10 phần, gửi từng phần riêng lẻ, nhận 10 bản tóm tắt nhỏ, rồi tự gộp thành một bản tóm tắt cuối.

Ít nhất 10 prompt riêng cho cùng một file
Mỗi phần AI không biết phần khác nói gì → dễ mâu thuẫn
Bạn phải tự làm "biên tập viên" gộp kết quả
Mất 60–90 phút; dễ bỏ sót khi phần hay nằm ở giữa file

Cách Context window giải quyết vấn đề

Claude 2: mở đường

Claude 2 mở đường với 100K token (2023). Anthropic ra mắt mô hình thương mại đầu tiên có cửa sổ 100.000 token, khoảng 75.000 từ, tương đương một cuốn tiểu thuyết ngắn hoặc một bản hợp đồng dày. Lần đầu tiên người dùng có thể tải toàn bộ tài liệu pháp lý hay báo cáo nghiên cứu và đặt câu hỏi xuyên suốt mà không cần cắt nhỏ.

Trước đó, GPT-4 bản phổ thông chỉ có 8K token, bản 32K phải đăng ký riêng. Bước nhảy lên 100K là một trật tự độ lớn, lần đầu "AI đọc tài liệu" trở thành thao tác ai cũng dùng được.

Gemini: nhảy 10×

Gemini 1.5 Pro nâng lên 1 triệu token (2024–2025). Google công bố Gemini 1.5 Pro hỗ trợ cửa sổ 1 triệu token (bản nghiên cứu thử nghiệm tới 2 triệu), cho phép phân tích:

1.500trang A4

tài liệu hay sách

11giờ

audio ghi âm cuộc họp

60phút

video có lời thoại

30.000dòng

mã nguồn phần mềm

trong cùng một cửa sổ. Không còn phải chọn giữa âm thanh, văn bản hay mã nguồn, AI đọc chung tất cả.

Claude 1M: cố định giá

Claude Sonnet 4 / Opus 4.6 mở rộng 1 triệu token với giá cố định (2025–2026). Anthropic mở rộng dòng Claude lên 1 triệu token, với một điểm khác biệt quan trọng cho doanh nghiệp: giá mỗi token không tăng khi cửa sổ lớn hơn, token thứ 900.000 có giá bằng token thứ 100.

Cùng một tác vụ: phân tích 800 trang báo cáo (≈ 560K token).

Nhiều nhà cung cấp trước đây tính phí "long context" cao hơn 2–4 lần. Một tác vụ 500K token có thể mất vài USD mỗi lần chạy, không đủ rẻ để dùng hằng ngày.

90% chính xác

Độ chính xác truy xuất đạt 90%.Anthropic báo cáo Claude Opus 4.6 đạt độ chính xác truy xuất, khả năng tìm đúng thông tin cụ thể trong tài liệu rất dài, ở mức 90% trên toàn bộ cửa sổ 1 triệu token, giảm đáng kể vấn đề "mất thông tin ở phần giữa" mà nhiều mô hình trước đây gặp phải.

So sánh độ chính xác khi tìm lại thông tin trong tài liệu dài

Claude 2 (2023)72%

GPT-4 Turbo 128K (2024)78%

Gemini 1.5 Pro 1M87%

Claude Opus 4.6 (2026)90%

Số càng cao, AI càng ít bỏ sót thông tin. Ngưỡng 90% là mức mà một chuyên gia văn phòng có thể dựa vào, nhưng vẫn nên kiểm tra lại các con số quan trọng trước khi gửi sếp.

Nếu không có Context window, app sẽ ra sao?

Một ngày làm việc điển hình của trưởng phòng pháp chế.

Nhận hợp đồng 120 trang, dành 2 giờ chia nhỏ, hỏi AI từng phần
Báo cáo tuân thủ 80 trang, không đủ giờ đọc kỹ, chỉ lướt qua mục lục
Sổ tay nhân sự 300 trang, "thôi kệ, khi nào cần tra cứu thì mở tay"
Các cuộc họp ghi âm → không bao giờ được chuyển thành ghi chú có ích

Kết quả: nhiều quyết định được đưa ra mà người ra quyết định không thực sự đọc tài liệu gốc.

Context Window in Long Documents

Công ty nào đang ứng dụng Context window?

Cuộc chạy đua context window 2022 → 2026

Vấn đề công ty cần giải quyết

Cách Context window giải quyết vấn đề

Con số thật

Những con số đáng nhớ

Nếu không có Context window, app sẽ ra sao?

Tài liệu tham khảo (4)

Chủ đề liên quan

Context Window in Long Documents

Công ty nào đang ứng dụng Context window?

Cuộc chạy đua context window 2022 → 2026

Vấn đề công ty cần giải quyết

Cách Context window giải quyết vấn đề

Con số thật

Những con số đáng nhớ

Nếu không có Context window, app sẽ ra sao?

Tài liệu tham khảo (4)

Chủ đề liên quan