Quay lại trang chủ7/19 trong danh mục

llm-concepts

Context Window

Context window: bàn làm việc của AI

Độ khóadvanced

1Thử đoán trước1/8

Dự đoán

Bạn dán 200 trang tài liệu vào ChatGPT miễn phí và hỏi 'Tóm tắt giúp tôi'. Theo bạn, AI sẽ làm gì?

2Hình dung cho dễ2/8

Hình dung 1

Context window giống bàn làm việc của AI. Bạn đặt tài liệu, câu hỏi, lịch sử hội thoại lên đó. Khi bàn đầy, tờ cũ nhất bị đẩy rơi xuống sàn, AI không còn nhìn thấy nữa.

Hình dung 2

Hoặc giống trí nhớ ngắn hạn của con người. Bạn chỉ giữ được một lượng thông tin nhất định trong đầu trước khi cái mới đẩy cái cũ ra. AI cũng vậy, mỗi mô hình có một dung lượng riêng.

Hình dung 3

Đơn vị đo là token, một mẩu chữ nhỏ. Tiếng Việt thường tốn nhiều token hơn tiếng Anh vì có dấu. Một trang A4 điển hình khoảng 600–700 token.

Token: chính xác nó là gì?

Token là đơn vị nhỏ hơn cả từ. Ví dụ:

"hello"

1 token

"ngôi sao"

≈ 2–3 token

"cà phê sữa đá"

≈ 5 token

1 trang A4

≈ 600–700 token

Không cần đếm chính xác. Chỉ cần nhớ quy đổi thô: 1 trang ≈ 700 token, 100 trang ≈ 70K token.

3Tự tay đo thử3/8

Hình minh họa

Demo 1, Thước đo token của từng mô hình

Chọn một mô hình AI. Bật/tắt các loại tài liệu bạn muốn "nhét" vào cuộc chat. Nếu thanh màu chuyển đỏ là vượt ngân sách, phần cuối sẽ bị AI cắt âm thầm.

Ngân sách của GPT-4o23.300 / 128.000 token (18.2%)

Cách dùng nhanh

Chọn GPT-3.5 miễn phírồi bật "Hợp đồng thương mại", bạn sẽ thấy thanh đỏ ngay. Đổi sang Claude 3.5 thì còn rộng rãi. Đổi sang Gemini 1.5 Pro thì thừa mứa, nhưng thừa mứa không có nghĩa là miễn phí, xem cảnh báo ở Bước 6.

Demo 2, Tìm kim trong đống rơm: AI nhớ đến đâu?

Hãy tưởng tượng bạn giấu một câu bí mật ("mật khẩu wifi văn phòng là cafesang2025") vào đầu, giữa, hoặc cuối của một tài liệu dài, rồi hỏi AI tìm lại. Dưới đây là điểm thành công thực nghiệm.

Giấu ở ĐẦU

91%

tỷ lệ AI tìm lại đúng

Giấu ở GIỮA

62%

tỷ lệ AI tìm lại đúng

Giấu ở CUỐI

88%

tỷ lệ AI tìm lại đúng

Thay đổi tùy theo tài liệu ngắn hay dài, quan sát khác biệt.

Khi tài liệu ngắn (dưới 10 trang), AI tìm lại thông tin gần như hoàn hảo dù bạn giấu ở đâu. Yên tâm đặt câu hỏi tự nhiên.

"Lost in the middle", hiện tượng thật

Nhiều bài nghiên cứu (Liu và cộng sự, 2023) đã xác nhận: dù mô hình "chứa" được cả triệu token, chất lượng đọc phần giữa vẫn yếu. Context lớn không đồng nghĩa với đọc kỹ mọi ngóc ngách.

Demo 3, Bảng cân đối prompt: cái gì chiếm bao nhiêu?

Mỗi lần bạn chat, có 4 khoản luôn cùng nằm trong context. Kéo slider để thấy khoản nào ngốn nhiều nhất, và khi nào ngân sách bị vượt.

Tổng đang dùng36.500 / 200.000 token (18.3%)

Lời dặn đầu (system prompt): 1.500Lịch sử hội thoại trước đó: 6.000Tài liệu bạn dán vào: 25.000Dự phòng cho câu trả lời: 4.000

Lời dặn đầu (system prompt)1.500 token

Phần đặt vai trò, quy tắc cho AI

Lịch sử hội thoại trước đó6.000 token

Các lượt chat đã xảy ra trong cùng phiên

Tài liệu bạn dán vào lần này25.000 token

Email, báo cáo, hợp đồng, cái bạn paste

Dự phòng cho câu trả lời của AI4.000 token

Phải có chỗ cho AI viết trả lời, thường 2–8K

4Khoảnh khắc Aha4/8

Context window là một chiếc bàn có diện tích cố định, không phải bộ nhớ vô hạn. Mọi thứ bạn gửi, câu hỏi, tài liệu, lịch sử, cùng phải nằm trên bàn một lúc với phần trả lời của AI. Khi bàn đầy, tờ cũ rơi xuống và AI không còn thấy nó nữa, nhưng AI vẫn trả lời trông có vẻ tự tin như thường.

Quy tắc ngón tay cái cho dân văn phòng

1 trang A4 ≈ 700 token. 100 trang ≈ 70K token.
Luôn dành ≥ 30% ngân sách cho câu trả lời. Input chiếm tối đa 70%.
Đặt câu hỏi quan trọng ở đầu hoặc cuối prompt, đừng chôn giữa tài liệu dài.

5Thử áp dụng5/8

Sếp đưa bạn một PDF 500 trang (≈ 350K token) và bảo: 'Tóm tắt cho anh trong 1 đoạn'. Bạn chọn chiến lược nào?

Bạn hãy nối: chiến lược nào hợp với tình huống nào?

Chọn một mục bên cột A, rồi chọn mục phù hợp bên cột B để nối.

Cột A

Cột B

6Hiểu sâu hơn6/8

Giải thích

Các mô hình phổ biến 2025: ai chứa được bao nhiêu trang?

Thang log, chứ không phải tuyến tính, vì GPT-3.5 (4K) tới Gemini 1.5 (2M) chênh tới 500 lần. Hàng số bên phải là ước tính quy đổi ra trang A4.

GPT-3.5 miễn phí · OpenAI4.000 token ≈ 6 trang · vừa đủ một trang email dài

GPT-4o · OpenAI128.000 token ≈ 200 trang · đọc được một tiểu luận dài

Claude 3.5 / 4 · Anthropic200.000 token ≈ 310 trang · đọc được một hợp đồng 300 trang

Gemini 1.5 Pro · Google2.000.000 token ≈ 3.100 trang · đọc được một kho hồ sơ pháp lý lớn

4 cách xử lý tài liệu vượt ngân sách

Khi tài liệu của bạn vượt context của mô hình đang dùng. Không có cách duy nhất đúng, tùy tình huống.

1. Chia nhỏ (Chunking)

Khi nào dùng

Khi có thể tóm từng phần rồi gộp

Cách làm

Cắt tài liệu thành phần 20–50 trang, tóm mỗi phần, rồi gộp các bản tóm tắt thành tóm tắt cuối.

+ Đơn giản, không cần công cụ đặc biệt.

− Có thể mất mối liên kết xuyên suốt giữa các phần.

2. Đổi mô hình context lớn

Khi nào dùng

Khi cần đọc cả tài liệu trong một lần

Cách làm

Chuyển sang Claude 3.5 (200K), Gemini 1.5 Pro (1–2M) hoặc Claude 1M beta.

+ Đơn giản, AI có bối cảnh đầy đủ.

− Đắt hơn (theo token) và phần giữa vẫn dễ 'bị lơ'.

3. RAG (có thư viện riêng)

Khi nào dùng

Khi kho tri thức rất lớn, hỏi đi hỏi lại

Cách làm

Lưu tài liệu vào một kho vector, mỗi câu hỏi hệ thống chỉ lấy vài đoạn liên quan nhất để nạp vào prompt.

+ Kho có thể rộng vô hạn, chi phí thấp mỗi lần hỏi.

− Cần tool riêng (Notion AI, Claude Projects, ChatGPT 'Custom GPTs', v.v.).

4. Tóm tắt cuốn chiếu (Rolling summary)

Khi nào dùng

Khi cuộc chat kéo dài nhiều tiếng, nhiều lượt

Cách làm

Cứ sau mỗi 10–15 lượt, nhờ AI tóm lại bối cảnh đến giờ thành vài dòng, rồi dùng đoạn đó thay cho lịch sử gốc.

+ Giữ được mạch ngữ cảnh mà không tràn ngân sách.

− Chi tiết nhỏ có thể rơi rụng sau mỗi lần tóm tắt.

Cái bẫy âm thầm: AI không báo khi cắt

Khác với "lỗi quá dung lượng", context window bị vượt không hiện cảnh báo cho người dùng phổ thông. Bạn dán tài liệu 500 trang, bấm gửi, AI vẫn trả lời trơn tru như không có gì. Chỉ khi bạn kiểm tra thật kỹ mới phát hiện nó đang tóm tắt 60 trang đầu và "bịa mơ hồ" về phần còn lại.

Tiếng Việt tốn token hơn tiếng Anh

Tokenizer của hầu hết mô hình được huấn luyện chủ yếu với tiếng Anh, nên các ký tự có dấu của tiếng Việt thường bị chia nhỏ hơn. Một câu tiếng Việt 10 chữ thường ngốn khoảng 18–25 token, trong khi câu tiếng Anh cùng nội dung chỉ 12–15 token. Quy đổi thô: ngân sách context "thực dùng" cho tiếng Việt chỉ khoảng 60–70% con số ghi trên nhãn.

7Ghim vào đầu7/8

5 điều cần nhớ về Context Window

Context window là 'bàn làm việc' của AI, mọi thứ bạn gửi + phần AI trả lời cùng nằm trên bàn một lúc. Vượt ngân sách là tờ cũ bị đẩy xuống.
Quy đổi thô dễ nhớ: 1 trang A4 ≈ 700 token; 100 trang ≈ 70K token. Tiếng Việt tốn thêm ~30% so với tiếng Anh.
Các mốc 2025: GPT-3.5 miễn phí 4K (≈ 6 trang), GPT-4o 128K (200 trang), Claude 3.5 200K (310 trang), Gemini 1.5 Pro 2M (3.100 trang).
AI đọc kỹ phần đầu và phần cuối của tài liệu dài hơn phần giữa ('lost in the middle'). Đặt câu hỏi trọng yếu ở đầu hoặc cuối.
Khi tài liệu vượt ngân sách: chia nhỏ (chunking), đổi mô hình context lớn, dùng RAG (Claude Projects / NotebookLM), hoặc tóm tắt cuốn chiếu.

8Kiểm tra hiểu biết8/8

Kiểm tra hiểu biết

Câu 1/6

Context window là gì, nói theo cách dễ hiểu nhất cho người dùng văn phòng?

Chủ đề liên quan

Tokenization: Tokenization: chia văn bản thành token Long Context: Ngữ cảnh dài. AI đọc cả cuốn sách Self-Attention: Tự chú ý

Hình minh họa

Demo 1, Thước đo token của từng mô hình

Ngân sách của GPT-4o23.300 / 128.000 token (18.2%)

Cách dùng nhanh

Demo 2, Tìm kim trong đống rơm: AI nhớ đến đâu?

Giấu ở ĐẦU

91%

tỷ lệ AI tìm lại đúng

Giấu ở GIỮA

62%

tỷ lệ AI tìm lại đúng

Giấu ở CUỐI

88%

tỷ lệ AI tìm lại đúng

Thay đổi tùy theo tài liệu ngắn hay dài, quan sát khác biệt.

Khi tài liệu ngắn (dưới 10 trang), AI tìm lại thông tin gần như hoàn hảo dù bạn giấu ở đâu. Yên tâm đặt câu hỏi tự nhiên.

"Lost in the middle", hiện tượng thật

Demo 3, Bảng cân đối prompt: cái gì chiếm bao nhiêu?

Mỗi lần bạn chat, có 4 khoản luôn cùng nằm trong context. Kéo slider để thấy khoản nào ngốn nhiều nhất, và khi nào ngân sách bị vượt.

Tổng đang dùng36.500 / 200.000 token (18.3%)

Lời dặn đầu (system prompt): 1.500Lịch sử hội thoại trước đó: 6.000Tài liệu bạn dán vào: 25.000Dự phòng cho câu trả lời: 4.000

Lời dặn đầu (system prompt)1.500 token

Phần đặt vai trò, quy tắc cho AI

Lịch sử hội thoại trước đó6.000 token

Các lượt chat đã xảy ra trong cùng phiên

Tài liệu bạn dán vào lần này25.000 token

Email, báo cáo, hợp đồng, cái bạn paste

Dự phòng cho câu trả lời của AI4.000 token

Phải có chỗ cho AI viết trả lời, thường 2–8K

Giải thích

Các mô hình phổ biến 2025: ai chứa được bao nhiêu trang?

Thang log, chứ không phải tuyến tính, vì GPT-3.5 (4K) tới Gemini 1.5 (2M) chênh tới 500 lần. Hàng số bên phải là ước tính quy đổi ra trang A4.

GPT-3.5 miễn phí · OpenAI4.000 token ≈ 6 trang · vừa đủ một trang email dài

GPT-4o · OpenAI128.000 token ≈ 200 trang · đọc được một tiểu luận dài

Claude 3.5 / 4 · Anthropic200.000 token ≈ 310 trang · đọc được một hợp đồng 300 trang

Gemini 1.5 Pro · Google2.000.000 token ≈ 3.100 trang · đọc được một kho hồ sơ pháp lý lớn

4 cách xử lý tài liệu vượt ngân sách

Khi tài liệu của bạn vượt context của mô hình đang dùng. Không có cách duy nhất đúng, tùy tình huống.

1. Chia nhỏ (Chunking)

Khi nào dùng

Khi có thể tóm từng phần rồi gộp

Cách làm

Cắt tài liệu thành phần 20–50 trang, tóm mỗi phần, rồi gộp các bản tóm tắt thành tóm tắt cuối.

+ Đơn giản, không cần công cụ đặc biệt.

− Có thể mất mối liên kết xuyên suốt giữa các phần.

2. Đổi mô hình context lớn

Khi nào dùng

Khi cần đọc cả tài liệu trong một lần

Cách làm

Chuyển sang Claude 3.5 (200K), Gemini 1.5 Pro (1–2M) hoặc Claude 1M beta.

+ Đơn giản, AI có bối cảnh đầy đủ.

− Đắt hơn (theo token) và phần giữa vẫn dễ 'bị lơ'.

3. RAG (có thư viện riêng)

Khi nào dùng

Khi kho tri thức rất lớn, hỏi đi hỏi lại

Cách làm

Lưu tài liệu vào một kho vector, mỗi câu hỏi hệ thống chỉ lấy vài đoạn liên quan nhất để nạp vào prompt.

+ Kho có thể rộng vô hạn, chi phí thấp mỗi lần hỏi.

− Cần tool riêng (Notion AI, Claude Projects, ChatGPT 'Custom GPTs', v.v.).

4. Tóm tắt cuốn chiếu (Rolling summary)

Khi nào dùng

Khi cuộc chat kéo dài nhiều tiếng, nhiều lượt

Cách làm

Cứ sau mỗi 10–15 lượt, nhờ AI tóm lại bối cảnh đến giờ thành vài dòng, rồi dùng đoạn đó thay cho lịch sử gốc.

+ Giữ được mạch ngữ cảnh mà không tràn ngân sách.

− Chi tiết nhỏ có thể rơi rụng sau mỗi lần tóm tắt.

Cái bẫy âm thầm: AI không báo khi cắt

Tiếng Việt tốn token hơn tiếng Anh

Kiểm tra hiểu biết

Câu 1/6

Context window là gì, nói theo cách dễ hiểu nhất cho người dùng văn phòng?