llm-concepts

Top-K & Top-P Sampling

Top-K và Top-P: lấy mẫu có chọn lọc

Độ khóadvanced

1Thử đoán1/6

AI đang chọn từ tiếp theo. Có 50.000 từ trong từ điển. Nên cho AI chọn từ TẤT CẢ 50.000 từ hay chỉ từ vài từ xác suất cao nhất?

2Khám phá2/6

Hình minh họa

Lọc từ trước khi chọn

Câu: "Sáng nay tôi ăn ___". 10 từ ứng viên với xác suất khác nhau.

K = 5Giữ 5 từ xác suất cao nhất

✓ 5 từ được giữ (85.0% xác suất)✕ 5 từ bị loại

3Khám phá3/6

Top-K giữ đúng K từ xác suất cao nhất (cố định). Top-P (nucleus sampling) giữ từ cho đến khi tổng xác suất ≥ P (linh hoạt). Cả hai đều lọc bớt "rác" trước khi AI chọn. Nhưng Top-P thông minh hơn vì tự điều chỉnh theo mức tự tin của model.

4Đi sâu4/6

Khi nào Top-K gặp vấn đề?

Top-P tự điều chỉnh số từ tùy mức tự tin. ít từ khi chắc chắn, nhiều từ khi không chắc.

Phân phối: "phở" = 85%, "cơm" = 8%, "bún" = 4%, còn lại < 1%

Top-K = 5: Giữ 5 từ. Nhưng 3 từ cuối gần như vô nghĩa (0.5%, 0.3%...). Lãng phí!

Top-P = 0.9: Chỉ giữ "phở" (85% đã ≥ 90% → chỉ 1 từ). Hiệu quả!

5Thử thách5/6

Trong thực tế, API như Claude và GPT thường dùng cả temperature LẪN top_p. Nếu đặt temperature = 0, top_p = 0.9. cái nào thắng?

6Giải thích6/6

Giải thích

Top-K và Top-P là hai kỹ thuật lọc từ vựng trước khi chọn token tiếp theo, bổ sung cho temperature. Khác với beam search (deterministic, khám phá nhiều nhánh song song), top-k/top-p giữ tính ngẫu nhiên nhưng loại bỏ các token xác suất thấp để tránh output vô nghĩa.

Pipeline sinh text đầy đủ

Logits → Temperature (điều chỉnh phân phối) → Top-K/Top-P (lọc từ) → Sampling (chọn ngẫu nhiên từ nhóm đã lọc)

So sánh:

Tiêu chí	Top-K	Top-P
Cách lọc	Giữ đúng K từ	Giữ từ đến khi tổng ≥ P
Số từ	Cố định	Linh hoạt (thay đổi theo phân phối)
Ưu điểm	Đơn giản, dễ hiểu	Thông minh hơn. tự điều chỉnh

sampling.py

response = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=100,
    # Chỉ chỉnh MỘT trong hai:
    temperature=0.8,  # Hoặc...
    top_p=0.9,        # ...cái này (không nên cả hai)
    # top_k=40,       # Ít dùng hơn top_p
    messages=[{"role": "user", "content": "Viết thơ về Hà Nội"}]
)

Khuyến nghị thực tế

Hầu hết trường hợp, chỉ cần chỉnh temperature. Nếu cần kiểm soát thêm, dùng top_p (linh hoạt hơn top_k). Không nên chỉnh cả temperature lẫn top_p. chúng có thể xung đột.

Tóm tắt

Top-K giữ đúng K từ xác suất cao nhất (cố định). đơn giản nhưng cứng nhắc
Top-P (nucleus sampling) giữ từ đến khi tổng xác suất ≥ P. linh hoạt theo mức tự tin
Pipeline: Logits → Temperature → Top-K/P → Sampling. mỗi bước lọc thêm
Thực tế: chỉnh temperature HOẶC top_p, không nên chỉnh cả hai cùng lúc

Kiểm tra hiểu biết

Câu 1/4

Top-K = 3 nghĩa là gì?

Chủ đề liên quan

Temperature: Temperature: nút chỉnh độ ngẫu nhiên của AI Beam Search: Beam search: giữ nhiều ứng viên khi sinh token GPT: GPT - Mô hình ngôn ngữ tự hồi quy