llm-concepts

KV Cache

Bộ nhớ đệm KV

Độ khóadvanced

1Thử đoán1/6

LLM sinh text từng token một. Khi sinh token thứ 100, nó cần tính attention giữa token 100 với tất cả 99 token trước. Phải tính LẠI attention cho 99 token cũ không?

2Khám phá2/6

Hình minh họa

Sinh câu: "Hà Nội là thủ đô"

Nhấn "Sinh token tiếp" để xem AI sinh từng token. So sánh số phép tính có/không cache.

HàNộilàthủđô

Không có KV Cache

phép tính attention

Tính LẠI tất cả mỗi bước

Có KV Cache

phép tính attention

Chỉ tính cho token mới

3Khám phá3/6

KV Cache lưu Key và Value đã tính cho mọi token cũ. Khi sinh token mới, chỉ cần tính K,V cho token đó rồi "look up" cache. không tính lại 99 token trước! Tiết kiệm tới 99% phép tính ở token thứ 100.

4Đi sâu4/6

Bên trong KV Cache

Token 1: Tính K₁, V₁ → lưu cache

Sinh token đầu tiên "Hà":

Tính Q₁, K₁, V₁ cho "Hà". Attention: Q₁ × K₁ᵀ → softmax → × V₁. Lưu K₁, V₁ vào cache.

Cache: [K₁, V₁]

5Thử thách5/6

KV Cache tăng dần mỗi token → tốn bộ nhớ. Context 200K token sẽ tốn cache rất lớn. Giải pháp nào được dùng phổ biến?

6Giải thích6/6

Giải thích

KV Cache là kỹ thuật tối ưu inference cho Transformer, lưu lại Key và Value tensor đã tính trong lớp self-attention để tránh tính lại khi sinh mỗi token mới. Độ lớn cache tỉ lệ thuận với context window : đây cũng chính là yếu tố giới hạn độ dài context của LLM.

Tại sao chỉ cache K và V, không cache Q?

Trong autoregressive generation, mỗi bước chỉ sinh 1 token mới → chỉ có 1 Query mới (Qₙ). Nhưng token này cần attend đến TẤT CẢ token trước → cần tất cả K₁...Kₙ₋₁ và V₁...Vₙ₋₁. Query không cần cache vì luôn chỉ có 1 query mới mỗi bước.

Đánh đổi: tốc độ vs bộ nhớ

KV Cache đổi bộ nhớ lấy tốc độ. Với Llama 70B, 128K context, KV cache có thể tốn 10-20 GB VRAM. Đây là lý do chính khiến LLM inference cần GPU VRAM lớn. không chỉ model weights!

kv_cache_concept.py

# Pseudocode minh họa KV Cache
kv_cache = {"keys": [], "values": []}

for token in generated_tokens:
    # Tính Q, K, V cho token mới
    q_new = compute_query(token)
    k_new = compute_key(token)
    v_new = compute_value(token)

    # Thêm vào cache
    kv_cache["keys"].append(k_new)
    kv_cache["values"].append(v_new)

    # Attention dùng TẤT CẢ keys/values từ cache
    all_keys = torch.stack(kv_cache["keys"])
    all_values = torch.stack(kv_cache["values"])

    # Chỉ cần 1 query mới × tất cả keys
    attention = softmax(q_new @ all_keys.T / sqrt(d))
    output = attention @ all_values

Tóm tắt

KV Cache lưu Key và Value đã tính, tránh tính lại khi sinh token mới
Giảm từ O(n²) xuống O(n) phép tính. tiết kiệm ~99% ở token thứ 100
Đánh đổi: tốn bộ nhớ GPU. cache tăng dần theo context length
GQA/MQA giảm cache 4-8 lần bằng cách chia sẻ K,V giữa attention heads

Kiểm tra hiểu biết

Câu 1/4

KV Cache tiết kiệm tính toán bằng cách nào?

Chủ đề liên quan

Self-Attention: Tự chú ý Inference Optimization: Tối ưu inference: làm AI nhanh hơn Context Window: Context window: bàn làm việc của AI

Hình minh họa

Sinh câu: "Hà Nội là thủ đô"

Nhấn "Sinh token tiếp" để xem AI sinh từng token. So sánh số phép tính có/không cache.

HàNộilàthủđô

Không có KV Cache

phép tính attention

Tính LẠI tất cả mỗi bước

Có KV Cache

phép tính attention

Chỉ tính cho token mới

Giải thích

Tại sao chỉ cache K và V, không cache Q?

Đánh đổi: tốc độ vs bộ nhớ

kv_cache_concept.py

# Pseudocode minh họa KV Cache
kv_cache = {"keys": [], "values": []}

for token in generated_tokens:
    # Tính Q, K, V cho token mới
    q_new = compute_query(token)
    k_new = compute_key(token)
    v_new = compute_value(token)

    # Thêm vào cache
    kv_cache["keys"].append(k_new)
    kv_cache["values"].append(v_new)

    # Attention dùng TẤT CẢ keys/values từ cache
    all_keys = torch.stack(kv_cache["keys"])
    all_values = torch.stack(kv_cache["values"])

    # Chỉ cần 1 query mới × tất cả keys
    attention = softmax(q_new @ all_keys.T / sqrt(d))
    output = attention @ all_values