infrastructure

Cost, Latency & Token Economics for LLM Apps

Kinh tế token: chi phí, latency và hiệu quả

Độ khóadvanced

1Dự đoán1/9

CEO hỏi: 'Chatbot hỗ trợ khách hàng tốn bao nhiêu một tháng?' Bạn nên trả lời dựa trên số nào để vừa đúng, vừa an toàn cho quyết định?

2Token Economy Calculator2/9

Trước khi vào lý thuyết, hãy tự kéo slider. Chọn model, set input/output tokens, đẩy cache hit rate, bật cascade. Quan sát $/ngày, phân rã latency, và vạch break-even với lương nhân viên thật sự chuyển động.

Hình minh họa

Cấu hình

Kéo slider, bật toggle. mọi ô bên phải cập nhật ngay.

Model

Input tokens / request2.0k

Output tokens / request500

Requests / ngày (log scale)50.0k

10010k1M

Cache hit rate0%

Cached read tính 10% giá gốc (discount 0.9×)

Bật model cascade (cheap-first routing)

Giả định 70% traffic dừng ở model rẻ. $/req giảm ~40%

Context compression 30%

Tóm tắt / nén prompt. input tokens giảm 30%

Ước tính

Dùng làm điểm khởi đầu. hãy xác thực bằng số đo thực tế trước khi báo cáo sếp.

Chi phí / ngày

$500.00

$/tháng · $15.0k

$/năm · $182.5k

$/request = $0.01000

Phân rã latency (ước tính p95)

7.82s

TTFT

420ms

Decode

6667ms

Retrieval

550ms

Tool calls

180ms

So với nhân viên lương 15tr / tháng

25.00× lương

Cao hơn 3× lương người. cần dừng traffic không cần thiết

Cost history · 1/20

min $500.00 · max $500.00

Chưa bật tối ưu nào. thử tăng cache lên 60% để thấy chi phí input sụt đáng kể.

Thử nghiệm có chủ đích

Bắt đầu với cấu hình mặc định (gpt-4o, 2k in / 500 out, 50k req/ngày, cache 0%). Ghi nhớ con số $/tháng. Sau đó: (1) bật cache 60%, (2) bật cascade, (3) đổi sang gpt-4o-mini. Mỗi bước bạn tiết kiệm bao nhiêu % so với baseline?

3Khoảnh khắc aha3/9

Token là đơn vị tính tiền kỹ thuật. Nhưng business mới cần biết $/task hoặc $/user. Giữa hai đó có 5 bước chuyển đổi: token → $/call → $/task → $/user-session → $/ngày → $/tháng. Mỗi bước có đòn bẩy tối ưu riêng. Nếu chỉ nhìn "tổng token" bạn sẽ bỏ qua 4 điểm can thiệp có giá trị.

4Bốn lưu ý quan trọng4/9

Prompt caching: đòn bẩy lớn nhất cho input-heavy workload

Claude, OpenAI, và Gemini đều hỗ trợ prompt caching với cấu trúc tương đồng: hash prefix của prompt, tái sử dụng KV cache trong vài phút, tính cached input ở ~10% giá gốc. Với system prompt 5k token + tool schema 2k token, cache hit rate thường đạt 80-95% trong production steady-state → giảm 70-90% chi phí input. Đây là lever đầu tiên nên bật. không đánh đổi chất lượng, chỉ đánh đổi một chút phức tạp trong thiết kế prompt.

Đừng tối ưu cost sớm. đo trước

Công thức "làm cái này sẽ giảm 40% cost" nghe hấp dẫn, nhưng không nghĩa lý gì nếu chưa biết baseline. Quy trình đúng: (1) đặt observability đếm tokens + $ per request, (2) chạy 2 tuần lấy phân phối, (3) tìm tail nặng nhất (90th percentile request thường ngốn 3-5× cost trung bình), (4) tối ưu đúng tail đó. Và trong mọi thay đổi, task success rate không được sụt. nếu giảm cost 50% nhưng fail rate tăng 3%, đó không phải là thắng lợi.

Model cascade: chi phí kỳ vọng, không phải chi phí tối đa

Thay vì dùng Opus cho tất cả, hãy xếp tầng: Haiku → Sonnet → Opus. Mỗi tier có một gate quyết định có escalate hay không (confidence score, rubric pass, LLM-as-judge nhỏ, hoặc rule-based). Nếu phân phối thực là 80% dừng ở Haiku, 15% ở Sonnet, 5% ở Opus, chi phí trung bình ≈ 0.8×$1 + 0.15×$3 + 0.05×$15 = $2.0/1M. so với $15/1M nếu chạy Opus thuần, đó là giảm ~87%. Thiết kế gate tốt (fail-closed về tier cao khi không chắc) quan trọng hơn tối ưu prompt ở từng tier.

Latency không chỉ là decode. tool call mới là vết nứt ngầm

Trong một agent điển hình, decode là 30-40% p95. Tool call tuần tự (sequential HTTP, DB queries, vendor APIs) có thể là 40-60%. mỗi tool 200-500ms, chuỗi 4-5 tool dễ vượt ngưỡng 2s. Hai đòn bẩy: (a) parallel tool calls khi các tool độc lập, (b) tool caching (cache kết quả ổn định như get_user_profile trong 1-5 phút). Đừng tối ưu model khi nút cổ chai nằm ở tool graph.

5Thử thách5/9

Bill LLM của bạn $10k/tháng. Breakdown: 70% input tokens, 30% output. Chiến thuật nào đáng ưu tiên đầu tiên?

p95 latency = 8s, user phàn nàn. Bạn phân rã: 60% decode, 15% TTFT, 15% tool calls, 10% retrieval. Bước đi đúng?

6Lý thuyết6/9

Giải thích

Kinh tế token là khung tư duy biến đơn vị kỹ thuật (token) thành đơn vị quyết định (chi phí / tác vụ, độ trễ, break-even so với nhân công). Trong production, bạn cần ba phương trình: công thức chi phí, công thức độ trễ, và công thức chi phí kỳ vọng khi có cascade.

Công thức chi phí cho một task (một lần gọi model):

$C = N \cdot \left( t_{in} \cdot p_{in} \cdot (1 - r \cdot d) + t_{out} \cdot p_{out} \right)$

N: số lần gọi model trong một task (1 với chatbot đơn giản, 5-20 với agent).
t_in, t_out: input và output tokens trung bình mỗi lần gọi.
p_in, p_out: giá USD / token (tính từ bảng giá $/1M ÷ 1,000,000).
r: cache hit rate (0..1); d: discount factor cho cached input (thường 0.9. tức cached tính 10%).

Phân rã độ trễ (latency):

$L = \mathrm{TTFT} + \frac{t_{out}}{R_{decode}} + L_{retrieval} + L_{tools}$

TTFT là thời gian từ gửi request đến token đầu tiên. phụ thuộc network, prompt length, và prompt caching. R_decode là tốc độ sinh token (tokens/s) đặc trưng cho từng model. L_retrieval gồm vector search / rerank / reading file. L_tools là tổng thời gian các tool call (tuần tự hoặc song song). Phần nào lớn nhất chính là nơi bạn nên tối ưu trước. xem KV cache và inference optimization để đi sâu.

Với model cascade (cheap-first routing), chi phí kỳ vọng trên toàn phân phối traffic:

$E[C] = \sum_{k} P(\text{routed to model } k) \cdot C_k$

Thiết kế gate (quyết định có escalate không) quan trọng: gate quá lỏng → nhiều câu khó vẫn dừng ở tier rẻ → quality sụt; gate quá chặt → không ai đi qua tier rẻ → tiết kiệm không có. Calibrate bằng A/B trên một subset thật.

token_budget.py. đo + cảnh báo khi vượt 80%

from dataclasses import dataclass
from typing import Callable

@dataclass
class TokenBudget:
    """Theo dõi token usage theo task. Emit metric + cảnh báo khi vượt 80%."""
    task_id: str
    max_input: int
    max_output: int
    emit_metric: Callable[[str, float, dict], None]

    used_input: int = 0
    used_output: int = 0

    def record(self, in_tok: int, out_tok: int) -> None:
        self.used_input += in_tok
        self.used_output += out_tok
        # Gửi metric realtime. dashboard \$/task dựng trên metric này.
        self.emit_metric(
            "llm.tokens.used",
            in_tok + out_tok,
            {"task": self.task_id, "kind": "total"},
        )
        self._warn_if_over_budget()

    def _warn_if_over_budget(self) -> None:
        in_pct = self.used_input / max(1, self.max_input)
        out_pct = self.used_output / max(1, self.max_output)
        if max(in_pct, out_pct) >= 0.8:
            self.emit_metric(
                "llm.budget.warning",
                max(in_pct, out_pct),
                {"task": self.task_id},
            )

    def cost_usd(self, p_in_per_m: float, p_out_per_m: float,
                 cache_hit: float = 0.0, discount: float = 0.9) -> float:
        eff_in = (p_in_per_m / 1_000_000) * (1 - cache_hit * discount)
        eff_out = p_out_per_m / 1_000_000
        return self.used_input * eff_in + self.used_output * eff_out

token-meter.ts. middleware đo tokens / request

import type { NextRequest, NextResponse } from "next/server";

interface Usage {
  inputTokens: number;
  outputTokens: number;
  cachedInputTokens: number;
  model: string;
  latencyMs: number;
}

// Middleware bọc tầng gọi LLM. Mỗi request emit đúng một record usage.
export async function withTokenMeter<T>(
  req: NextRequest,
  run: () => Promise<{ result: T; usage: Usage }>,
  sink: (u: Usage & { route: string; userId?: string }) => void,
): Promise<T> {
  const started = performance.now();
  const { result, usage } = await run();
  const latencyMs = performance.now() - started;

  // Báo về observability (Datadog, Honeycomb, OTLP...). một record / request.
  sink({
    ...usage,
    latencyMs,
    route: req.nextUrl.pathname,
    userId: req.headers.get("x-user-id") ?? undefined,
  });

  return result;
}

// Dashboard dùng dữ liệu này để tính $/task realtime:
// SELECT route, SUM(input_tokens * p_in + output_tokens * p_out) / COUNT(DISTINCT task_id)
// FROM llm_usage WHERE ts > now() - interval '1 hour' GROUP BY route;

Để theo dõi những con số này realtime, bạn cần tầng quan sát phù hợp. xem observability for AI. Kết hợp ba topic này (token economics + inference optimization + observability) là nền tảng cost discipline cho LLM production.

7Case study. MoMo chatbot CSKH7/9

Bối cảnh. Một đội ở MoMo triển khai chatbot hỗ trợ CSKH: tra đơn, hủy giao dịch, hướng dẫn liên kết thẻ. Volume: ~180k conversation/ngày, mỗi conversation trung bình 4 turn, dùng gpt-4o-full cho toàn bộ.

Trước khi đo.Team nghĩ tốn "khoảng vài nghìn đô". Không có dashboard $/task, không có alert khi spike. Cuối tháng hóa đơn về: $18.000. gần bằng 30 nhân viên CSKH. Sếp hỏi tại sao, không ai trả lời chắc.

Đo trước, tối ưu sau. Tuần 1-2: chỉ thêm observability. Kết quả phân rã:

72% cost ở input tokens (system prompt 3.2k + FAQ 4k + lịch sử hội thoại).
28% ở output. Trong output, 30% là câu trả lời đơn giản (yes/no/status).
p95 latency 6.4s. decode 55%, TTFT 20%, tool 15%, retrieval 10%.

Ba can thiệp.

Prompt caching cho system prompt + FAQ: hit rate steady-state đạt 88% → input cost giảm ~79%.
Cascade gpt-4o-mini → gpt-4o-full: gate là một classifier nhỏ kiểm intent. 73% traffic (status, FAQ đơn giản) dừng ở mini; 27% khó (policy edge, refund) lên full. $/req giảm thêm ~45%.
Tóm tắt context > 5 turn: history dài tóm thành 300 token thay vì gửi full 2-3k token. Input tiếp tục giảm 15% ở phần variable.

Kết quả sau 4 tuần. Hóa đơn: $4.200/tháng(giảm 77%). CSAT không đổi (lấy từ 2k rating sampling mỗi tuần). p95 latency: 3.8s (nhờ mini nhanh hơn cho 73% traffic). Dashboard $/task realtime thay cho "đoán cuối tháng"; alert khi spike > 20% so với baseline 7 ngày.

Bài học. Thứ tự đúng: đo → tìm Pareto → tối ưu đúng chỗ → theo dõi CSAT. Nếu team đi thẳng vào "đổi model rẻ hơn" từ đầu, khả năng cao CSAT tụt rồi phải rollback. mất cả tiền và niềm tin của sếp vào AI team.

8Tóm tắt8/9

Những điều cần nhớ về kinh tế token

Đơn vị tính tiền là token, nhưng đơn vị quyết định phải là $/task hoặc $/user. có 5 bước chuyển đổi giữa hai đó.
Luôn đo trước khi tối ưu: observability tokens/request + dashboard $/task realtime là tiền đề, không phải bonus.
Latency có 4 thành phần (TTFT + decode + retrieval + tool). tối ưu theo khối to nhất, không theo khối dễ nhất.
Prompt caching là đòn bẩy lớn nhất, rủi ro thấp nhất. tiết kiệm 70-90% chi phí input cho system prompt dài.
Model cascade (Haiku → Sonnet → Opus) tính chi phí kỳ vọng, không chi phí tối đa. gate calibration là phần khó nhất.
Break-even với human baseline (15tr VND/tháng ≈ $600) là cách nhanh nhất giúp sếp hiểu giá trị đầu tư. đừng chỉ đưa con số USD trần trụi.

9Kiểm tra9/9

Kiểm tra hiểu biết

Câu 1/8

Công thức $/task gần đúng cho LLM là gì? (giả sử không có cache)

Chủ đề liên quan

Cost Optimization: Tối ưu chi phí: AI không đốt tiền Inference Optimization: Tối ưu inference: làm AI nhanh hơn KV Cache: Bộ nhớ đệm KV Observability for AI Systems: Quan sát hệ thống AI: trace, log và metric Model Serving: Model serving: đưa model thành API