udemi / bài viết / claude-opus-4-7-launch

Modelflagship

Claude Opus 4.7 — reasoning chain dài hơn, giá rẻ 30%

Flagship mới của Anthropic: context 500k token, SWE-bench 71.2%, giá ngang Claude 3.5. Reasoning chain dài thêm 2.4 lần nhưng cost-per-task vẫn giảm.

◆ Anthropic·18 · 04 · 2026·6 phút·anthropic.com ↗

01 · Cái mới

Anthropic vừa công bố Opus 4.7: context 500k token, SWE-bench 71.2%, giá bằng Claude 3.5. Điểm đáng để ý không nằm ở benchmark chung, mà ở cost per successful task — giảm chừng 30% dù reasoning chain dài thêm 2.4 lần.

Trước đây, model nghĩ nhiều đồng nghĩa với trả nhiều tiền. Với 4.7, Anthropic nói hai thứ đó tách ra được — nhờ KV cache ở tầng thấp và một router prefix cho bước verify ở cuối chuỗi.

02 · Benchmark

SWE-bench 71.2% — nhưng nhìn cost trước khi ăn mừng

Claude 4.6 · 4 tháng trước

SWE-bench 66.1%

Reasoning avg ~26 bước. $18 / 1M input token.

Claude Opus 4.7

SWE-bench 71.2%

Reasoning avg ~64 bước. $12.5 / 1M input token nhờ KV cache.

Benchmark công khai lớn nhất hiện nay là SWE-bench Verified — mỗi task là một pull-request thật trên repo Python. 71.2% nghĩa là Opus 4.7 vượt cả GPT-5 tune lẫn o3-mini-high. Cộng đồng vài tháng trước vẫn hỏi bao giờ tới 70%; giờ đã qua.

Quan trọng hơn: tính theo cost-per-successful-task, 4.7 rẻ hơn 4.6 một phần ba. Reasoning dài hơn nhưng hoá đơn không tăng, vì chừng 68% chain dùng lại KV cache của prompt gốc.

03 · Vì sao reasoning dài hơn lại rẻ hơn

KV cache cho chain + router verify đầu cuối

Opus 4.6

$0.092

26 bước reasoning avg

Opus 4.7

$0.064

64 bước reasoning avg

Cost-per-task · Opus 4.6 so với 4.7 · 1k requests avg

Ở 4.6, mỗi bước reasoning sinh một prefill pass mới — tức cả context bị tính lại từ đầu. Ở 4.7, Anthropic giữ KV cache của prompt gốc và chỉ decode thêm cho phần chain — giống cách KV cache chạy trong streaming, nhưng áp dụng cho reasoning loop.

Bước verify cuối chuỗi thì ngược lại: router bỏ qua 40% lời giải mà nó tin chắc đúng, không chạy verify đầy đủ. Không hoàn hảo — 2% bị loại oan — nhưng tính trên đại trà vẫn lời.

04 · Ai hưởng lợi

Ai nên đổi sớm — ai nên chờ

Đổi sớm nếu bạn đang dùng Claude 4.6 cho code-review, ETL từ tài liệu, hoặc retrieval context dài. 500k token cộng giá rẻ hơn là lợi rõ.

Chờ nếu pipeline của bạn có chain-of-thoughtprompt tự viết — 4.7 thích chain ngắn hơn, prompt kiểu “think step by step 10 lần” dễ phản tác dụng vì model tự suy luận dài thêm, tổng token tăng trùng lặp.

Trước và sau khi đổi, bạn nên bật theo dõi cost per task — đó là cách duy nhất thấy được lợi thật.

◆ Học sâu hơn

Nền tảng mà bài viết này dựa trên

→ Học bàiChain-of-thought: cho AI nháp trước khi chốtllm-concepts · beginner → Học bàiMô hình suy luận. AI biết nghĩ sâuemerging · advanced → Học bàiBộ nhớ đệm KVllm-concepts · advanced → Học bàiKinh tế token: chi phí, latency và hiệu quảinfrastructure · advanced