Claude Opus 4.7 — reasoning chain dài hơn, giá rẻ 30%
Flagship mới của Anthropic: context 500k token, SWE-bench 71.2%, giá ngang Claude 3.5. Reasoning chain dài thêm 2.4 lần nhưng cost-per-task vẫn giảm.
Anthropic vừa công bố Opus 4.7: context 500k token, SWE-bench 71.2%, giá bằng Claude 3.5. Điểm đáng để ý không nằm ở benchmark chung, mà ở cost per successful task — giảm chừng 30% dù reasoning chain dài thêm 2.4 lần.
Trước đây, model nghĩ nhiều đồng nghĩa với trả nhiều tiền. Với 4.7, Anthropic nói hai thứ đó tách ra được — nhờ KV cache ở tầng thấp và một router prefix cho bước verify ở cuối chuỗi.
SWE-bench 71.2% — nhưng nhìn cost trước khi ăn mừng
Reasoning avg ~26 bước. $18 / 1M input token.
Reasoning avg ~64 bước. $12.5 / 1M input token nhờ KV cache.
Benchmark công khai lớn nhất hiện nay là SWE-bench Verified — mỗi task là một pull-request thật trên repo Python. 71.2% nghĩa là Opus 4.7 vượt cả GPT-5 tune lẫn o3-mini-high. Cộng đồng vài tháng trước vẫn hỏi bao giờ tới 70%; giờ đã qua.
Quan trọng hơn: tính theo cost-per-successful-task, 4.7 rẻ hơn 4.6 một phần ba. Reasoning dài hơn nhưng hoá đơn không tăng, vì chừng 68% chain dùng lại KV cache của prompt gốc.
KV cache cho chain + router verify đầu cuối
Ở 4.6, mỗi bước reasoning sinh một prefill pass mới — tức cả context bị tính lại từ đầu. Ở 4.7, Anthropic giữ KV cache của prompt gốc và chỉ decode thêm cho phần chain — giống cách KV cache chạy trong streaming, nhưng áp dụng cho reasoning loop.
Bước verify cuối chuỗi thì ngược lại: router bỏ qua 40% lời giải mà nó tin chắc đúng, không chạy verify đầy đủ. Không hoàn hảo — 2% bị loại oan — nhưng tính trên đại trà vẫn lời.
Ai nên đổi sớm — ai nên chờ
Đổi sớm nếu bạn đang dùng Claude 4.6 cho code-review, ETL từ tài liệu, hoặc retrieval context dài. 500k token cộng giá rẻ hơn là lợi rõ.
Chờ nếu pipeline của bạn có chain-of-thoughtprompt tự viết — 4.7 thích chain ngắn hơn, prompt kiểu “think step by step 10 lần” dễ phản tác dụng vì model tự suy luận dài thêm, tổng token tăng trùng lặp.
Trước và sau khi đổi, bạn nên bật theo dõi cost per task — đó là cách duy nhất thấy được lợi thật.