AI Index Report 2026 — chi phí inference giảm 86% trong 12 tháng
Báo cáo thường niên của Stanford HAI: giá GPT-4 level rơi từ 30 đô xuống 4 đô mỗi triệu token. Số model mở tăng 3.1 lần. Benchmark GPQA gần bão hoà.
Stanford HAI ra AI Index Report 2026 — báo cáo thường niên theo dõi trạng thái ngành. Bản lần này dài 420 trang, nhưng ba con số tóm được bức tranh lớn:
Đọc ngắn: thị trường đang rẻ nhanh hơn bất kỳ công nghệ nào từng có. Benchmark cũ gần hết hữu dụng. Mô hình mở đang bắt kịp mô hình kín.
GPT-4 level từ 30 đô xuống 4 đô mỗi triệu token
Tháng 4/2025, một triệu token input cho mô hình ở mức GPT-4 có giá khoảng 30 đô. Một năm sau: 4 đô. Đây không phải giảm giá của một hãng — là giá sàn thị trường, vì có ít nhất 6 nhà cung cấp chạm tới chất lượng đó.
Báo cáo chỉ ra ba động lực: (1) kiến trúc MoE với active param nhỏ hơn, (2) KV cache và tối ưu inference, (3) cạnh tranh open weights buộc closed-source phải giảm. Về dài hạn, (3) là động lực lớn nhất.
| Động lực | Tác động | Ghi chú |
|---|---|---|
| Kiến trúc MoE | −32% | Active param giảm từ 175B xuống 37B cho cùng chất lượng. |
| KV cache tối ưu | −24% | Prefill cache reuse + grouped-query attention. |
| Cạnh tranh open weights | −38% | Closed-source buộc phải giảm để khỏi mất thị phần. |
| Phần cứng (H200, MI300X) | −12% | Bandwidth bộ nhớ tăng, FP8 native. |
Số lượng gấp 3.1 lần — nhưng chênh lệch chất lượng thu hẹp 4 lần
Cuối 2024, model mở tốt nhất kém closed-source 18 điểm MMLU. Cuối 2025, khoảng cách còn 4.3. Không chỉ có thêm model — các model mới thật sự tốt hơn.
Lớp mô hình mở chính: Meta Llama, Alibaba Qwen, DeepSeek, Mistral, VinAI. Báo cáo nhấn mạnh vai trò của cộng đồng Trung Quốc trong nửa sau 2025 — phần lớn model mở “đe doạ” vị trí của GPT-4 đến từ Qwen và DeepSeek.
MMLU 90+, GPQA 92, AIME 88 — đâu là thước đo mới?
Ba benchmark lớn nhất đều đã bị model tốt nhất chạm ngưỡng. Cộng đồng chuyển sang: SWE-bench Verified, HumanEval-Pro, ARC-AGI-2, GAIA. Điểm chung: task thực, nhiều bước, không có đáp án trong training data.
Dự báo của báo cáo: 2026 sẽ là năm mà scaling lawscho benchmark cổ điển trở nên “sụp” — tăng compute thêm 10× không cho thêm điểm. Giá trị thực chuyển sang reasoning chain dài, tool use, long-context retrieval.
Với người Việt, điều gì đáng chú ý nhất?
Một là: giá rơi nhanh nghĩa là ứng dụng dùng LLM năm ngoái không dám làm, năm nay đáng thử lại. Phí chat support, phân tích báo cáo, tóm tắt tài liệu pháp lý — ngày xưa một request mất 6 xu, giờ 0.8 xu.
Hai là: model mở đủ tốt để doanh nghiệp Việt không phụ thuộc một hãng. PhoGPT-7B, DeepSeek-V4, Qwen-2.5 — cả ba đều chạy được local, cả ba đều vượt ngưỡng dùng production.
Ba là: benchmark chuẩn ngành đang đổi. Ai còn đang tuyển kỹ sư ML dựa trên “điểm MMLU cao của model” cần đọc lại. Thước đo đã chuyển.