DeepSeek-V4 mở trọng số — số 1 OpenLLM với 37B active parameters

236B tổng tham số, 37B active qua MoE 8 expert. Apache 2.0, chạy được trên 2× H100 khi dùng INT4. Hơn 140 fine-tune được đẩy lên trong 3 ngày đầu.

◆ HuggingFace·16 · 04 · 2026·5 phút·huggingface.co ↗

01 · Cái mới

DeepSeek vừa mở trọng số V4 — 236B tổng tham số, 37B active qua Mixture-of-Experts, 8 expert và chọn 2 cho mỗi token. Apache 2.0, chạy được trên 2× H100 80GB khi dùng INT4.

Trong 72 giờ đầu, HuggingFace Hub có hơn 140 fine-tune được đẩy lên — mức lan nhanh nhất từ trước tới nay cho một open-weight model lớn. DeepSeek-V4 tạm thời giữ vị trí số 1 OpenLLM leaderboard.

02 · Bộ nhớ

FP16 cần 3× H100. INT4 đủ 2× H100. Giá hạ tầng giảm một phần ba.

FP16 (trọng số gốc)

472 GB

Cần 3× H100 80GB · 18–24 đô/giờ tuỳ nhà cung cấp. Ngoài tầm của solo dev.

INT4 (qua GPTQ)

118 GB

Vừa khít 2× H100 · 12–16 đô/giờ. MMLU chỉ rơi 0.6 điểm.

Quantization INT4 không mới, nhưng V4 được thiết kế với quantization ngay từ đầu — attention projection và expert FFN đều khởi tạo theo scale. Kết quả: INT4 chỉ rơi 0.6 điểm MMLU, không phải 2–3 điểm như các model chưa quant-aware.

03 · Benchmark

Ngang GPT-4o trên MMLU + HumanEval · ngắn hơn trên MATH

Model	MMLU	HumanEval	MATH	Licence
DeepSeek-V4	86.3	89.7	72.4	Apache 2.0
GPT-4o	86.1	89.2	84.5	closed
Claude 4.6	88.7	91.4	86.2	closed
Llama-3.1-405B	83.8	81.5	68.9	Llama comm.
Qwen-2.5-72B	85.0	86.6	71.1	Apache 2.0

Open-weight models in bold · closed models for reference · numbers Apr 2026

DeepSeek-V4 đặc biệt mạnh ở code và reasoning ngắn. Trên MATH (kiểu AIME), nó thua cả Claude 4.6 lẫn GPT-5 tune — nhiều khả năng do thiếu RL post-training kiểu o-series. Dù vậy, trong nhóm open-weight, đây là model tốt nhất hiện có.

04 · Ai nên quan tâm

Mọi người làm production mà không muốn phụ thuộc một nhà cung cấp

Open weights cộng Apache 2.0 có nghĩa: bạn được tự host, fine-tune không giới hạn, và phân phối cả model đã fine-tune. Trước đây bạn phải chọn giữa chất lượng (GPT, Claude) và quyền sở hữu (Llama, Qwen). V4 xoá khoảng cách đó.

Lưu ý: DeepSeek là lab Trung Quốc. Trọng số cụ thể của training data không công khai. Nếu compliance yêu cầu truy vết audit, V4 chưa đủ. Với các use case B2B thông thường (công cụ nội bộ, coding assistant, RAG), không thành vấn đề.

◆ Học sâu hơn

Nền tảng mà bài viết này dựa trên

→ Học bàiHỗn hợp chuyên gia. Chia để trịemerging · advanced → Học bàiLượng tử hóa mô hìnhtraining-optimization · advanced → Học bàiKiến trúc Transformerdl-architectures · advanced

udemi / bài viết / deepseek-v4-open-weights

Openmã mở