Paperhot

Mixture-of-Depths — token nào cần nghĩ sâu, token nào không

DeepMind đề xuất router động: chỉ chừng 30% token đi qua toàn bộ layer. FLOPs giảm 50% mà MMLU giữ nguyên. Đây là cách transformer học cách chọn lọc, thay vì đối xử đều với mọi token.

◆ arXiv · 2604.11283·17 · 04 · 2026·9 phút·arxiv.org ↗

01 · Ý tưởng

Paper tuần này từ Google DeepMind đặt câu hỏi đơn giản: vì sao mọi token đều phải đi qua toàn bộ layer của transformer? Trong khi “the” rõ ràng không cần 32 layer attention như “counterfactual”.

Mixture-of-Depths (MoD) thêm một router nhỏ trước mỗi layer: mỗi token tự chọn đi qua layer này hay bỏ qua. Thiết kế vẫn giữ nguyên kiến trúc transformer, chỉ thêm chừng 0.1% tham số cho router — nhưng cắt được 50% FLOPs mà MMLU không đổi.

02 · Router thế nào

Mỗi token được chấm điểm độ khó, top-k đi đường sâu

Router chỉ là một linear layer nhỏ. Nó chấm điểm mỗi token, rồi chọn top-k đi qua attention + FFN; phần còn lại bỏ qua layer này và đi theo residual connection. Với k=0.3, 30% token đi đường sâu, 70% đi đường tắt.

k=0.1

Aggressive skip · FLOPs 18%, MMLU −1.4

k=0.3 (paper)

Sweet spot · FLOPs 50%, MMLU −0.2

k=0.6

Gần như baseline · FLOPs 85%, MMLU 0.0

3 cấu hình k · k = tỉ lệ token đi đường sâu mỗi layer

Hay ở chỗ router học từ dữ liệu, không cần quy tắc do người đặt. Những token hay được cho đi sâu là: từ hiếm, tên riêng, boundary của câu, vị trí cần lập kế hoạch. Stopwords “the, a, is” gần như luôn bị bỏ qua.

03 · Số liệu

FLOPs −50%, MMLU giữ nguyên — nhưng có điều kiện

Transformer baseline · 8B

100% FLOPs

MMLU 64.2 · HumanEval 51.8 · train 1.2e23 FLOPs.

MoD-8B · k=0.3

50% FLOPs

MMLU 64.0 · HumanEval 52.3 · train 6.1e22 FLOPs. Gần ngang.

Điều kiện: phải train từ đầu hoặc fine-tune sâu. Gắn router kiểu adapter nhẹ lên một model có sẵn không chạy được — router cần học phân bố token song song với phần còn lại của network.

So với Mixture-of-Experts (MoE), MoD khác ở chỗ: MoE thêm tham số (nhiều expert FFN), MoD không thêm tham số (chỉ router). Hai hướng độc lập — paper gợi ý có thể gộp lại, gọi là MoDE.

04 · Có dùng ngay được không

Chưa — nhưng là tín hiệu cho roadmap

MoD mới dừng ở paper và một reference checkpoint 8B. Chưa ai mở rộng lên 70B. Inference engine (vLLM, SGLang) cũng chưa hỗ trợ nhánh bỏ layer của router. Thực tế 3–6 tháng nữa mới có bản chạy được, nếu các lab lớn thấy đáng đầu tư.

Tín hiệu rõ hơn là cho scaling laws: compute có thể được chia động theo từng token. Đây là lần đầu có paper cho thấy compute động không đánh đổi với chất lượng.

◆ Học sâu hơn

Nền tảng mà bài viết này dựa trên

→ Học bàiKiến trúc Transformerdl-architectures · advanced → Học bàiAttention - Cơ chế chú ýnlp · intermediate → Học bàiHỗn hợp chuyên gia. Chia để trịemerging · advanced → Học bàiĐịnh luật tỷ lệllm-concepts · advanced

udemi / bài viết / mixture-of-depths