Mixture-of-Depths — token nào cần nghĩ sâu, token nào không
DeepMind đề xuất router động: chỉ chừng 30% token đi qua toàn bộ layer. FLOPs giảm 50% mà MMLU giữ nguyên. Đây là cách transformer học cách chọn lọc, thay vì đối xử đều với mọi token.
Paper tuần này từ Google DeepMind đặt câu hỏi đơn giản: vì sao mọi token đều phải đi qua toàn bộ layer của transformer? Trong khi “the” rõ ràng không cần 32 layer attention như “counterfactual”.
Mixture-of-Depths (MoD) thêm một router nhỏ trước mỗi layer: mỗi token tự chọn đi qua layer này hay bỏ qua. Thiết kế vẫn giữ nguyên kiến trúc transformer, chỉ thêm chừng 0.1% tham số cho router — nhưng cắt được 50% FLOPs mà MMLU không đổi.
Mỗi token được chấm điểm độ khó, top-k đi đường sâu
Router chỉ là một linear layer nhỏ. Nó chấm điểm mỗi token, rồi chọn top-k đi qua attention + FFN; phần còn lại bỏ qua layer này và đi theo residual connection. Với k=0.3, 30% token đi đường sâu, 70% đi đường tắt.
Hay ở chỗ router học từ dữ liệu, không cần quy tắc do người đặt. Những token hay được cho đi sâu là: từ hiếm, tên riêng, boundary của câu, vị trí cần lập kế hoạch. Stopwords “the, a, is” gần như luôn bị bỏ qua.
FLOPs −50%, MMLU giữ nguyên — nhưng có điều kiện
MMLU 64.2 · HumanEval 51.8 · train 1.2e23 FLOPs.
MMLU 64.0 · HumanEval 52.3 · train 6.1e22 FLOPs. Gần ngang.
Điều kiện: phải train từ đầu hoặc fine-tune sâu. Gắn router kiểu adapter nhẹ lên một model có sẵn không chạy được — router cần học phân bố token song song với phần còn lại của network.
So với Mixture-of-Experts (MoE), MoD khác ở chỗ: MoE thêm tham số (nhiều expert FFN), MoD không thêm tham số (chỉ router). Hai hướng độc lập — paper gợi ý có thể gộp lại, gọi là MoDE.
Chưa — nhưng là tín hiệu cho roadmap
MoD mới dừng ở paper và một reference checkpoint 8B. Chưa ai mở rộng lên 70B. Inference engine (vLLM, SGLang) cũng chưa hỗ trợ nhánh bỏ layer của router. Thực tế 3–6 tháng nữa mới có bản chạy được, nếu các lab lớn thấy đáng đầu tư.
Tín hiệu rõ hơn là cho scaling laws: compute có thể được chia động theo từng token. Đây là lần đầu có paper cho thấy compute động không đánh đổi với chất lượng.