Quay lại trang chủ4/14 trong danh mục
State Space Models (Mamba)
Mô hình không gian trạng thái — Đối thủ của Transformer
Nâng caoemerging
1Dự đoán1/7
Transformer attention tốn O(N^2) theo sequence length. Với context 1M tokens, chi phí attention tăng 1000000^2 = 1 nghìn tỷ phép tính. Có kiến trúc nào đạt chất lượng tương đương mà chỉ O(N)?