emerging

State Space Models (Mamba)

Mô hình không gian trạng thái. Đối thủ của Transformer

Độ khóadvanced

1Dự đoán1/7

Transformer attention tốn O(N^2) theo sequence length. Với context 1M tokens, chi phí attention tăng 1000000^2 = 1 nghìn tỷ phép tính. Có kiến trúc nào đạt chất lượng tương đương mà chỉ O(N)?

Chủ đề liên quan

Transformer: Kiến trúc Transformer Recurrent Neural Network: Mạng nơ-ron hồi quy Long Context: Ngữ cảnh dài. AI đọc cả cuốn sách