Quay lại trang chủ4/5 trong danh mục
Actor-Critic (A2C/A3C)
Actor-Critic
Nâng caoreinforcement-learning
0Tiến trình0
Bước 0/7
1Dự đoán1/7
REINFORCE (Policy Gradient) có variance cao vì chỉ dùng return làm tín hiệu học. DQN chỉ học value, không học policy trực tiếp. Có cách kết hợp ưu điểm cả hai?