Quay lại trang chủ4/5 trong danh mục
reinforcement-learning
Actor-Critic (A2C/A3C)
Actor-Critic
0Tiến trình0
Bước 0/7
1Dự đoán1/7
REINFORCE (Policy Gradient) có variance cao vì chỉ dùng return làm tín hiệu học. DQN chỉ học value, không học policy trực tiếp. Có cách kết hợp ưu điểm cả hai?