reinforcement-learning

Actor-Critic (A2C/A3C)

Actor-Critic

Độ khóadvanced

0Tiến trình0

Bước 0/7

1Dự đoán1/7

REINFORCE (Policy Gradient) có variance cao vì chỉ dùng return làm tín hiệu học. DQN chỉ học value, không học policy trực tiếp. Có cách kết hợp ưu điểm cả hai?

Chủ đề liên quan

Policy Gradient: Gradient chính sách Deep Q-Network (DQN): Mạng Q sâu RLHF: RLHF - Học tăng cường từ phản hồi con người