Quay lại trang chủ10/10 trong danh mục
GRPO
GRPO - Tối ưu hóa chính sách theo nhóm
Nâng caotraining-optimization
1Dự đoán1/7
RLHF truyền thống cần reward model (tốn kém). DPO cần dữ liệu cặp sở thích do người gán (khó thu thập ở quy mô lớn). Có cách alignment nào tránh được CẢ HAI nút cổ chai đó không?