training-optimization

GRPO

GRPO - Tối ưu hóa chính sách theo nhóm

Độ khóadvanced

1Dự đoán1/7

RLHF truyền thống cần reward model (tốn kém). DPO cần dữ liệu cặp sở thích do người gán (khó thu thập ở quy mô lớn). Có cách alignment nào tránh được CẢ HAI nút cổ chai đó không?

Chủ đề liên quan

RLHF: RLHF - Học tăng cường từ phản hồi con người Direct Preference Optimization: DPO - Tối ưu hóa sở thích trực tiếp Fine-Tuning: Fine-tuning - Tinh chỉnh mô hình