Quay lại trang chủ16/18 trong danh mục
ai-safety
LLM Evaluation
Đánh giá LLM: đo chất lượng trước và sau deploy
1Dự đoán1/9
Bạn chọn một LLM vì nó đứng #1 HumanEval (offline benchmark nổi tiếng). Deploy ra prod, CSAT của khách hàng tụt 40% so với model cũ. Lý do hợp lý nhất là gì?