Quay lại trang chủ16/18 trong danh mục
LLM Evaluation
Đánh giá LLM — Đo chất lượng trước và sau khi deploy
Nâng caoai-safety
1Dự đoán1/9
Bạn chọn một LLM vì nó đứng #1 HumanEval (offline benchmark nổi tiếng). Deploy ra prod, CSAT của khách hàng tụt 40% so với model cũ. Lý do hợp lý nhất là gì?