ai-safety

LLM Evaluation

Đánh giá LLM: đo chất lượng trước và sau deploy

Độ khóadvanced

1Dự đoán1/9

Bạn chọn một LLM vì nó đứng #1 HumanEval (offline benchmark nổi tiếng). Deploy ra prod, CSAT của khách hàng tụt 40% so với model cũ. Lý do hợp lý nhất là gì?

Chủ đề liên quan

Agent Evaluation: Đánh giá agent: đo hiệu quả và độ an toàn RAG Evaluation: Đánh giá RAG: faithfulness, answer relevance và context relevance AI Hallucination: Hallucination: khi AI nói sai rất tự tin AI Guardrails: Guardrails: rào chắn cho chatbot Red Teaming: Red teaming: thử phá hệ thống AI trước