Agent Evaluation

Ragas

面向 RAG 和 Agentic RAG 管线的评测库——检索质量、faithfulness 和 grounding。

开源

适合质量风险集中在检索环节的场景——测量 RAG-based Agent 的 faithfulness、回答相关性、上下文精度和检索质量。

官方资源

选型建议

当 Agent 价值依赖检索质量且你需要能把检索问题和生成问题分开评测的指标时选 Ragas。

适用场景

RAG 评测
faithfulness 指标
检索质量
grounding 检查

不适用场景

评测非 RAG Agent 的团队
需要完整 LLMOps 平台的项目

核心概念

忠实度相关性上下文精度检索指标事实接地

最小实现形态

对 RAG 管线输出跑 Ragas，测量 faithfulness 和 context precision，发现检索缺口，迭代 chunking 或检索策略。

来源