Ragas
面向 RAG 和 Agentic RAG 管线的评测库——检索质量、faithfulness 和 grounding。
开源
适合质量风险集中在检索环节的场景——测量 RAG-based Agent 的 faithfulness、回答相关性、上下文精度和检索质量。
选型建议
当 Agent 价值依赖检索质量且你需要能把检索问题和生成问题分开评测的指标时选 Ragas。
适用场景
- RAG 评测
- faithfulness 指标
- 检索质量
- grounding 检查
不适用场景
- 评测非 RAG Agent 的团队
- 需要完整 LLMOps 平台的项目
核心概念
忠实度相关性上下文精度检索指标事实接地
最小实现形态
对 RAG 管线输出跑 Ragas,测量 faithfulness 和 context precision,发现检索缺口,迭代 chunking 或检索策略。