Agent Evaluation

2026 年 AI Agent Evaluation 平台选型

对比 agent evaluation platform 与评测软件，在 Agent 面向用户前发现工具调用、trace 关联 eval、成本与延迟回归。

搜索意图

寻找 agent evaluation platform 或评测软件，测试会改状态、调工具且行为非确定的 Agent 工作流。

最后审查

2026年6月23日

纳入比较的工具

14

开源选项

12

定义

Agent evaluation 评估的是完整运行，而不只是最终答案：输入、工具调用、检索上下文、中间决策和结果。

适用场景

prompt 和模型变更的回归测试
高风险工作流的离线评测集
生产环境工具错误与回答质量监控

选型维度

trace 是否能关联到 eval case？
judge 是否能看到工具调用和检索证据？
是否同时支持成本、延迟和质量检查？

选型建议

不要等完美 benchmark。先用产品里的真实失败案例做小评测集。

工具对比速览

工具	最适合	开源	主要取舍	打开
LangSmith	agent tracing	否	不能把 trace 发送到托管服务的团队	打开
Guardrails AI	schema 验证	是	只需要 prompt 层面约束的团队	打开
Portkey AI Gateway	LLM 路由	是	只用单个 provider 的团队	打开
Promptfoo	本地评测	是	只需要托管评测平台的团队	打开
DeepEval	pytest 集成	是	不用 Python 的团队	打开
Ragas	RAG 评测	是	评测非 RAG Agent 的团队	打开
OpenAI Agents SDK	OpenAI-first 团队	是	从第一天就要求模型中立编排的团队	打开
LangGraph	有状态工作流	是	简单一次性助手	打开