最后更新: 2026-05-11
如何评估 AI Agent
Agent evaluation 应覆盖 trace、工具调用、检索证据、最终结果、成本和延迟。
定义
Agent eval 是对完整 run 的可重复检查,通常结合确定性断言、人工 review 和模型 judge rubric。
为什么重要
Agent 往往失败在中间过程,而不只是最终答案。只评估文本输出会漏掉坏工具调用和不安全状态变更。
解决的问题
- prompt 和模型回归
- 工具调用安全失败
- 检索和 grounding 漂移
常见误区
- 通用 benchmark 很少代表你的产品工作流。
- LLM judge 需要用真实失败校准。
- 成本和延迟也是 Agent 的质量维度。
最小示例
创建 20 个真实任务,保存期望约束,带 tracing 运行 Agent,再评分结果、工具路径、证据、成本和延迟。
下一步: 在增加更多自主性前,把生产失败转成 eval case。