全部指南

最后更新: 2026-05-11

如何评估 AI Agent

Agent evaluation 应覆盖 trace、工具调用、检索证据、最终结果、成本和延迟。

定义

Agent eval 是对完整 run 的可重复检查,通常结合确定性断言、人工 review 和模型 judge rubric。

为什么重要

Agent 往往失败在中间过程,而不只是最终答案。只评估文本输出会漏掉坏工具调用和不安全状态变更。

解决的问题

  • prompt 和模型回归
  • 工具调用安全失败
  • 检索和 grounding 漂移

常见误区

  • 通用 benchmark 很少代表你的产品工作流。
  • LLM judge 需要用真实失败校准。
  • 成本和延迟也是 Agent 的质量维度。

最小示例

创建 20 个真实任务,保存期望约束,带 tracing 运行 Agent,再评分结果、工具路径、证据、成本和延迟。

下一步: 在增加更多自主性前,把生产失败转成 eval case。

来源