全部模式

最后更新: 2026-05-11

Eval Before Autonomy

每个新增自主动作都先经过 trace 和聚焦 eval set 的发布模式。

什么时候使用

  • Agent 可以写入、购买、发消息、部署或修改状态。
  • prompt/model 变化可能改变工具行为。
  • 团队需要可 review 的安全说明。

什么时候避免

  • 功能只读且低风险。
  • 上线后没人维护 eval dataset。

实现注意点

  • 把真实失败转成 eval case。
  • 质量、成本和延迟一起跟踪。
  • 每个自主工具调用都必须有 trace。