最后更新: 2026-06-23

Eval Before Autonomy

每个新增自主动作都先经过 trace 和聚焦 eval set 的发布模式。

什么时候使用

Agent 可以写入、购买、发消息、部署或修改状态。
prompt/model 变化可能改变工具行为。
团队需要可 review 的安全说明。

什么时候避免

功能只读且低风险。
上线后没人维护 eval dataset。

实现注意点

把真实失败转成 eval case。
质量、成本和延迟一起跟踪。
每个自主工具调用都必须有 trace。