最后更新: 2026-05-11
Eval Before Autonomy
每个新增自主动作都先经过 trace 和聚焦 eval set 的发布模式。
什么时候使用
- Agent 可以写入、购买、发消息、部署或修改状态。
- prompt/model 变化可能改变工具行为。
- 团队需要可 review 的安全说明。
什么时候避免
- 功能只读且低风险。
- 上线后没人维护 eval dataset。
实现注意点
- 把真实失败转成 eval case。
- 质量、成本和延迟一起跟踪。
- 每个自主工具调用都必须有 trace。