Agent TracingAgent Evaluation

Weights & Biases Weave

开源工具包，用于 LLM 应用的 tracing、评测与迭代。

开源

适合已使用 W&B、并希望在同一实验文化里管理 LLM trace、eval 和对比的 ML 团队。

官方资源

选型建议

当你的团队已把模型迭代当作可跟踪实验，而不是一次性调试时选 Weave。

适用场景

在 notebook 中检查 LLM trace
评测驱动迭代闭环
已有 W&B 工作流的团队

不适用场景

没有实验跟踪文化的团队
只做生产运维、回避 notebook 工作流的团队

核心概念

tracesevalsscorersdatasetsexperiments

最小实现形态

用 Weave tracing 包装 Agent 函数，检查中间步骤，并比较三个 prompt 变体的 eval 分数。

来源