Weights & Biases Weave
开源工具包,用于 LLM 应用的 tracing、评测与迭代。
开源
适合已使用 W&B、并希望在同一实验文化里管理 LLM trace、eval 和对比的 ML 团队。
选型建议
当你的团队已把模型迭代当作可跟踪实验,而不是一次性调试时选 Weave。
适用场景
- 在 notebook 中检查 LLM trace
- 评测驱动迭代闭环
- 已有 W&B 工作流的团队
不适用场景
- 没有实验跟踪文化的团队
- 只做生产运维、回避 notebook 工作流的团队
核心概念
tracesevalsscorersdatasetsexperiments
最小实现形态
用 Weave tracing 包装 Agent 函数,检查中间步骤,并比较三个 prompt 变体的 eval 分数。