Agent TracingAgent Evaluation

Braintrust

以评测为先的平台，用于记录、评分和比较 Agent run。

托管

适合产品和工程团队需要快速比较 prompt、模型和工具路径实验结果的场景。

官方资源

选型建议

当日常工作是 eval 对比，且 trace 用于解释分数变化时，使用 Braintrust。

适用场景

实验驱动 Agent 迭代
LLM-as-judge 评测
跨团队质量 review

不适用场景

只需要轻量 trace 查看的团队
不能使用托管评测平台的工作负载

核心概念

logsexperimentsscoresdatasetsplaygrounds

最小实现形态

记录 30 次试点 run，为工具安全和答案质量定义 rubric score，再并排比较两个 prompt 版本。

来源