Braintrust
以评测为先的平台,用于记录、评分和比较 Agent run。
托管
适合产品和工程团队需要快速比较 prompt、模型和工具路径实验结果的场景。
选型建议
当日常工作是 eval 对比,且 trace 用于解释分数变化时,使用 Braintrust。
适用场景
- 实验驱动 Agent 迭代
- LLM-as-judge 评测
- 跨团队质量 review
不适用场景
- 只需要轻量 trace 查看的团队
- 不能使用托管评测平台的工作负载
核心概念
logsexperimentsscoresdatasetsplaygrounds
最小实现形态
记录 30 次试点 run,为工具安全和答案质量定义 rubric score,再并排比较两个 prompt 版本。