Braintrust logo

Braintrust

以评测为先的平台,用于记录、评分和比较 Agent run。

托管

适合产品和工程团队需要快速比较 prompt、模型和工具路径实验结果的场景。

选型建议

当日常工作是 eval 对比,且 trace 用于解释分数变化时,使用 Braintrust。

适用场景

  • 实验驱动 Agent 迭代
  • LLM-as-judge 评测
  • 跨团队质量 review

不适用场景

  • 只需要轻量 trace 查看的团队
  • 不能使用托管评测平台的工作负载

核心概念

logsexperimentsscoresdatasetsplaygrounds

最小实现形态

记录 30 次试点 run,为工具安全和答案质量定义 rubric score,再并排比较两个 prompt 版本。

来源