Agent Evaluation / Agent Tracing
LangSmith
面向 LLM 应用的 tracing、evaluation 和 debugging 平台。
适合需要围绕 Agent 质量连接 trace、dataset、experiment 和生产监控的团队。
当 Agent 质量需要运营闭环,而不是临时截图调试时,使用 LangSmith。
适用场景
- agent tracing
- eval datasets
- regression monitoring
不适用场景
- 不能把 trace 发送到托管服务的团队
- 运行量不足以评估的项目
核心概念
tracesdatasetsexperimentsfeedback
最小实现形态
记录试点 trace,把失败转成小 dataset,在 prompt/model 变更后 rerun,并比较成本和质量。