Agent Evaluation

DeepEval

像写单元测试一样评估 LLM/Agent 的框架，基于 pytest。

开源

适合希望把 LLM/Agent 评测当一等测试学科的 Python 团队——pytest 风格断言、CI 集成、内建指标。

官方资源

选型建议

当团队希望像对待软件质量一样对待 LLM 质量——可复现测试、CI gate、指标驱动迭代时选 DeepEval。

适用场景

pytest 集成
CI/CD 评测
回归测试
Agent 测试

不适用场景

不用 Python 的团队
只需要托管云平台的项目

核心概念

test casesmetricsassertionsCI/CDpytest

最小实现形态

写一个 pytest 风格 test case，携带 DeepEval 指标（faithfulness、relevancy 等），在 CI 中跑，质量阈值不达标则阻止构建。

来源