DeepEval
像写单元测试一样评估 LLM/Agent 的框架,基于 pytest。
开源
适合希望把 LLM/Agent 评测当一等测试学科的 Python 团队——pytest 风格断言、CI 集成、内建指标。
选型建议
当团队希望像对待软件质量一样对待 LLM 质量——可复现测试、CI gate、指标驱动迭代时选 DeepEval。
适用场景
- pytest 集成
- CI/CD 评测
- 回归测试
- Agent 测试
不适用场景
- 不用 Python 的团队
- 只需要托管云平台的项目
核心概念
test casesmetricsassertionsCI/CDpytest
最小实现形态
写一个 pytest 风格 test case,携带 DeepEval 指标(faithfulness、relevancy 等),在 CI 中跑,质量阈值不达标则阻止构建。