DeepEval logo

DeepEval

像写单元测试一样评估 LLM/Agent 的框架,基于 pytest。

开源

适合希望把 LLM/Agent 评测当一等测试学科的 Python 团队——pytest 风格断言、CI 集成、内建指标。

选型建议

当团队希望像对待软件质量一样对待 LLM 质量——可复现测试、CI gate、指标驱动迭代时选 DeepEval。

适用场景

  • pytest 集成
  • CI/CD 评测
  • 回归测试
  • Agent 测试

不适用场景

  • 不用 Python 的团队
  • 只需要托管云平台的项目

核心概念

test casesmetricsassertionsCI/CDpytest

最小实现形态

写一个 pytest 风格 test case,携带 DeepEval 指标(faithfulness、relevancy 等),在 CI 中跑,质量阈值不达标则阻止构建。

来源