Promptfoo logo

Promptfoo

本地优先的 LLM 评测和 red team CLI,面向 Agent 安全测试。

开源

适合希望在本地、CI 或部署前对 Agent 进行评测——覆盖 prompt 质量、安全 red teaming 和回归测试的团队。

选型建议

当你希望在部署前发现 prompt 和模型回归时选 Promptfoo。它是 CI/CD 流水线需要的 LLM prompt 测试框架。

快速对比

Promptfoo 适合 YAML 驱动 prompt eval 与 CI 内 red teaming。DeepEval 与 Braintrust 是常见替代:前者偏 pytest 风格 Agent 测试,后者偏托管评测平台。

PromptfooDeepEvalBraintrust
最适合CI 内 prompt eval、red teaming、模型对比Python pytest 风格 LLM/Agent 测试托管评测工作流与 dataset 版本管理
工作流契合YAML 配置 + CLI,本地或 CI 均可pytest 断言 + 内建质量指标云端 UI 做实验与生产监控
Red teaming一等 red team 指南与攻击套件安全指标;攻击库侧重较少平台能力;red team 因配置而异
主要取舍CLI 优先;托管平台开箱较弱Python 体验好;非 Python 团队成本高平台强;比纯 CLI 供应商面更大

适用场景

  • 本地评测
  • CI/CD 测试
  • red teaming
  • prompt 对比

不适用场景

  • 只需要托管评测平台的团队
  • 主要需求是生产监控的项目

核心概念

评测红队测试提示词断言CI 集成

最小实现形态

用 YAML 定义 eval assertions,在 CI 中跑 promptfoo eval,自动对比多模型输出,发现回归则阻止部署。

来源