Promptfoo
本地优先的 LLM 评测和 red team CLI,面向 Agent 安全测试。
开源
适合希望在本地、CI 或部署前对 Agent 进行评测——覆盖 prompt 质量、安全 red teaming 和回归测试的团队。
选型建议
当你希望在部署前发现 prompt 和模型回归时选 Promptfoo。它是 CI/CD 流水线需要的 LLM prompt 测试框架。
快速对比
Promptfoo 适合 YAML 驱动 prompt eval 与 CI 内 red teaming。DeepEval 与 Braintrust 是常见替代:前者偏 pytest 风格 Agent 测试,后者偏托管评测平台。
| Promptfoo | DeepEval | Braintrust | |
|---|---|---|---|
| 最适合 | CI 内 prompt eval、red teaming、模型对比 | Python pytest 风格 LLM/Agent 测试 | 托管评测工作流与 dataset 版本管理 |
| 工作流契合 | YAML 配置 + CLI,本地或 CI 均可 | pytest 断言 + 内建质量指标 | 云端 UI 做实验与生产监控 |
| Red teaming | 一等 red team 指南与攻击套件 | 安全指标;攻击库侧重较少 | 平台能力;red team 因配置而异 |
| 主要取舍 | CLI 优先;托管平台开箱较弱 | Python 体验好;非 Python 团队成本高 | 平台强;比纯 CLI 供应商面更大 |
适用场景
- 本地评测
- CI/CD 测试
- red teaming
- prompt 对比
不适用场景
- 只需要托管评测平台的团队
- 主要需求是生产监控的项目
核心概念
评测红队测试提示词断言CI 集成
最小实现形态
用 YAML 定义 eval assertions,在 CI 中跑 promptfoo eval,自动对比多模型输出,发现回归则阻止部署。