Promptfoo

本地优先的 LLM 评测和 red team CLI，面向 Agent 安全测试。

开源

适合希望在本地、CI 或部署前对 Agent 进行评测——覆盖 prompt 质量、安全 red teaming 和回归测试的团队。

官方资源

选型建议

当你希望在部署前发现 prompt 和模型回归时选 Promptfoo。它是 CI/CD 流水线需要的 LLM prompt 测试框架。

快速对比

Promptfoo 适合 YAML 驱动 prompt eval 与 CI 内 red teaming。DeepEval 与 Braintrust 是常见替代：前者偏 pytest 风格 Agent 测试，后者偏托管评测平台。

	Promptfoo	DeepEval	Braintrust
最适合	CI 内 prompt eval、red teaming、模型对比	Python pytest 风格 LLM/Agent 测试	托管评测工作流与 dataset 版本管理
工作流契合	YAML 配置 + CLI，本地或 CI 均可	pytest 断言 + 内建质量指标	云端 UI 做实验与生产监控
Red teaming	一等 red team 指南与攻击套件	安全指标；攻击库侧重较少	平台能力；red team 因配置而异
主要取舍	CLI 优先；托管平台开箱较弱	Python 体验好；非 Python 团队成本高	平台强；比纯 CLI 供应商面更大

评测红队测试提示词断言CI 集成

用 YAML 定义 eval assertions，在 CI 中跑 promptfoo eval，自动对比多模型输出，发现回归则阻止部署。