| LlamaFirewall |
Meta / PurpleLlama |
PromptGuard 2(BERT 86M/220M 分类器)+ AlignmentCheck(CoT 审计)+ CodeShield(静态代码分析) |
单轮 prompt 注入 · 越狱检测 · 代码安全扫描(规则型) |
Inline SDK |
多语言/Leetspeak 绕过(训练集英语偏重)· 不可见 Unicode · 资源不对称受控释放攻击 · Meta 将 guardrail 绕过排除在 Bug Bounty 之外 |
| NeMo Guardrails |
NVIDIA |
随机森林分类器(预训练 embedding)+ 困惑度启发式(Length-per-Perplexity / Prefix-Suffix)+ 用户定义 Colang rail 流 |
单轮注入/越狱 · 用户定义场景(Colang 规则) |
Inline SDK |
Mindgard 实测:同形字 + 零宽字符 ASR 居高 · AML 扰动迁移有效 · Colang 无跨轮对话级状态 · MCP 元数据无覆盖 |
| LLM Guard |
ProtectAI |
模块化 Scanner 管道(DeBERTa 注入检测 + 正则 PII + 毒性分类 + 代码扫描) |
输入/输出双向扫描 · PII 过滤 · 毒性/注入检测 |
Inline SDK |
对抗构造 prompt 绕过 DeBERTa(ACL 2025)· Scanner 无跨请求状态 · 跨字段模态拆分载荷规避 · 语义攻击无覆盖 |
| AI-Infra-Guard |
腾讯朱雀实验室 |
AI 基础设施漏洞扫描(Agent + MCP server 静态分析),非运行时 guardrail |
基础设施漏洞发现 · MCP server 配置审计 |
扫描工具 |
CVE-2026-5585 自身信息泄露(exploit 公开,腾讯未响应)· 扫描结果不阻断运行时攻击 |
| ClawGuard |
Claw-Guard(arXiv 2604.11790) |
运行时中间件:Content Sanitizer(PII 脱敏)+ Rule Evaluator(确定性策略)+ Skill Inspector(新工具风险评估)+ Approval Mechanism(人工审批)。会话前自动推导 task-specific 访问规则。 |
工具调用边界拦截 · MCP 工具投毒 · Web/本地内容注入 · Skill 文件注入 |
Middleware |
策略推导完整性依赖 · 初始目标陈述可被操控弱化规则 · 无内容级语义过滤 · 尚无独立红队验证(2026-04) |
| CaMeL |
Google Research |
能力型访问控制 + 自定义解释器。双 LLM:特权 LLM(规划)+ 隔离 LLM(不可信内容处理,无工具调用权限)。数据流污点追踪 + 控制流完整性。 |
Prompt 注入(架构性防御)· 工具调用劫持 · 数据泄露路径 |
Middleware |
隔离 LLM 仍可影响特权 LLM 规划决策(文本偏置)· 策略配置负担高 · 效用降级压力 · Agent 能力包络缩减 |
| Guardrails AI |
guardrails-ai |
Validator 框架(RAIL XML / Python 验证器),支持 LLM-based 和规则型验证器组合。框架本身无默认安全策略。 |
用户自定义验证场景(输入/输出格式、内容合规) |
SDK / Library |
CVE-2024-45858 RCE via eval() · CVE-2024-6961 XXE 注入 · LLM-as-judge 继承自我监察漏洞(AdvJudge-Zero ~99% ASR) |
| Azure AI Content Safety / Prompt Shield |
Microsoft |
云端分类器(仇恨/暴力/性/自伤内容)+ Prompt Shield(注入/越狱检测)+ Spotlighting(2025,数据边界标记防间接注入) |
内容安全过滤 · 单轮 prompt 注入检测 · 间接注入部分覆盖(Spotlighting) |
Cloud API |
Mindgard(2024-02):字符注入 + AML 扰动将检测率降至近 0 · 逐请求独立评估,多轮攻击无覆盖 · Spotlighting 依赖 LLM 遵守标记(概率性) |
| 阿里云 Agent 安全中心 |
Alibaba Cloud |
全生命周期平台:Agent-SPM(安全态势)+ Agent ID Guard(身份访问控制)+ AI 安全护栏(Qwen 语义分析)+ 影子 Agent 发现 |
全链路防护(输入/运行/输出)· MCP 安全 · 影子 Agent · 供应链风险 |
Cloud API |
封闭源代码,独立验证受限 · IDC 2026 评测三项满分(供应商测试) · Qwen 多语言字符注入和 AML 迁移攻击鲁棒性未独立验证 |
| 腾讯云内容安全 / LLM-WAF |
Tencent Cloud |
全链路防御(输入/模型/输出三层):Transformer 语义分析 + 对抗样本检测(编码混淆/多语言)+ PII 过滤 + 云安全中心动态规则更新 |
内容安全合规 · prompt 注入/越狱检测 · PII 输出过滤 |
Cloud API |
封闭源代码 · 对抗样本检测声明未经 Mindgard 方法独立验证 · MCP 工具投毒覆盖情况未知 |