SC 产品分析报告 v1.0

产品概览 10 款

产品	来源	技术方案	覆盖范围	部署模式	已知绕过 / 局限
LlamaFirewall	Meta / PurpleLlama	PromptGuard 2（BERT 86M/220M 分类器）+ AlignmentCheck（CoT 审计）+ CodeShield（静态代码分析）	单轮 prompt 注入 · 越狱检测 · 代码安全扫描（规则型）	Inline SDK	多语言/Leetspeak 绕过（训练集英语偏重）· 不可见 Unicode · 资源不对称受控释放攻击 · Meta 将 guardrail 绕过排除在 Bug Bounty 之外
NeMo Guardrails	NVIDIA	随机森林分类器（预训练 embedding）+ 困惑度启发式（Length-per-Perplexity / Prefix-Suffix）+ 用户定义 Colang rail 流	单轮注入/越狱 · 用户定义场景（Colang 规则）	Inline SDK	Mindgard 实测：同形字 + 零宽字符 ASR 居高 · AML 扰动迁移有效 · Colang 无跨轮对话级状态 · MCP 元数据无覆盖
LLM Guard	ProtectAI	模块化 Scanner 管道（DeBERTa 注入检测 + 正则 PII + 毒性分类 + 代码扫描）	输入/输出双向扫描 · PII 过滤 · 毒性/注入检测	Inline SDK	对抗构造 prompt 绕过 DeBERTa（ACL 2025）· Scanner 无跨请求状态 · 跨字段模态拆分载荷规避 · 语义攻击无覆盖
AI-Infra-Guard	腾讯朱雀实验室	AI 基础设施漏洞扫描（Agent + MCP server 静态分析），非运行时 guardrail	基础设施漏洞发现 · MCP server 配置审计	扫描工具	CVE-2026-5585 自身信息泄露（exploit 公开，腾讯未响应）· 扫描结果不阻断运行时攻击
ClawGuard	Claw-Guard（arXiv 2604.11790）	运行时中间件：Content Sanitizer（PII 脱敏）+ Rule Evaluator（确定性策略）+ Skill Inspector（新工具风险评估）+ Approval Mechanism（人工审批）。会话前自动推导 task-specific 访问规则。	工具调用边界拦截 · MCP 工具投毒 · Web/本地内容注入 · Skill 文件注入	Middleware	策略推导完整性依赖 · 初始目标陈述可被操控弱化规则 · 无内容级语义过滤 · 尚无独立红队验证（2026-04）
CaMeL	Google Research	能力型访问控制 + 自定义解释器。双 LLM：特权 LLM（规划）+ 隔离 LLM（不可信内容处理，无工具调用权限）。数据流污点追踪 + 控制流完整性。	Prompt 注入（架构性防御）· 工具调用劫持 · 数据泄露路径	Middleware	隔离 LLM 仍可影响特权 LLM 规划决策（文本偏置）· 策略配置负担高 · 效用降级压力 · Agent 能力包络缩减
Guardrails AI	guardrails-ai	Validator 框架（RAIL XML / Python 验证器），支持 LLM-based 和规则型验证器组合。框架本身无默认安全策略。	用户自定义验证场景（输入/输出格式、内容合规）	SDK / Library	CVE-2024-45858 RCE via eval() · CVE-2024-6961 XXE 注入 · LLM-as-judge 继承自我监察漏洞（AdvJudge-Zero ~99% ASR）
Azure AI Content Safety / Prompt Shield	Microsoft	云端分类器（仇恨/暴力/性/自伤内容）+ Prompt Shield（注入/越狱检测）+ Spotlighting（2025，数据边界标记防间接注入）	内容安全过滤 · 单轮 prompt 注入检测 · 间接注入部分覆盖（Spotlighting）	Cloud API	Mindgard（2024-02）：字符注入 + AML 扰动将检测率降至近 0 · 逐请求独立评估，多轮攻击无覆盖 · Spotlighting 依赖 LLM 遵守标记（概率性）
阿里云 Agent 安全中心	Alibaba Cloud	全生命周期平台：Agent-SPM（安全态势）+ Agent ID Guard（身份访问控制）+ AI 安全护栏（Qwen 语义分析）+ 影子 Agent 发现	全链路防护（输入/运行/输出）· MCP 安全 · 影子 Agent · 供应链风险	Cloud API	封闭源代码，独立验证受限 · IDC 2026 评测三项满分（供应商测试） · Qwen 多语言字符注入和 AML 迁移攻击鲁棒性未独立验证
腾讯云内容安全 / LLM-WAF	Tencent Cloud	全链路防御（输入/模型/输出三层）：Transformer 语义分析 + 对抗样本检测（编码混淆/多语言）+ PII 过滤 + 云安全中心动态规则更新	内容安全合规 · prompt 注入/越狱检测 · PII 输出过滤	Cloud API	封闭源代码 · 对抗样本检测声明未经 Mindgard 方法独立验证 · MCP 工具投毒覆盖情况未知

跨产品通用绕过技术 7 类

技术	机制	受影响产品	有效性	来源
字符注入 / Unicode 操控	同形字 · 零宽字符 · 变音符 · Leetspeak · BiDi 标记。利用 tokenization 差异：guard 不可见，目标 LLM 可解析。	PromptGuard 2 · NeMo · Azure Prompt Shield · LLM Guard	极高	Mindgard 2024; Trendyol 2025
AML 迁移性攻击	白盒代理模型生成对抗扰动，迁移至黑盒生产分类器。Word-importance-based perturbation 定位分类器盲区。	所有基于分类器的 SC	高	Mindgard; Lancaster Univ.
资源不对称 / 受控释放攻击	密码编码载荷超出 guard 计算预算（timed-release）；或膨胀 token 数超出 guard 上下文窗口（spaced-release）。	PromptGuard 2 · NeMo · LLM Guard（任何 guard 模型轻于目标 LLM 的部署）	高	Fairoze et al., arXiv
多轮语义升级	Foot-in-the-Door (FITD) · Crescendo · ActorAttack。逐轮通过分类器，累积引导至禁止行为。	所有逐请求/逐轮 SC（LLM Guard · Azure · NeMo · PromptGuard 2）	2×–10× 单轮	OWASP LLM Top 10; CyberArk
AI Judge 自我监察绕过	同步注入 judge + base model（HiddenLayer）。AdvJudge-Zero 黑盒 fuzzing 找低困惑度触发序列，翻转 judge 判决。	LLM-as-judge 部署（Guardrails AI · NeMo LLM rail · 自定义实现）	~99% ASR（无防御）	HiddenLayer 2025; Unit 42 2026
MCP 工具投毒	恶意指令嵌入 MCP tool description/schema，Agent 以受信系统上下文摄取。"换包"变体：工具审批后更新为恶意版。	几乎所有不检查工具元数据的 SC。ClawGuard / CaMeL 有部分覆盖。	>70% ASR, <3% 模型拒绝	Invariant Labs MCPTox; CVE-2025-54136/54135
Policy Puppetry（策略傀儡）	将恶意请求包装成 XML/JSON/INI 配置格式，分类器将结构化格式识别为良性配置。	所有基于分类器的 SC	中	HiddenLayer Prompt Puppetry 2025

攻击类型覆盖热力图 10 × 7

产品

字符
注入

多轮
升级

MCP
投毒

AML
迁移

资源
不对称

Judge
绕过

间接
注入

LlamaFirewall

△

✗

△

✗

✓

✗

NeMo Guardrails

△

✗

△

✗

△

✗

LLM Guard

△

✗

△

✗

AI-Infra-Guard

—

✓

—

ClawGuard

✓

✗

✓

CaMeL

✓

✗

△

Guardrails AI

✗

△

✗

Azure Prompt Shield

△

✗

△

✗

△

阿里云 ASC

?

✓

?

—

?

腾讯 LLM-WAF

?

—

?

—

✓ 已覆盖 △ 部分覆盖 ✗ 未覆盖 — 不适用（工具型 SC） ? 供应商声明，未独立验证

关键 CVE 汇总 6 枚

CVE	产品	漏洞类型	严重性	状态
CVE-2024-45858	Guardrails AI	任意代码执行（RAIL 文档 eval()）	Critical	已修复 v0.5.10+
CVE-2024-6961	Guardrails AI	XXE 注入 → 文件泄露	High	已修复 v0.5.0+
CVE-2026-5585	AI-Infra-Guard（腾讯）	信息泄露 task_manager.go；exploit 已公开	Medium	腾讯未响应
CVE-2025-54136	MCP 生态（MCPoison）	工具投毒 → Agent 劫持	High	生态系统问题，无统一补丁
CVE-2025-54135	MCP 生态（CurXecute）	工具投毒 → Agent 劫持	High	生态系统问题，无统一补丁
CVE-2025-6514	mcp-remote	任意 OS 命令执行（CVSS 9.6）	Critical	补丁已发布