ATA_LANDSCAPE · SecurityChecker 调研
SC 产品分析报告
v1.0 · 2026-05-10 · 10 款产品(国内外)· 覆盖 2024 Q1 – 2026 Q2
产品概览 10 款
产品 来源 技术方案 覆盖范围 部署模式 已知绕过 / 局限
LlamaFirewall Meta / PurpleLlama PromptGuard 2(BERT 86M/220M 分类器)+ AlignmentCheck(CoT 审计)+ CodeShield(静态代码分析) 单轮 prompt 注入 · 越狱检测 · 代码安全扫描(规则型) Inline SDK 多语言/Leetspeak 绕过(训练集英语偏重)· 不可见 Unicode · 资源不对称受控释放攻击 · Meta 将 guardrail 绕过排除在 Bug Bounty 之外
NeMo Guardrails NVIDIA 随机森林分类器(预训练 embedding)+ 困惑度启发式(Length-per-Perplexity / Prefix-Suffix)+ 用户定义 Colang rail 流 单轮注入/越狱 · 用户定义场景(Colang 规则) Inline SDK Mindgard 实测:同形字 + 零宽字符 ASR 居高 · AML 扰动迁移有效 · Colang 无跨轮对话级状态 · MCP 元数据无覆盖
LLM Guard ProtectAI 模块化 Scanner 管道(DeBERTa 注入检测 + 正则 PII + 毒性分类 + 代码扫描) 输入/输出双向扫描 · PII 过滤 · 毒性/注入检测 Inline SDK 对抗构造 prompt 绕过 DeBERTa(ACL 2025)· Scanner 无跨请求状态 · 跨字段模态拆分载荷规避 · 语义攻击无覆盖
AI-Infra-Guard 腾讯朱雀实验室 AI 基础设施漏洞扫描(Agent + MCP server 静态分析),非运行时 guardrail 基础设施漏洞发现 · MCP server 配置审计 扫描工具 CVE-2026-5585 自身信息泄露(exploit 公开,腾讯未响应)· 扫描结果不阻断运行时攻击
ClawGuard Claw-Guard(arXiv 2604.11790) 运行时中间件:Content Sanitizer(PII 脱敏)+ Rule Evaluator(确定性策略)+ Skill Inspector(新工具风险评估)+ Approval Mechanism(人工审批)。会话前自动推导 task-specific 访问规则。 工具调用边界拦截 · MCP 工具投毒 · Web/本地内容注入 · Skill 文件注入 Middleware 策略推导完整性依赖 · 初始目标陈述可被操控弱化规则 · 无内容级语义过滤 · 尚无独立红队验证(2026-04)
CaMeL Google Research 能力型访问控制 + 自定义解释器。双 LLM:特权 LLM(规划)+ 隔离 LLM(不可信内容处理,无工具调用权限)。数据流污点追踪 + 控制流完整性。 Prompt 注入(架构性防御)· 工具调用劫持 · 数据泄露路径 Middleware 隔离 LLM 仍可影响特权 LLM 规划决策(文本偏置)· 策略配置负担高 · 效用降级压力 · Agent 能力包络缩减
Guardrails AI guardrails-ai Validator 框架(RAIL XML / Python 验证器),支持 LLM-based 和规则型验证器组合。框架本身无默认安全策略。 用户自定义验证场景(输入/输出格式、内容合规) SDK / Library CVE-2024-45858 RCE via eval() · CVE-2024-6961 XXE 注入 · LLM-as-judge 继承自我监察漏洞(AdvJudge-Zero ~99% ASR)
Azure AI Content Safety / Prompt Shield Microsoft 云端分类器(仇恨/暴力/性/自伤内容)+ Prompt Shield(注入/越狱检测)+ Spotlighting(2025,数据边界标记防间接注入) 内容安全过滤 · 单轮 prompt 注入检测 · 间接注入部分覆盖(Spotlighting) Cloud API Mindgard(2024-02):字符注入 + AML 扰动将检测率降至近 0 · 逐请求独立评估,多轮攻击无覆盖 · Spotlighting 依赖 LLM 遵守标记(概率性)
阿里云 Agent 安全中心 Alibaba Cloud 全生命周期平台:Agent-SPM(安全态势)+ Agent ID Guard(身份访问控制)+ AI 安全护栏(Qwen 语义分析)+ 影子 Agent 发现 全链路防护(输入/运行/输出)· MCP 安全 · 影子 Agent · 供应链风险 Cloud API 封闭源代码,独立验证受限 · IDC 2026 评测三项满分(供应商测试) · Qwen 多语言字符注入和 AML 迁移攻击鲁棒性未独立验证
腾讯云内容安全 / LLM-WAF Tencent Cloud 全链路防御(输入/模型/输出三层):Transformer 语义分析 + 对抗样本检测(编码混淆/多语言)+ PII 过滤 + 云安全中心动态规则更新 内容安全合规 · prompt 注入/越狱检测 · PII 输出过滤 Cloud API 封闭源代码 · 对抗样本检测声明未经 Mindgard 方法独立验证 · MCP 工具投毒覆盖情况未知
跨产品通用绕过技术 7 类
技术 机制 受影响产品 有效性 来源
字符注入 / Unicode 操控 同形字 · 零宽字符 · 变音符 · Leetspeak · BiDi 标记。利用 tokenization 差异:guard 不可见,目标 LLM 可解析。 PromptGuard 2 · NeMo · Azure Prompt Shield · LLM Guard 极高 Mindgard 2024; Trendyol 2025
AML 迁移性攻击 白盒代理模型生成对抗扰动,迁移至黑盒生产分类器。Word-importance-based perturbation 定位分类器盲区。 所有基于分类器的 SC Mindgard; Lancaster Univ.
资源不对称 / 受控释放攻击 密码编码载荷超出 guard 计算预算(timed-release);或膨胀 token 数超出 guard 上下文窗口(spaced-release)。 PromptGuard 2 · NeMo · LLM Guard(任何 guard 模型轻于目标 LLM 的部署) Fairoze et al., arXiv
多轮语义升级 Foot-in-the-Door (FITD) · Crescendo · ActorAttack。逐轮通过分类器,累积引导至禁止行为。 所有逐请求/逐轮 SC(LLM Guard · Azure · NeMo · PromptGuard 2) 2×–10× 单轮 OWASP LLM Top 10; CyberArk
AI Judge 自我监察绕过 同步注入 judge + base model(HiddenLayer)。AdvJudge-Zero 黑盒 fuzzing 找低困惑度触发序列,翻转 judge 判决。 LLM-as-judge 部署(Guardrails AI · NeMo LLM rail · 自定义实现) ~99% ASR(无防御) HiddenLayer 2025; Unit 42 2026
MCP 工具投毒 恶意指令嵌入 MCP tool description/schema,Agent 以受信系统上下文摄取。"换包"变体:工具审批后更新为恶意版。 几乎所有不检查工具元数据的 SC。ClawGuard / CaMeL 有部分覆盖。 >70% ASR, <3% 模型拒绝 Invariant Labs MCPTox; CVE-2025-54136/54135
Policy Puppetry(策略傀儡) 将恶意请求包装成 XML/JSON/INI 配置格式,分类器将结构化格式识别为良性配置。 所有基于分类器的 SC HiddenLayer Prompt Puppetry 2025
攻击类型覆盖热力图 10 × 7
产品
字符
注入
多轮
升级
MCP
投毒
AML
迁移
资源
不对称
Judge
绕过
间接
注入
LlamaFirewall
NeMo Guardrails
LLM Guard
AI-Infra-Guard
ClawGuard
CaMeL
Guardrails AI
Azure Prompt Shield
阿里云 ASC
?
?
?
?
腾讯 LLM-WAF
?
?
?
已覆盖 部分覆盖 未覆盖 不适用(工具型 SC) ? 供应商声明,未独立验证
关键 CVE 汇总 6 枚
CVE产品漏洞类型严重性状态
CVE-2024-45858Guardrails AI任意代码执行(RAIL 文档 eval())Critical已修复 v0.5.10+
CVE-2024-6961Guardrails AIXXE 注入 → 文件泄露High已修复 v0.5.0+
CVE-2026-5585AI-Infra-Guard(腾讯)信息泄露 task_manager.go;exploit 已公开Medium腾讯未响应
CVE-2025-54136MCP 生态(MCPoison)工具投毒 → Agent 劫持High生态系统问题,无统一补丁
CVE-2025-54135MCP 生态(CurXecute)工具投毒 → Agent 劫持High生态系统问题,无统一补丁
CVE-2025-6514mcp-remote任意 OS 命令执行(CVSS 9.6)Critical补丁已发布