SkillSpector 是 NVIDIA 推出的开源 AI Agent Skill 安全扫描工具(GitHub: NVIDIA/SkillSpector),专门针对 AI Agent 的“技能”(Skills)——即 Claude Code、Cursor、Codex 等平台中的可安装能力包(通常包含描述、工具定义、脚本、依赖等)设计。
它在安装前对技能进行扫描,帮助回答 “这个 Skill 安全吗?” 问题。基于 OWASP LLM Top 10、Agentic AI 风险和 MITRE ATLAS 等框架,覆盖传统软件安全 + Agent 特有风险。
一、整体架构
SkillSpector 采用两阶段管道:
1.快速静态分析(默认):正则、AST、污点跟踪、YARA、依赖检查等,速度快、确定性强。
2.可选 LLM 语义评估:使用 OpenAI/Anthropic/NVIDIA 等 LLM 进行意图对比、描述-行为不匹配等深层判断,可过滤假阳性并提供自然语言解释。
支持输入:Git 仓库、URL、ZIP、目录、单文件。输出:终端、JSON、Markdown、SARIF(CI/CD 友好)。
下面我挑出几条来进行详解。
【AI代码助手、大模型智能体安全、AI代码静态分析工具、AI动态分析工具、AI渗透测试工具、AI模糊测试、AI恶意代码检测平台、AI软件漏洞挖掘平台、AI软件供应链安全平台。试用及合作请后台私信工程师13381155803(微信同步)】
1.1 在安装 AI 代理技能前进行扫描
技术意义:Agent Skills 是高权限、可执行的插件,运行时往往获得隐式信任(访问文件系统、工具调用、网络等)。传统扫描工具(如 Bandit、Semgrep)对 Prompt/工具描述/元数据等 Agent 特有向量覆盖不足。SkillSpector 将 Skill 视为“可部署的能力包”,在安装/发布前作为 Pre-Publication Gate 运行。
实现方式:
·规范化 Skill Bundle(解析 manifest、SKILL.md、工具定义、代码文件等)成共享状态(LangGraph 工作流)。
·扫描后输出风险评分(0-100)、严重程度和修复建议。
·推荐作为发布 Checklist 或 CI Gate:Critical/High 问题应阻断发布。
可以想象一个线性流程图:Skill Input → Normalization → Static Analyzers (11+) → Optional LLM Layer → Findings Aggregation → SARIF/MD Report → Install Decision。
1.2 涵盖 16 个类别的 64 项安全检查
这是核心覆盖度。64 个具体模式分布在 16 类,结合静态 + 语义检测。
主要类别示例(部分):
·Prompt Injection(5 项):指令覆盖、隐藏指令、泄露命令等。
·Data Exfiltration(4 项):环境变量采集、文件枚举、上下文泄露。
·Privilege Escalation(3 项):过度权限、Sudo 执行、凭证访问。
·Supply Chain(6 项):未固定版本、远程脚本拉取、已知 CVE 等。
·Excessive Agency / Tool Misuse / Rogue Agent 等 Agent 特有行为。
·MCP Least Privilege & Tool Poisoning(MCP 指 Manifest/Control Plane?Agent 工具权限控制)。
技术亮点:不仅查代码,还查工具描述、参数定义、元数据中的隐藏/欺骗内容(零宽字符、Homoglyphs、RTL 重写等)。
1.3 快速静态分析 +
默认核心引擎,速度快(适合 CI),高召回率。
包含的技术手段:
·正则模式匹配(11 个静态分析器):查找可疑字符串、隐藏指令、base64 混淆等。
·YARA 签名:匹配已知恶意模式(恶意软件、Webshell、Cryptominer 等)。
·依赖扫描:实时查询 OSV.dev 获取 CVE(离线有 fallback)。
·Manifest 一致性检查:声明权限 vs 实际代码能力是否匹配。
优势:秒级完成大部分扫描,适合大规模使用。
1.4 可选的 LLM 语义评估
核心创新:静态分析难以判断“意图”和“描述-行为不匹配”。
工作原理:
·将 Skill 的声明目的、工具描述与实际代码/指令喂给 LLM。
·LLM 评估是否存在隐蔽恶意行为、触发滥用、过度代理等。
·可配置提供商(OpenAI、Anthropic、NVIDIA Build 等),支持本地 Ollama。
·--no-llm 标志跳过以加速。
示例:描述说“文件读取工具”,但代码实际发送到外部 API → LLM 标记为不匹配并解释。
权衡:增加延迟和成本,但大幅提升精度、减少假阳性,并生成人类可读解释。
1.5 提示注入检测(Prompt Injection)
检测模式(示例):
·指令覆盖(“Ignore previous instructions...”)。
·隐藏指令(注释、零宽字符、HTML 注释、base64)。
·泄露/外传命令。
·行为操纵、潜在有害内容。
技术实现:静态正则 + Unicode 规范化 + LLM 语义确认。还检查参数描述中的注入风险。
Agent 场景重要性:Skill 的 Prompt 会被 Agent 直接拼接,注入可能导致越狱、数据泄露或恶意动作。
1.6 凭据窃取检测(Credential Stealing)
属于 Data Exfiltration 和 Privilege Escalation 类别。
检测:
·环境变量遍历(os.environ)。
·凭证文件读取(~/.ssh/、tokens 等)。
·污点流:凭证数据 → 网络输出 Sink(requests.post 等)。
·Taint Tracking 跟踪多跳流动。
严重性:通常 Critical/High,因为 Agent 常有访问密钥的环境。
1.7 供应链漏洞扫描(Supply Chain)
关键子检查:
·未固定依赖版本(requirements.txt 无 ==)。
·远程代码拉取(curl | bash)。
·已知漏洞依赖(OSV.dev 实时查 CVE)。
·Typosquatting、废弃包、混淆代码。
实现:解析依赖文件 + OSV API + 静态模式匹配。
这对 Agent Skills 特别重要,因为许多 Skill 会拉取第三方库。
1.8 AST 和污点流分析(AST & Taint Flow)
AST(Abstract Syntax Tree):
·使用 Python 的 ast 模块解析代码。
·检测危险 API:exec()、eval()、subprocess、os.system、compile()、dynamic import 等。
·危险执行链(动态来源 + 执行)标记为 Critical。
Taint Flow(污点分析):
·数据流分析:来源(网络、用户输入、文件、env)→ 汇点(执行、网络发送、文件写)。
·支持直接流、中间变量流。
·特别关注凭证/文件 → 外部传输路径。
这是传统 SAST 能力的深化,针对动态语言的常见绕过。
1.9 MCP 安全检查
MCP 指 Manifest/Control Plane 或类似 Agent 技能的权限控制层(Least Privilege & Tool Poisoning)。
Least Privilege 检查:
·Underdeclared(代码用但未声明)。
·Wildcard(*、all)。
·Missing / Overdeclared 权限。
Tool Poisoning:
·元数据隐藏指令。
·Unicode 欺骗(Homoglyphs)。
·参数描述注入。
·描述-行为不匹配(LLM 评估)。
确保 Skill 遵循最小权限原则,防止工具被滥用或毒化。
1.10 可选的 LLM 审查层
同第 4 点,是第二阶段。专门处理需要“理解上下文和意图”的问题,是 SkillSpector 区别于普通 SAST 的关键。
1.11 支持 CI/CD 的 SARIF 输出
SARIF(Static Analysis Results Interchange Format)是行业标准(Microsoft、GitHub Code Scanning 等支持)。
用法:skillspector scan ./my-skill/ --format sarif --output report.sarif
优势:
·直接集成 GitHub Actions、GitLab、Azure DevOps 等的安全扫描仪表盘。
·带位置信息、严重程度、规则 ID,便于追踪和自动化阻断。
·同时支持 Markdown(人工 Review)和 JSON(自定义处理)。
总结与最佳实践:
·本地快速扫描:skillspector scan ./skill-dir/ --no-llm
·完整审查:配置 LLM Provider 后全量扫描。
·企业流程:结合 Skill Card(元数据)和 OMS 签名,形成完整信任链。
·局限:纯静态(无动态执行)、无法分析图片中文字、加密二进制。
SkillSpector 是 Agent 时代 SAST 的重要演进,强烈推荐在任何 Skill 安装/发布流水线中集成。更多细节可查官方 GitHub 和 NVIDIA Docs。
二、对比其他AI代理安全工具
SkillSpector 是目前针对 AI Agent Skills(Claude Code、Cursor、Codex、OpenClaw 等平台的技能包)安装前静态+语义扫描 的领先开源工具。以下从专业技术角度,对比主流竞品,聚焦核心差异。
2.1对比维度
·扫描阶段:Pre-Install(安装前) vs Runtime(运行时)
·覆盖深度:Agent 特有风险(Prompt Injection、Tool Poisoning、Excessive Agency、MCP 权限)+ 传统安全
·分析技术:静态(AST/Taint/Regex/YARA)+ 可选 LLM 语义
·集成性:CI/CD(SARIF)、开源/商业、本地/云
·优势/局限
2.2主要竞品对比表
工具 / 项目 | 类型 | 扫描阶段 | 核心技术 | 检查项数量 / 类别 | LLM 语义评估 | CI/CD 支持 | 开源/商业 | 最佳适用场景 | 与 SkillSpector 差异 |
SkillSpector (NVIDIA) | CLI 扫描器 | Pre-Install | AST + Taint + Regex + YARA + 依赖(OSV) + 可选 LLM | 64 项 / 16 类 | 可选(强) | SARIF + JSON + MD | 开源 | Skill 发布流水线、开发者本地审查 | - |
Cisco AI Defense Skill-Scanner | CLI 扫描器 | Pre-Install | 静态规则 + LLM(需 Key) | 中等(Prompt + Exfil 强) | 支持 | 支持 | 开源 | OpenClaw / Cursor 技能 | 更轻量,LLM 依赖更重,覆盖面略窄 |
Repello SkillCheck | Browser-based | Pre-Install | 静态 + 云端分析 | 中等 | 支持 | 有限 | 商业/免费 | 快速网页扫描,非开发者 | 更易用但深度和自动化弱 |
Snyk (含 ToxicSkills) | SCA + SAST | Pre-Install + CI | 依赖扫描 + 规则引擎 + AI 辅助 | 依赖 + 部分 Agent 风险 | 辅助 | 优秀(SARIF) | 商业(开源部分) | 供应链安全 | 传统 SCA 强,Agent 技能专属弱 |
Palo Alto Prisma AIRS | AI-SPM + Runtime | 全生命周期 | 云原生 + Runtime 防护 | 广(含 Agent 运行时) | 支持 | 优秀 | 商业 | 企业生产环境 | 运行时强,Pre-Install 技能扫描非核心 |
Wiz AI-SPM | 云安全平台 | Pre + Runtime | Security Graph + AI 资产发现 | 广 | 支持 | 优秀 | 商业 | 云上 AI 工作负载 | 基础设施视角,非技能包专精 |
Protect AI / HiddenLayer | Model & Agent 安全 | 模型/运行时 | 模型扫描 + 红队 | 模型投毒 + 运行时 | 支持 | 中等 | 商业 | LLM 模型安全 | 侧重模型而非 Agent Skill 代码 |
Semgrep / Checkmarx One | 通用 SAST | Pre-Install | 规则 + AST + AI 增强 | 代码安全广 | 辅助 | 优秀 | 商业/开源 | 通用代码安全 | Agent 特有风险(如 Tool Poisoning)覆盖不足 |
2.3详细技术对比
1. SkillSpector 的独特优势
·Agent-Native 深度:专为 Skill Bundle(manifest + 代码 + 工具描述 + SKILL.md)设计,检查描述-行为不匹配(LLM 语义层)、MCP 最小权限、Tool Poisoning(Homoglyphs、隐藏指令)。
·平衡设计:默认快速静态(秒级),可选 LLM 提升精度并给出自然语言解释。
·生态集成:NVIDIA Verified Skills 官方流水线使用 + Skill Cards + 密码学签名,形成完整信任链。
·开源免费:本地运行,无数据泄露风险,SARIF 完美支持 GitHub Actions 等。
2. 与 Cisco Skill-Scanner 对比
·Cisco 更专注 OpenClaw 生态,LLM 评估需额外 API Key。
·SkillSpector 检查项更多(64 vs Cisco 的中等规模),AST + Taint 流分析更强,适合复杂 Python/脚本 Skill。
3. 与通用 SAST/SCA(如 Snyk、Semgrep)对比
·Snyk 在供应链(CVE、依赖固定)上极强,曾审计 ClawHub 发现 13.4% 技能有严重问题。
·SkillSpector 在Prompt Injection、Credential Stealing、Excessive Agency 等 Agent 特有向量上更专业,而 Snyk 更偏传统代码/依赖。
4. 与运行时工具(如 Prisma AIRS、Microsoft Defender for AI)对比
·这些工具擅长实时监控 Agent 行为、Prompt Injection 防御、工具调用审计。
·SkillSpector 是左移安全(Shift-Left),在安装前阻断恶意技能,属于预防层。最佳实践是 SkillSpector(Pre) + Prisma/Wiz(Runtime) 组合使用。
2.4总结推荐
·个人/开源开发者:首选 SkillSpector(免费、强大、本地)。
·需要极简网页体验:Repello SkillCheck。
·企业供应链重度:Snyk + SkillSpector。
·完整企业 Agent 治理:SkillSpector(技能准入) + Prisma AIRS / Wiz(运行时) + Microsoft Defender。
·局限共性:所有 Pre-Install 工具都难以 100% 检测高度混淆/加密的恶意负载,仍需结合人工 Review + 运行时沙箱。
SkillSpector 在 2026 年 Agent Skill 安全 领域定位清晰:开源、专注、深度,是 NVIDIA Verified Skills 生态的核心组件之一。
三、AI Agent 运行时防护
AI Agent 运行时防护(Runtime Protection) 是 Agentic AI 安全体系中右移(Shift-Right) 的核心层,与 SkillSpector 等安装前静态扫描形成互补。
Pre-Install 解决“这个 Skill 安全吗?”,而 Runtime 解决“运行过程中 Agent 实际做了什么?”——处理非确定性行为、间接 Prompt Injection、Tool Abuse、实时数据外泄等动态风险。
3.1运行时防护的核心技术原理
1.拦截点(Interception Points):
1.Prompt / Input Layer:用户输入、检索上下文、工具返回结果进入 LLM 前拦截。
2.Tool Invocation / MCP Layer:Agent 调用工具(如文件读写、API、网络、代码执行)前评估。
3.Output Layer:LLM 生成内容输出前过滤/脱敏。
4.Behavioral Monitoring:全链路异常检测(eBPF、ML 基线、意图分析)。
2.关键检测能力:
1.实时 Prompt Injection / Jailbreak(直接+间接)。
2.Tool Misuse / Excessive Agency(超出声明权限)。
3.Data Exfiltration / PII Leak。
4.Anomalous Behavior(突然执行 shell、访问新外部 IP)。
5.MCP(Model Context Protocol)安全:Agent 身份验证、最小权限执行、工具投毒防御。
3.执行机制:
1.Block / Allow / Sanitize 决策(<100ms 低延迟)。
2.Guardrails:可编程策略(Colang、YAML、代码)。
3.Audit & Forensics:完整行动轨迹 + 归因。
3.2主流运行时防护工具对比(2026 年视角)
工具 / 平台 | 核心优势 | 关键技术 | MCP / Tool 防护 | 集成方式 | 部署模式 | 最佳场景 |
NVIDIA NeMo Guardrails | 可编程性强,开源基础好 | Colang 策略 + Nemotron Safety 模型 + Input/Output/DIALOG Rails | 强 | LangChain / LlamaIndex / NIM | 本地 / 云 / 混合 | 自定义 Agent 流程,NVIDIA 生态 |
Palo Alto Prisma AIRS | 企业级全生命周期,最全面 | AI Runtime Firewall + Agent Gateway + Portkey 集成 | 极强 | API Intercept / Cortex | 云原生 / 多云 | 大型企业,Agent 规模化治理 |
Microsoft Defender for AI | 与 Copilot / Power Platform 深度集成 | Real-time Tool Invocation 检查 + Webhook | 强 | Defender XDR / Copilot Studio | 云(Azure) | Microsoft 生态,用户构建 Agent |
Lakera Guard (Check Point) | 低延迟 Prompt 防护专业 | ML-based Guard API + MCP Gateway | 强 | 单 API 调用 | 云 / 自托管 Docker | 快速集成现有 LLM App |
Akto / Straiker | Agentic 可见性 + 持续红队 | 运行时 Guardrails + 发现 | 强 | Gateway / Sidecar | 企业平台 | 影子 Agent 治理 |
CrowdStrike Falcon AIDR | 端点 + Agent 结合 | NeMo Guardrails 集成 + 行为监测 | 中强 | Endpoint / Cloud | 混合 | 端点密集环境 |
3.3详细技术解析(重点工具)
1. NVIDIA NeMo Guardrails(与 SkillSpector 同生态,最推荐开发者使用)
·使用 Colang(事件驱动语言)定义 Rails:Topical Rail、Execution Rail、Safety Rail 等。
·支持 Input Moderation、Output Moderation、Hallucination Check、Jailbreak Detection。
·可与 NVIDIA NIM、OpenClaw、Agent Toolkit 无缝集成。
·优势:低延迟、可解释性强(策略明确)、开源社区活跃。
示例 Colang 片段(阻止敏感操作):define user ask delete file bot refuse dangerous action
2. Palo Alto Prisma AIRS 3.0
·提供 AI Agent Gateway:集中身份验证、实时策略执行。
·覆盖 Agent 发现 → 评估 → 运行时防护全链路。
·重点防御:Prompt Injection、Tool Abuse、Memory Poisoning、Indirect Injection。
·适合需要统一控制平面的大型企业,支持多云和低代码 Agent。
3. Microsoft Defender Runtime Protection
·在 Tool Invocation 时刻 webhook 到 Defender 进行意图 + 目标评估。
·直接 Block 危险动作(shell 执行、敏感数据访问等),并生成 XDR 告警。
·与 Copilot Studio 深度融合,适合企业内部 Agent 构建场景。
4. Lakera Guard
·简单 API 集成(输入/输出均检查)。
·高精度 Prompt Injection 检测(支持 100+ 语言),兼顾 DLP(数据泄露防护)。
·现已深度集成 Check Point CloudGuard,适合混合安全栈。
3.4最佳实践架构(Defense-in-Depth)
·左移:SkillSpector(Pre-Install) + Garak(红队测试)。
·运行时:NeMo Guardrails(核心策略) + Prisma AIRS / Defender(企业治理) + Lakera(Prompt 防火墙)。
·监控:eBPF 级行为基线(AccuKnox 等) + 完整审计日志。
·零信任:Agent 身份认证 + Least Privilege Tool Access + Human-in-the-Loop(高风险动作审批)。
局限性:
·所有运行时防护都会引入少量延迟(通常 20-150ms)。
·高度混淆或新型攻击仍需持续更新模型/规则。
·过度严格策略可能影响 Agent 自主性(需平衡)。
总结:2026 年,单纯 Prompt 过滤已不够。真正的 Agent 运行时防护围绕 MCP/Tool Invocation 这一执行层展开,重点是“允许 Agent 做什么”而非“说什么”。NVIDIA 生态用户建议优先 NeMo Guardrails + SkillSpector 组合;大型企业则推荐 Prisma AIRS 或 Microsoft Defender 作为控制平面。

夜雨聆风