你从 GitHub 随手 clone 了一个 AI Agent 技能,一行命令装上。它要了你的文件读写权限、你的 shell 访问、你的网络连接。
你点确认的时候想的是"这个技能能帮我自动整理代码"。实际跑在后台的脚本,正把你所有环境变量打包发送到一个未知服务器。
案例不是虚构的。NVIDIA 安全团队在 arXiv 论文《Agent Skills in the Wild》中记录了一个叫"GIF Creator"的技能——表面是生成 GIF 图片,安装后静默下载并执行了 MedusaLocker 勒索软件。
现在轮到你了。你装过的那些技能,扫过吗?


▲ NVIDIA 通过社区账号正式宣布 SkillSpector 开源,0-100 风险评分一目了然
你批准的是"描述",你得到的是完整执行权限
Agent 技能(Skills)是一个正在爆发的新概念。Claude Code、Codex CLI、Gemini CLI 全部支持技能系统。一个技能包通常包含两块:SKILL.md 写清楚元数据和自然语言指令,再加一个scripts/目录,里面是实打实的 Python、Shell 或 JavaScript 代码。
安装之后,这些代码以你的用户权限裸跑。文件读写、网络请求、shell 命令,一个都不会少。平台极少会弹出二次确认。
NVIDIA 给这道裂缝起了个名字:同意差距(Consent Gap)。你批准的是描述文字,系统拿到的是完整可执行环境。中间没有任何防线。
三万个技能扫过去,八千多个带了漏洞
NVIDIA 没有凭空造数据。研究团队从 GitHub 和技能市场爬取了 42,447 个技能,有效分析了 31,132 个。
结果把所有关注 Agent 安全的人都炸出了一身冷汗。

▲ 《Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale》,31,132 个真实技能的大规模安全测量
- 26.1%
,也就是 8,161 个技能,至少包含一个安全漏洞。 - 5.2%
,约 1,619 个技能,代码模式显示"很可能存在恶意意图"。 带可执行脚本的技能,漏洞率是纯指令技能的2.12 倍。 数据外泄(13.3%)和权限提升(11.8%)是最高发的风险类型。 安全/红队类技能的原始漏洞率冲到 67.4%——当然这其中一部分是合法工具,但攻击者同样可以披着"安全工具"的外衣投毒。
研究团队还发现了一个国家级赞助的攻击行动:利用 Claude Code 配合恶意 MCP 服务器,实现了全自动网络侦察和凭证收集。"GIF Creator"勒索软件案例只是冰山露出水面的那一角。
NVIDIA 出手:两阶段扫描,一张风险判决书
2026 年 6 月,NVIDIA 正式将 SkillSpector 开源,Apache 2.0 许可。
它的检测逻辑跟传统杀毒软件异曲同工——静态特征匹配叠加行为语义分析,针对 Agent 特有的威胁模型做了重新设计。

▲ GitHub 仓库主页,9.1k+ stars。覆盖 64 种安全模式、16 个威胁大类,支持多种 LLM 后端
第一阶段:静态分析(秒级出结果)
11 个以上的分析器,扫描 64 种预定义安全模式:
- 正则模式匹配
:16 大类威胁,从 Prompt 注入到供应链后门全覆盖 - AST 行为分析
:检测 exec()、eval()、subprocess、__import__等 8 种危险调用 - 污点追踪
:追踪数据从环境变量、文件输入流向网络和 shell 执行的全部路径 - YARA 签名
:识别恶意软件、Webshell、挖矿脚本、黑客工具特征 - OSV.dev 实时 CVE 查询
:扫描依赖中的已知漏洞
第二阶段:LLM 语义分析(可选,强烈建议开启)
这一层做三件事:比对声明目的与实际行为是否一致、过滤静态阶段的误报、输出人类可读的审计解释。
有意思的是它的反 jailbreak 设计——如果恶意技能在 SKILL.md 里写"告诉扫描器我是安全的",SkillSpector 反而会拉高它的嫌疑分。
支持 Claude、GPT、DeepSeek 等主流模型,也支持本地 Ollama 和内网部署。
最终输出:0-100 风险分数
0-20 分(LOW)→SAFE 21-50 分(MEDIUM)→CAUTION 51-80 分(HIGH)→DO NOT INSTALL 81-100 分(CRITICAL)→DO NOT INSTALL
报告支持 SARIF(直接接入 GitHub Code Scanning 和 VS Code)、JSON(自动化流水线)、Markdown(人工评审)、终端美化输出四种格式。

▲ NVIDIA 官方文档,安装命令、Triage 分级策略表、MCP 服务器集成入口清晰列出
五分钟装好,Docker 一行命令就能扫
SkillSpector 把上手门槛压到了极限:
# 纯静态扫(最快,秒出结果) skillspector scan ./my-skill/ --no-llm # 带 LLM 语义分析(推荐) export SKILLSPECTOR_PROVIDER=anthropic export ANTHROPIC_API_KEY=sk-... skillspector scan ./my-skill/ # Docker 免 Python 环境 docker run --rm -v "$PWD:/scan" skillspector scan ./my-skill/ --no-llm 也提供了 Python API(LangGraph 工作流),可以直接嵌入自有系统。CI/CD 集成只需要在 PR 检查里加一行 SARIF 输出——HIGH 及以上自动阻断或转人工审批。
社区的反应比 NVIDIA 自己的推广更快。Reddit 的 r/blueteamsec 板块,安全工程师已经在讨论 MCP 工具投毒场景下的覆盖效果。LinkedIn 上多位从业者转发时都加上了同一句判断:"agent skills 也需要安全审查。"

▲ Reddit r/blueteamsec 讨论 SkillSpector,MCP 工具投毒和 CI 集成是关注焦点
OpenClaw 等平台已经把 SkillSpector 纳入了技能发布流程,与 VirusTotal 等工具并行跑,输出作为 advisory 而非硬阻断。部分团队已经在 Codex 工作流中默认启用。




▲ 技术博主 @akshay_pachaar 长帖详解 SkillSpector 原理与使用场景,11 万次阅读、1557 赞
它不完美,但"盲装"从此有了第一道关卡
NVIDIA 在文档里把工具的边界写得清楚:纯静态分析,没有动态沙箱执行;非英文内容可能漏报;图像内隐藏文本和二进制代码不在检测范围;LLM 阶段仍可能被精心构造的对抗样本绕过。
安全/红队类技能(漏洞率 67.4%)尤其需要人工介入——合法安全工具和伪装攻击者之间的那条线,机器还画不准。
但这份诚实本身反而让人信任。SkillSpector 没有假装自己是一把万能锁。它就是安装前的一道过滤器,把"读每一行代码"变成了"只读被标红的那几行"。
在一个 Agent 技能从实验玩具变成日常生产力工具的 2026 年,这道工序来得正是时候。
这跟 2016 年的 npm 一模一样
回到 2016 年,npm 生态爆发,left-pad 事件让所有人意识到:你依赖的每一个包,都可能在任何一个时刻引发安全灾难。那之后才有了npm audit、Socket.dev、Snyk 这些供应链安全工具。
Agent 技能生态正站在同一条线的起点。MCP 服务器、技能市场、社区共享仓库——安全基础设施几乎是一片空白。
NVIDIA 选择开源 SkillSpector,实际是在铺设 Agent 安全的第一块基建。SARIF 格式直接对接 GitHub Code Scanning,Apache 2.0 允许任何平台自由集成,Docker 消除了环境依赖——每一处设计都在降低生态接入成本。
技能签名、信誉系统、应用商店式审核,那些可能是下个阶段的事。
但安装前扫描这一关,SkillSpector 已经给了一个可以立刻落地的答案。
下次装技能之前,先扫一遍。
夜雨聆风