乐于分享
好东西不私藏

OpenClaw 携手 NVIDIA:构建更强大的 Agent 技能安全体系

OpenClaw 携手 NVIDIA:构建更强大的 Agent 技能安全体系

原文:https://openclaw.ai/blog/openclaw-nvidia-skill-security来源:OpenClaw 官方博客


引言:Agent 技能文件为何不安全?

Agent 技能文件(skill files)一直背负着”不安全”的名声,而这个名声是实打实挣来的。

当 OpenClaw 推出 ClawHub 时,我们立刻就成了攻击者的目标——有人尝试发布捆绑了已知恶意软件的技能。我们与 VirusTotal 合作,自动标记这些技能并封禁发布者。

但传统的恶意软件扫描是一个相对成熟的问题。识别 Agent 智能体风险(agentic risk)则不是。

一个技能可以声称”汇总你的日志”,却捆绑一个脚本把你的数据传走。一个善意的技能可能让 Agent 调用一个 CLI,在错误参数下抹掉生产环境。

这两者都不属于传统意义上的恶意软件,也不是病毒扫描器设计来捕捉的对象。

所以在安装一个技能之前,你真的需要知道三件事:

  1. 1. 它声称能做什么
  2. 2. 捆绑的代码是否真的与声称一致
  3. 3. 万一出问题时,爆炸半径有多大

在生态规模上回答这些问题,是 ClawHub 使命的核心。要充分发挥 OpenClaw 的能力,用户需要信任他们安装的技能和插件都经过彻底审查。


ClawScan 流水线

我们最初建立信任的尝试是:让一个 Codex Agent 被提示去查找 OWASP 智能体风险。它确实有效,也确实抓住了真正的恶意行为者。但这是一个闭源工作,而智能体风险问题太新、变化太快,单一注册中心难以独自防御。

因此,我们正在与 NVIDIA 合作,开展其 “已验证的 Agent 技能计划”(verified agent skills initiative),在开放中完成这项工作。

每个流入 ClawHub 的技能,在发布之前都会经过预目录验证关卡(pre-catalog verification gate):

技能发布新版本    ↓OpenAI Codex Agent 接收三个独立扫描器的输出作为上下文:  • 我们的静态分析  • VirusTotal  • NVIDIA SkillSpector    ↓【评估步骤:ClawScan】综合三者的发现,连同来源、元数据、审核历史一起权衡    ↓生成 Skill Card + 最终判定:Clean / Suspicious / Malicious

NVIDIA Skill Cards 与 SkillSpector 合作

这个安全流程中有两个新环节,两个都来自 NVIDIA 合作。

🎴 NVIDIA Skill Cards

NVIDIA Skill Cards 是一份开放的”信任工件”(trust-artifact)规范,现在每份发布的技能都附带该卡片。

每张卡片告诉你:

  • • 谁发布的(Who published it)
  • • 能做什么(What it can do)
  • • ClawScan 发现了什么(What ClawScan found)
  • • 确切的来源(Exactly where it came from)

这些信息都由 ClawHub 验证,不是从发布者的自我描述中照搬。你可以在技能详情页的标签页中阅读,也可以在终端用以下命令查看:

openclaw skills verify <slug> --card

🔍 NVIDIA SkillSpector

SkillSpector 是一款全新的 Agent 技能扫描器。它结合静态检查与 AI 辅助的语义分析,能够标记恶意软件扫描器遗漏的风险:

  • • 隐藏指令(hidden instructions)
  • • 危险代码路径(risky code paths)
  • • 过度宽泛的能力(overbroad capabilities)
  • • 依赖项问题(dependency issues)
  • • 技能声明的用途与实际行为不匹配

在 ClawHub 中,SkillSpector 的发现以”安全公告”形式展示,并不会自动阻止一个技能。ClawScan 会将它们与其他信号一起权衡,然后再下结论。


初次扫描结果:我们都错了

我们的假设是:这三个扫描器的结果应该高度重合

结果恰恰相反——它们几乎不重合。

扫描器组合
共同阳性
Jaccard 一致率
VirusTotal 与 SkillSpector
3,286
0.094
静态分析与 SkillSpector
3,511
0.104
静态分析与 VirusTotal
586
0.065

没有任何一对扫描器在其合并阳性中的一致率超过 10.4%。

更惊人的数据:

  • • 只有 468 个技能(占 0.69%)被三个扫描器同时标记
  • • 81.9% 的阳性发现仅来自单个扫描器

各扫描器的强项各不相同

扫描器
阳性行数
占比
风险面
SkillSpector
32,856
48.71%
智能体风险
VirusTotal
5,225
7.75%
恶意软件信誉
静态分析
4,434
6.57%
危险代码模式

在 25,504 个 ClawScan 判定为 Suspicious 的技能中,SkillSpector 阳性 19,209 个(75.3%)。

但在 206 个 Malicious 判定中,情况反转:VirusTotal 阳性 150 个(72.8%),而 SkillSpector 仅阳性 14 个(6.8%)。

核心洞察

这些差异不是某个扫描器有问题,而是每个扫描器都覆盖不同的风险面。

  • • VirusTotal 看的是恶意软件信誉
  • • 静态分析看的是危险代码模式
  • • SkillSpector 看的是智能体风险

区分”风险面广的技能”和”真正恶意的技能”是一个全新挑战。这正是我们需要 ClawScan 这种 LLM-as-judge 的根本原因

举一个具体例子:有一个技能被 SkillSpector 标记了 173 项发现,但 ClawScan 仍然将其判为 Suspicious 而非 Malicious——这种细致判断,只有 LLM 评审员才能做到。


开源我们的安全扫描信号数据集

ClawHub 对技能安全的承诺不会止步于我们自己的注册中心。整个社区在我们分享知识时变得更安全。

作为最受欢迎的技能注册中心之一,我们现在每天在数千个发布事件上运行完整的 ClawScan 套件,过程中消耗了数百万个 LLM token(OpenAI GPT-5.5)

v1 数据集涵盖了 67,453 个最新公开技能版本。这本身就在产生大量对安全研究社区极具价值的信号,但至今这些信号一直被锁在 ClawHub 内部。

📦 今天,我们发布完整数据集

Hugging FaceOpenClaw/clawhub-security-signals[1]

特别感谢来自 NVIDIA 的 Jacob Tomlinson、Agustin Rivera 和 Michael Appel 对本项目的贡献。


结语

我们希望这能帮助更广泛的研究社区与我们一起推动技能安全工具的发展。

这项工作是 ClawHub 使命的核心——保护整个 Agent 技能生态——也是对更广泛 AI 生态系统的支持。

🌊 潮水涨起,托起所有钳子。A rising tide lifts all claws. 🦞


本文由 钱小电 根据 OpenClaw 官方博客翻译整理发布

引用链接

[1] `OpenClaw/clawhub-security-signals`: https://huggingface.co/datasets/OpenClaw/clawhub-security-signals

——关注我,获取OpenClaw最新更新解析、使用技巧,解锁AI助手更多隐藏功能✨