AI Agent 的风险,开始从模型转向Skill了,深度解析 OWASP Agentic Skills Top 10

随着 OpenClaw、Claude Code 以及各类 AI 智能体的爆火，我们正处于一个生产力爆发的节点。

从自动写代码、查资料，到跨应用操作工具、执行复杂业务流程，越来越多原本需要人手完成的任务，被交给了 Agent。效率的提升是直观的，但一个被明显低估的问题也随之浮现：

当 AI 不只是回答问题，而是开始替你做事时，真正决定行为安全性的，已经不再只是模型（Model），而是它调用的那些技能（Skill）。

最近，OWASP 发布了 Agentic Skills Top 10 (AST10) 项目。研究人员对当前生态中近 4000 个 Skill 进行了系统性扫描，结果令人心惊：超过 1/3 的 Skill 存在安全风险。

1 范式转移：从说错话到做错事

过去我们谈论 AI 安全，焦点大多集中在模型层。比如：

提示词注入（Prompt Injection）：如何诱导 AI 绕过道德准则。
幻觉风险： AI 一本正经地胡说八道。
内容合规：确保输出不包含敏感信息。

这些风险本质上属于认知层，即模型对信息的理解和生成是否可靠。

但随着 Agent 的普及，AI 具备了执行权。它不再只是提供建议，而是直接调用工具去操作系统、处理文件、连接 API。

风险重心由此发生了根本性转移：从单纯的信息输出可靠性演变为行为执行安全性。

一句话总结：以前我们怕 AI 说错话，现在我们怕 AI 做错事。

2 理解 Skill 的本质：隐藏的执行逻辑

在 Agent 架构中，Skill 表面上是功能扩展，但在技术底层，它更接近一段自动运行的执行逻辑。

一个典型的 Skill（如 OpenClaw 的 SKILL.md 或 Claude Code 的 skill.json）通常包含：

1.任务编排：定义了多步操作的逻辑。
2.外部通信：与第三方 API 或 Webhook 交互。
3.系统操作：读写本地文件、执行 Shell 脚本。

这意味着，当你为一个 Agent 安装 Skill 时，本质上是在执行一段由第三方提供的逻辑代码。由于 Agent 的调用往往是自动化的，这些逻辑极易在用户无感知的情况下触发，其风险模型更接近软件供应链攻击。

3 致命三要素：攻击链已经闭环

OWASP 在 AST10 项目中提出了一个关键的预判模型。当一个 Agent 同时具备以下三个能力时，一条完整的恶意攻击路径就已经成立：

访问私人数据：能读到你的 SSH 密钥、API 凭证或本地数据库。
接触不可信内容：能处理来自外部的邮件、Skill 说明文件或记忆文件。
能够外部通信：拥有网络出口，可以将数据外发。

目前市面上主流的 Agent 工具，几乎全部满足这三个条件。

这意味着风险不再是理论，而是结构性的威胁。

4 深度拆解：AST10 风险全景图

我们将这十项风险分为三大维度。每一个风险点都对应着 Agent 架构中的一个脆弱环节。

4.1 维度一：来源与供应链（谁给 AI 递的刀子？）

4.1.1 AST01：恶意技能 (Malicious Skills)

定义：开发者故意创建并发布包含恶意攻击逻辑的 Skill。

深度解析：攻击者利用功能诱饵诱导用户安装。这是最底层的信任崩塌。

实战场景 (ClawHavoc 运动)： 2026 年初爆发的大规模 AI 智能体供应链攻击事件。黑客在 OpenClaw 平台的技能市场 ClawHub 中批量上传了包括 web-research-pro 在内的上千个恶意技能。该技能伪装成网页总结类工具，在用户调用其执行任务时，利用 Agent 已获取的浏览器高权限，静默扫描用户本地环境，窃取并打包 GitHub 私有仓库、SSH 密钥等信息外传。由于平台审核缺失，该攻击短时间内波及大量开发者。

4.1.2 AST02：供应链风险 (Supply Chain Compromise)

定义：技能依赖的第三方库（如 Python/JS 包）或托管平台遭到篡改。

深度解析：技能本身看起来合法，但它像套娃一样引入了有毒的底层依赖。

实战场景：在 Snyk 的审计中发现，大量处理 Excel 的技能引用了过时的第三方库。攻击者通过在公共仓库发布同名的高版本毒包，诱导 Agent 环境自动升级。当技能处理财务报表时，恶意代码会嗅探报表中的账户余额和交易 ID 并同步到匿名服务器。

4.1.3 AST04：不安全元数据 (Insecure Metadata)

定义：技能的描述信息（Manifest/YAML）被伪造，导致 Agent 误用。

深度解析： Agent 靠自然语言匹配工具。攻击者通过SEO 优化让自己的恶意工具排在匹配首位。

实战场景：攻击者发布恶意技能并将其描述配置为与官方“财务助手”高度重合。用户发出“分析工资表”指令时，模型因描述匹配度更高而误选了恶意工具，导致敏感薪酬数据被发往不可信终端。

4.2 维度二：运行时权限与隔离（AI 的手脚戴手铐了吗？）

4.2.1 AST03：过度授权 (Over-Privileged Skills)

定义：授予技能的权限远超其任务所需（例如只需读，却给写）。

深度解析：这是目前最普遍的系统性缺陷，极大放大了 Prompt Injection（提示词注入）的破坏力。

实战场景：一个只需读取 Git 日志的统计技能被授予了 System:Write 权限。黑客通过一段恶意的 README 注入指令，命令 Agent 调用该技能删除了生产环境的配置文件。

4.2.2 AST06：弱隔离性 (Weak Isolation)

定义：技能直接在宿主机环境运行，缺乏沙箱（Sandbox）保护。

深度解析：如果没有强隔离，技能中的一段代码就能通过执行 Shell 指令直接控制你的电脑。

实战案例 (CVE-2025-59536)：在针对 Claude Code 的研究中发现，由于默认信任本地加载的技能且缺乏路径隔离，攻击者可以通过构造特殊的 skill.json 触发远程代码执行（RCE），直接接管开发者的终端。

4.2.3 AST10：跨平台复用风险 (Cross-Platform Reuse)

定义：技能在不同 Agent 框架（如 MCP 转 OpenClaw）迁移时，原有的安全约束失效。

深度解析：不同平台对权限的定义和解析逻辑不同，导致在 A 平台受控的动作，在 B 平台变成了高危越权。

实战场景：一个在企业内网受限运行的本地 Skill，被开发者简单适配后发布到云端 Agent 平台，由于云端缺乏同等的内网防火墙策略，导致该 Skill 变成了扫描企业内网的跳板。

4.3 维度三：逻辑与合规治理（AI 真的在按章办事吗？）

4.3.1 AST05：不安全反序列化 (Unsafe Deserialization)

定义：技能解析 Agent 传来的结构化参数（JSON/YAML）时存在逻辑漏洞。

深度解析：攻击者绕过模型过滤，直接给 Skill 解析器喂毒药。

实战场景：攻击者在对话中夹带一段精心构造的恶意 JSON 参数。当模型将其原封不动转发给 Skill 里的 Python 解析器时，触发了代码注入，黑客绕过 LLM 限制直接控制了后台进程。

4.3.2 AST07：更新偏移 (Update Drift)

定义：技能逻辑在更新后发生非预期变化，甚至悄悄增加了高危功能。

深度解析：安全审计具有时效性。昨天的安全 Skill，可能因为今天的功能迭代引入隐私泄露。

实战场景：某办公 Skill 更新到 v1.2 后，默认开启了操作录制以优化模型功能，导致用户的屏幕截图和剪贴板内容被自动上传到第三方服务器。

4.3.3 AST08：扫描不足 (Poor Scanning)

定义：组织对引入的 Skill 缺乏自动化的静态和动态安全审计。

深度解析：仅仅依靠人工复核无法覆盖自然语言驱动的代码逻辑。

实战场景：企业内部部署了数百个提高效率的开源 Skill，但由于没有集成到 CI/CD 的扫描流程中，导致一个包含已知 CVE 漏洞的过时 Skill 成了黑客进入内网的后门。

4.3.4 AST09：治理缺失 (No Governance)

定义：缺乏 Skill 资产清单、审批流程和审计日志记录。

深度解析：这是典型的影子 AI管理风险。

实战场景：某公司发生敏感数据泄露，但由于 Agent 调用的所有 Skill 都没有留存调用日志（Log），安全团队无法确定究竟是哪个员工使用的哪款插件泄露了数据。

5 安全新边界：从提示词过滤到行为治理

AST10 的发布标志着 Skill 正在成为 AI 架构中一个独立的防御层。

在过去，安全边界在防火墙；在 LLM 时代，边界在提示词过滤；而在 Agent 时代，安全边界下沉到了执行转发的那一秒。

当编排层（Orchestrator）决定调用 Skill 时，它必须回答三个问题：

1.这个 Skill 的身份可信吗？（签名校验）
2.这个操作经过授权了吗？（最小权限原则）
3.执行环境安全吗？（沙箱隔离）

写在最后

AI Agent 的发展，让系统从辅助理解走向自动执行。在这个过程中，Skill 成为了连接模型与现实世界的关键桥梁，但也成为了新的风险重灾区。

正如 OWASP 所警示的，AI 安全的问题正从“认知错误”转向“执行错误”。这类错误往往更直接、破坏力更大，且在自动化的外壳下更难被肉眼察觉。

理解 Skill 的本质，不再盲目信任第三方的能力扩展，将是我们在智能体时代保护数据安全的第一道防线。

学废了或有启发，别忘了顺手给我点个赞、在看、转发，三连～因为你的反馈真的很重要！如果想第一时间收到推送，也可以给我个星标⭐