AI Agent 的风险,开始从模型转向Skill了,深度解析 OWASP Agentic Skills Top 10
随着 OpenClaw、Claude Code 以及各类 AI 智能体的爆火,我们正处于一个生产力爆发的节点。
从自动写代码、查资料,到跨应用操作工具、执行复杂业务流程,越来越多原本需要人手完成的任务,被交给了 Agent。效率的提升是直观的,但一个被明显低估的问题也随之浮现:
当 AI 不只是回答问题,而是开始替你做事时,真正决定行为安全性的,已经不再只是模型(Model),而是它调用的那些技能(Skill)。
最近,OWASP 发布了 Agentic Skills Top 10 (AST10) 项目。研究人员对当前生态中近 4000 个 Skill 进行了系统性扫描,结果令人心惊:超过 1/3 的 Skill 存在安全风险。
1 范式转移:从说错话到做错事

过去我们谈论 AI 安全,焦点大多集中在模型层。比如:
-
提示词注入(Prompt Injection): 如何诱导 AI 绕过道德准则。
-
幻觉风险: AI 一本正经地胡说八道。
-
内容合规: 确保输出不包含敏感信息。
这些风险本质上属于认知层,即模型对信息的理解和生成是否可靠。
但随着 Agent 的普及,AI 具备了执行权。它不再只是提供建议,而是直接调用工具去操作系统、处理文件、连接 API。
风险重心由此发生了根本性转移:从单纯的信息输出可靠性演变为行为执行安全性。
一句话总结:以前我们怕 AI 说错话,现在我们怕 AI 做错事。
2 理解 Skill 的本质:隐藏的执行逻辑
在 Agent 架构中,Skill 表面上是功能扩展,但在技术底层,它更接近一段自动运行的执行逻辑。

一个典型的 Skill(如 OpenClaw 的 SKILL.md 或 Claude Code 的 skill.json)通常包含:
- 1.任务编排: 定义了多步操作的逻辑。
- 2.外部通信: 与第三方 API 或 Webhook 交互。
- 3.系统操作: 读写本地文件、执行 Shell 脚本。
这意味着,当你为一个 Agent 安装 Skill 时,本质上是在执行一段由第三方提供的逻辑代码。由于 Agent 的调用往往是自动化的,这些逻辑极易在用户无感知的情况下触发,其风险模型更接近软件供应链攻击。
3 致命三要素:攻击链已经闭环
OWASP 在 AST10 项目中提出了一个关键的预判模型。当一个 Agent 同时具备以下三个能力时,一条完整的恶意攻击路径就已经成立:
-
访问私人数据: 能读到你的 SSH 密钥、API 凭证或本地数据库。
-
接触不可信内容: 能处理来自外部的邮件、Skill 说明文件或记忆文件。
-
能够外部通信: 拥有网络出口,可以将数据外发。

目前市面上主流的 Agent 工具,几乎全部满足这三个条件。
这意味着风险不再是理论,而是结构性的威胁。
4 深度拆解:AST10 风险全景图
我们将这十项风险分为三大维度。每一个风险点都对应着 Agent 架构中的一个脆弱环节。

4.1 维度一:来源与供应链(谁给 AI 递的刀子?)
4.1.1 AST01:恶意技能 (Malicious Skills)
定义: 开发者故意创建并发布包含恶意攻击逻辑的 Skill。
深度解析: 攻击者利用功能诱饵诱导用户安装。这是最底层的信任崩塌。
实战场景 (ClawHavoc 运动): 2026 年初爆发的大规模 AI 智能体供应链攻击事件。黑客在 OpenClaw 平台的技能市场 ClawHub 中批量上传了包括 web-research-pro 在内的上千个恶意技能。该技能伪装成网页总结类工具,在用户调用其执行任务时,利用 Agent 已获取的浏览器高权限,静默扫描用户本地环境,窃取并打包 GitHub 私有仓库、SSH 密钥等信息外传。由于平台审核缺失,该攻击短时间内波及大量开发者。
4.1.2 AST02:供应链风险 (Supply Chain Compromise)
定义: 技能依赖的第三方库(如 Python/JS 包)或托管平台遭到篡改。
深度解析: 技能本身看起来合法,但它像套娃一样引入了有毒的底层依赖。
实战场景: 在 Snyk 的审计中发现,大量处理 Excel 的技能引用了过时的第三方库。攻击者通过在公共仓库发布同名的高版本毒包,诱导 Agent 环境自动升级。当技能处理财务报表时,恶意代码会嗅探报表中的账户余额和交易 ID 并同步到匿名服务器。
4.1.3 AST04:不安全元数据 (Insecure Metadata)
定义: 技能的描述信息(Manifest/YAML)被伪造,导致 Agent 误用。
深度解析: Agent 靠自然语言匹配工具。攻击者通过SEO 优化让自己的恶意工具排在匹配首位。
实战场景: 攻击者发布恶意技能并将其描述配置为与官方“财务助手”高度重合。用户发出“分析工资表”指令时,模型因描述匹配度更高而误选了恶意工具,导致敏感薪酬数据被发往不可信终端。
4.2 维度二:运行时权限与隔离(AI 的手脚戴手铐了吗?)
4.2.1 AST03:过度授权 (Over-Privileged Skills)
定义: 授予技能的权限远超其任务所需(例如只需读,却给写)。
深度解析: 这是目前最普遍的系统性缺陷,极大放大了 Prompt Injection(提示词注入)的破坏力。
实战场景: 一个只需读取 Git 日志的统计技能被授予了 System:Write 权限。黑客通过一段恶意的 README 注入指令,命令 Agent 调用该技能删除了生产环境的配置文件。
4.2.2 AST06:弱隔离性 (Weak Isolation)
定义: 技能直接在宿主机环境运行,缺乏沙箱(Sandbox)保护。
深度解析: 如果没有强隔离,技能中的一段代码就能通过执行 Shell 指令直接控制你的电脑。
实战案例 (CVE-2025-59536): 在针对 Claude Code 的研究中发现,由于默认信任本地加载的技能且缺乏路径隔离,攻击者可以通过构造特殊的 skill.json 触发远程代码执行(RCE),直接接管开发者的终端。
4.2.3 AST10:跨平台复用风险 (Cross-Platform Reuse)
定义: 技能在不同 Agent 框架(如 MCP 转 OpenClaw)迁移时,原有的安全约束失效。
深度解析: 不同平台对权限的定义和解析逻辑不同,导致在 A 平台受控的动作,在 B 平台变成了高危越权。
实战场景: 一个在企业内网受限运行的本地 Skill,被开发者简单适配后发布到云端 Agent 平台,由于云端缺乏同等的内网防火墙策略,导致该 Skill 变成了扫描企业内网的跳板。
4.3 维度三:逻辑与合规治理(AI 真的在按章办事吗?)
4.3.1 AST05:不安全反序列化 (Unsafe Deserialization)
定义: 技能解析 Agent 传来的结构化参数(JSON/YAML)时存在逻辑漏洞。
深度解析: 攻击者绕过模型过滤,直接给 Skill 解析器喂毒药。
实战场景: 攻击者在对话中夹带一段精心构造的恶意 JSON 参数。当模型将其原封不动转发给 Skill 里的 Python 解析器时,触发了代码注入,黑客绕过 LLM 限制直接控制了后台进程。
4.3.2 AST07:更新偏移 (Update Drift)
定义: 技能逻辑在更新后发生非预期变化,甚至悄悄增加了高危功能。
深度解析: 安全审计具有时效性。昨天的安全 Skill,可能因为今天的功能迭代引入隐私泄露。
实战场景: 某办公 Skill 更新到 v1.2 后,默认开启了操作录制以优化模型功能,导致用户的屏幕截图和剪贴板内容被自动上传到第三方服务器。
4.3.3 AST08:扫描不足 (Poor Scanning)
定义: 组织对引入的 Skill 缺乏自动化的静态和动态安全审计。
深度解析: 仅仅依靠人工复核无法覆盖自然语言驱动的代码逻辑。
实战场景: 企业内部部署了数百个提高效率的开源 Skill,但由于没有集成到 CI/CD 的扫描流程中,导致一个包含已知 CVE 漏洞的过时 Skill 成了黑客进入内网的后门。
4.3.4 AST09:治理缺失 (No Governance)
定义: 缺乏 Skill 资产清单、审批流程和审计日志记录。
深度解析: 这是典型的影子 AI管理风险。
实战场景: 某公司发生敏感数据泄露,但由于 Agent 调用的所有 Skill 都没有留存调用日志(Log),安全团队无法确定究竟是哪个员工使用的哪款插件泄露了数据。
5 安全新边界:从提示词过滤到行为治理
AST10 的发布标志着 Skill 正在成为 AI 架构中一个独立的防御层。
在过去,安全边界在防火墙;在 LLM 时代,边界在提示词过滤;而在 Agent 时代,安全边界下沉到了执行转发的那一秒。

当编排层(Orchestrator)决定调用 Skill 时,它必须回答三个问题:
- 1.这个 Skill 的身份可信吗?(签名校验)
- 2.这个操作经过授权了吗?(最小权限原则)
- 3.执行环境安全吗?(沙箱隔离)
写在最后
AI Agent 的发展,让系统从辅助理解走向自动执行。在这个过程中,Skill 成为了连接模型与现实世界的关键桥梁,但也成为了新的风险重灾区。
正如 OWASP 所警示的,AI 安全的问题正从“认知错误”转向“执行错误”。这类错误往往更直接、破坏力更大,且在自动化的外壳下更难被肉眼察觉。
理解 Skill 的本质,不再盲目信任第三方的能力扩展,将是我们在智能体时代保护数据安全的第一道防线。
学废了或有启发,别忘了顺手给我点个赞、在看、转发,三连~因为你的反馈真的很重要!如果想第一时间收到推送,也可以给我个星标⭐
夜雨聆风