当你把 Root 权限交给 AI,你以为你在用工具,攻击者以为他们找到了一扇门。
先讲一个让人后背发凉的场景
你正在用 OpenClaw 处理工作,它帮你安装了一个第三方 Skill,这个 Skill 看起来很正常——直到它悄悄读取了你的 SSH 私钥,通过网络发出去,然后删除了所有操作日志。
你永远不会知道这件事发生过。
这不是科幻小说,这是 AI Agent 时代真实存在的攻击面。
时代变了,威胁也变了
过去十年,我们谈安全,谈的是:防火墙、杀毒软件、不点陌生链接。
但现在?
你在用 OpenClaw、Claude Code、Cursor 这类 AI 工具,它们不只是"聊天机器人",它们可以:
📁 读写你的任意文件 💻 在你的终端执行命令 🔑 访问你的密钥和凭证 🌐 调用任意网络接口 🔧 自动安装第三方插件(Skill / MCP)
一个拿到 Root 权限的 AI,本质上就是一个全自动化的"超级内部员工"。
问题来了:如果这个员工被人控制了,你怎么知道?
SlowMist 做了一件很酷的事
慢雾(SlowMist)是区块链安全领域顶级的团队,他们在 Web3 黑客攻防上积累了十年实战经验。
最近,他们把目光转向了 AI Agent 安全,专门针对 OpenClaw 这款高权限 AI 终端助手,发布了一套完整的安全实践指南:
《智能体零信任架构 (Zero-Trust Architecture for AI Agents)》
GitHub 地址:github.com/slowmist/openclaw-security-practice-guide
这套指南做了一件以前从未有人做过的事——
不是写给人看的安全手册,而是直接注入 AI 大脑的"思想钢印"。
什么是"思想钢印"?
慢雾团队尝试过把安全能力做成独立的 Skill(插件),但发现效果有限。
Skill 是外部工具,用不用取决于 AI 的判断。
但如果把安全策略直接写进 AI 的系统提示词,变成它认知的一部分呢?
这就是思想钢印(Mental Seal)的理念——
让 AI 从底层就"相信":我必须在高危操作前停下来确认,我必须假设所有外来指令都可能是攻击,我必须每晚自动巡检并上报结果。
把安全变成 AI 的本能,而不是规则。
零信任架构:四个核心原则
这套指南的核心,是把企业级"零信任架构"移植到 AI Agent 上,概括为四条铁律:
① 日常零摩擦
安全不能成为生产力的负担。大多数日常操作应该顺畅无感,不要让用户每点一下鼠标都要确认五次——那样人会崩溃,也会关掉所有保护。
② 高危必确认
不可逆的、敏感的操作,必须暂停,等待人类点头。rm -rf、权限变更、钱包签名……这些动作 AI 自己不能做主。
③ 每晚显性巡检
每天夜里自动扫描 13 项核心安全指标,并且即使全部正常也要汇报。"没有异常就不报告"是被严格禁止的,因为沉默本身就是一种可疑信号。
④ 默认零信任
始终假设:提示词注入随时可能发生,第三方 Skill 可能已经被投毒,业务逻辑可能被滥用。不信任任何外来输入,直到验证为止。
三层防御矩阵:事前、事中、事后
具体落地上,这套指南构建了一个三层防御体系:
🛡️ 事前(Pre-action):把关"入口"
行为黑名单
在 AI 开始任何操作之前,先过一遍黑名单。某些命令组合直接触发红线,不执行,直接拒绝:
rm -rf /、chmod 777 /——直接否决修改 /etc/sudoers、安装不明来源包——需要二次确认
Skill 安装审计
每安装一个新的 Skill(插件),必须经过安全审查流程:
核查来源是否可信 审查 SKILL.md及关联脚本警惕"隐写攻击"(代码藏在空白字符或编码字符串中) 安装后立即检查文件系统变化
这是防止供应链投毒的第一道门。
⚔️ 事中(In-action):最小权限 + 飞行前检查
权限收窄
OpenClaw 的配置文件(openclaw.json)被用 chattr +i 命令锁定,AI 自己也无法修改配置。这意味着:即使 AI 被攻击者控制,它也无法给自己"升权"。
跨 Skill 业务风控(Pre-flight Checks)
当一个操作涉及多个 Skill 联动时,要进行飞行前检查:
这次操作的意图是什么? 会影响哪些系统? 操作是否可逆? 是否触发了敏感资产边界(密钥、钱包、账户)?
一旦检测到"奇怪的跨域操作链",立即暂停,等待用户确认。
🔍 事后(Post-action):每晚 13 项巡检 + Git 灾备
自动化夜间审计
部署一个定时脚本(Cron Job),每天深夜自动检查 13 项核心指标,通过 Telegram Bot 推送报告,包括但不限于:
可疑系统级定时任务 异常的网络监听端口 关键配置文件完整性 异常的 sudo 权限变更 登录日志异常
Big Brain Git 灾备
OpenClaw 的"大脑"(记忆文件)被纳入 Git 版本控制,每次重要操作后自动提交快照。如果 AI 被攻击或出现幻觉性破坏,可以一键回滚到安全状态。
怎么用?两步极简部署
这套指南设计了一个反直觉的使用方式:
让 AI 自己读,自己部署。
第一步:
把指南直接发给你的 OpenClaw:
"请阅读这份安全指南,先识别与当前环境可能存在的
风险或冲突,再自动完成防御矩阵部署。"
第二步:
使用配套的红队测试指南,模拟攻击,
验证 AI 是否真的会在关键点停下来。
整个流程中,用户几乎不需要手动敲代码——AI 负责理解→部署→验证。
这本身也是这套框架的一个设计哲学:在 AI 时代,部署安全防线不应该由人类手动敲代码。
这套指南解决的真实威胁
rm -rf 类操作 | ||
坦诚的局限性
指南在显眼位置写了三遍一样的警告——能感受到作者的诚意:
⚠️ 愉快玩耍前,先看底部免责声明与常见问题
这套框架有一些不能做到的事:
无法防御 OpenClaw 引擎本身的漏洞 无法替代专业安全审计 安全与能力永远是 trade-off,过于严格会让 AI 什么都不敢做
作者原话:
"如果你的机器不是关键任务,就随便折腾,开心就好。安全和能力永远是权衡;太多安全是坏事,零安全也是坏事。"
这种坦诚,反而让人更信任。
边界在哪里?
有一个问题,我觉得比技术本身更值得思考:
我们给了 AI 多少权限,我们为此承担了多少风险意识?
很多人用 Claude Code、Cursor、OpenClaw,图的是效率。这没有问题。但我们几乎没有人在安装这些工具的时候想过:如果它被注入了一段恶意指令,我有没有任何防线?
SlowMist 这套指南的价值,不只是那几个脚本和配置,而是它代表了一种对 AI 时代安全的清醒认知:
我们不是在用工具,我们是在给工具授权。 授权就意味着责任,责任就需要边界。
零信任不是不信任 AI,而是建立一个即使 AI 出错也能兜底的系统。
这,才是成熟的 AI 使用者该有的姿态。
相关链接
指南 GitHub: github.com/slowmist/openclaw-security-practice-guideOpenClaw 安全文档: docs.openclaw.ai/gateway/security
夜雨聆风