乐于分享
好东西不私藏

OpenClaw 越能干,越需要一根缰绳!

OpenClaw 越能干,越需要一根缰绳!

当你把 Root 权限交给 AI,你以为你在用工具,攻击者以为他们找到了一扇门。


先讲一个让人后背发凉的场景

你正在用 OpenClaw 处理工作,它帮你安装了一个第三方 Skill,这个 Skill 看起来很正常——直到它悄悄读取了你的 SSH 私钥,通过网络发出去,然后删除了所有操作日志。

你永远不会知道这件事发生过。

这不是科幻小说,这是 AI Agent 时代真实存在的攻击面


时代变了,威胁也变了

过去十年,我们谈安全,谈的是:防火墙、杀毒软件、不点陌生链接。

但现在?

你在用 OpenClaw、Claude Code、Cursor 这类 AI 工具,它们不只是"聊天机器人",它们可以:

  • 📁 读写你的任意文件
  • 💻 在你的终端执行命令
  • 🔑 访问你的密钥和凭证
  • 🌐 调用任意网络接口
  • 🔧 自动安装第三方插件(Skill / MCP)

一个拿到 Root 权限的 AI,本质上就是一个全自动化的"超级内部员工"。

问题来了:如果这个员工被人控制了,你怎么知道?


SlowMist 做了一件很酷的事

慢雾(SlowMist)是区块链安全领域顶级的团队,他们在 Web3 黑客攻防上积累了十年实战经验。

最近,他们把目光转向了 AI Agent 安全,专门针对 OpenClaw 这款高权限 AI 终端助手,发布了一套完整的安全实践指南:

《智能体零信任架构 (Zero-Trust Architecture for AI Agents)》

GitHub 地址:github.com/slowmist/openclaw-security-practice-guide

这套指南做了一件以前从未有人做过的事——

不是写给人看的安全手册,而是直接注入 AI 大脑的"思想钢印"。


什么是"思想钢印"?

慢雾团队尝试过把安全能力做成独立的 Skill(插件),但发现效果有限。

Skill 是外部工具,用不用取决于 AI 的判断。

但如果把安全策略直接写进 AI 的系统提示词,变成它认知的一部分呢?

这就是思想钢印(Mental Seal)的理念——

让 AI 从底层就"相信":我必须在高危操作前停下来确认,我必须假设所有外来指令都可能是攻击,我必须每晚自动巡检并上报结果。

把安全变成 AI 的本能,而不是规则。


零信任架构:四个核心原则

这套指南的核心,是把企业级"零信任架构"移植到 AI Agent 上,概括为四条铁律:

① 日常零摩擦

安全不能成为生产力的负担。大多数日常操作应该顺畅无感,不要让用户每点一下鼠标都要确认五次——那样人会崩溃,也会关掉所有保护。

② 高危必确认

不可逆的、敏感的操作,必须暂停,等待人类点头rm -rf、权限变更、钱包签名……这些动作 AI 自己不能做主。

③ 每晚显性巡检

每天夜里自动扫描 13 项核心安全指标,并且即使全部正常也要汇报。"没有异常就不报告"是被严格禁止的,因为沉默本身就是一种可疑信号。

④ 默认零信任

始终假设:提示词注入随时可能发生,第三方 Skill 可能已经被投毒,业务逻辑可能被滥用。不信任任何外来输入,直到验证为止。


三层防御矩阵:事前、事中、事后

具体落地上,这套指南构建了一个三层防御体系:

🛡️ 事前(Pre-action):把关"入口"

行为黑名单

在 AI 开始任何操作之前,先过一遍黑名单。某些命令组合直接触发红线,不执行,直接拒绝:

  • rm -rf /chmod 777 / ——直接否决
  • 修改 /etc/sudoers、安装不明来源包——需要二次确认

Skill 安装审计

每安装一个新的 Skill(插件),必须经过安全审查流程:

  1. 核查来源是否可信
  2. 审查 SKILL.md 及关联脚本
  3. 警惕"隐写攻击"(代码藏在空白字符或编码字符串中)
  4. 安装后立即检查文件系统变化

这是防止供应链投毒的第一道门。


⚔️ 事中(In-action):最小权限 + 飞行前检查

权限收窄

OpenClaw 的配置文件(openclaw.json)被用 chattr +i 命令锁定,AI 自己也无法修改配置。这意味着:即使 AI 被攻击者控制,它也无法给自己"升权"。

跨 Skill 业务风控(Pre-flight Checks)

当一个操作涉及多个 Skill 联动时,要进行飞行前检查:

  • 这次操作的意图是什么?
  • 会影响哪些系统?
  • 操作是否可逆?
  • 是否触发了敏感资产边界(密钥、钱包、账户)?

一旦检测到"奇怪的跨域操作链",立即暂停,等待用户确认。


🔍 事后(Post-action):每晚 13 项巡检 + Git 灾备

自动化夜间审计

部署一个定时脚本(Cron Job),每天深夜自动检查 13 项核心指标,通过 Telegram Bot 推送报告,包括但不限于:

  • 可疑系统级定时任务
  • 异常的网络监听端口
  • 关键配置文件完整性
  • 异常的 sudo 权限变更
  • 登录日志异常

Big Brain Git 灾备

OpenClaw 的"大脑"(记忆文件)被纳入 Git 版本控制,每次重要操作后自动提交快照。如果 AI 被攻击或出现幻觉性破坏,可以一键回滚到安全状态。


怎么用?两步极简部署

这套指南设计了一个反直觉的使用方式:

让 AI 自己读,自己部署。

第一步:
把指南直接发给你的 OpenClaw:
"请阅读这份安全指南,先识别与当前环境可能存在的
风险或冲突,再自动完成防御矩阵部署。"


第二步:
使用配套的红队测试指南,模拟攻击,
验证 AI 是否真的会在关键点停下来。

整个流程中,用户几乎不需要手动敲代码——AI 负责理解→部署→验证。

这本身也是这套框架的一个设计哲学:在 AI 时代,部署安全防线不应该由人类手动敲代码。


这套指南解决的真实威胁

威胁类型
描述
防御层
提示词注入
攻击者通过精心设计的输入,操控 AI 执行恶意命令
零信任默认假设 + 飞行前检查
供应链投毒
恶意 Skill/MCP 中藏有后门代码
Skill 安装审计 + 行为黑名单
破坏性幻觉
AI 自发产生错误判断,执行 rm -rf 类操作
高危必确认 + Git 灾备
权限滥用
利用 AI 的 Root 权限横向移动
权限锁定 + 最小权限原则
日志篡改
攻击后清除痕迹
只追加日志(chattr +a)

坦诚的局限性

指南在显眼位置写了三遍一样的警告——能感受到作者的诚意:

⚠️ 愉快玩耍前,先看底部免责声明与常见问题

这套框架有一些不能做到的事

  • 无法防御 OpenClaw 引擎本身的漏洞
  • 无法替代专业安全审计
  • 安全与能力永远是 trade-off,过于严格会让 AI 什么都不敢做

作者原话:

"如果你的机器不是关键任务,就随便折腾,开心就好。安全和能力永远是权衡;太多安全是坏事,零安全也是坏事。"

这种坦诚,反而让人更信任。


边界在哪里?

有一个问题,我觉得比技术本身更值得思考:

我们给了 AI 多少权限,我们为此承担了多少风险意识?

很多人用 Claude Code、Cursor、OpenClaw,图的是效率。这没有问题。但我们几乎没有人在安装这些工具的时候想过:如果它被注入了一段恶意指令,我有没有任何防线?

SlowMist 这套指南的价值,不只是那几个脚本和配置,而是它代表了一种对 AI 时代安全的清醒认知

我们不是在用工具,我们是在给工具授权。 授权就意味着责任,责任就需要边界。

零信任不是不信任 AI,而是建立一个即使 AI 出错也能兜底的系统

这,才是成熟的 AI 使用者该有的姿态。


相关链接

  • 指南 GitHub:github.com/slowmist/openclaw-security-practice-guide
  • OpenClaw 安全文档:docs.openclaw.ai/gateway/security