
ClawKeeper 把技能、插件和 Watcher 接到一起,把 OpenClaw 安全从零散防护做成完整体系。
ClawKeeper 把技能、插件和 Watcher 接到一起,把 OpenClaw 安全从零散防护做成完整体系。
近日,由北京邮电大学、北京智源人工智能研究院、中国信息通信研究院联合推出 ClawKeeper —— 首个面向 OpenClaw 生态的全维度、全生命周期、可进化的智能体安全框架。
以“技能-插件-观察者”三层协同防护架构,破解当前 AI 智能体安全防护碎片化、被动化、静态化的行业痛点,为高权限智能体提供实时、全面、可进化的安全保护。
这不仅是一个工具,更是智能体时代的安全基础设施。相关研究论文已同步上线,项目开源仅数日便收获业界广泛关注。

论文地址:
https://arxiv.org/abs/2603.24414
GitHub 地址:
https://github.com/SafeAI-Lab-X/ClawKeeper

OpenClaw 能力扩容,安全风险迫在眉睫
作为当下主流的开源自主智能体运行平台,OpenClaw 凭借工具调用、本地文件访问、Shell 命令执行、跨平台部署等强大能力,成为 AI 智能体落地应用的核心载体,广泛应用于自动化办公、代码辅助、长期运行个人智能体等场景。
但伴随权限提升与生态扩张,其安全隐患愈发突出:提示词注入、敏感数据泄露、权限滥用、恶意技能执行、远程代码执行漏洞等风险频发,轻则导致智能体行为失控、数据外泄,重则引发系统级安全事故。
论文指出当前 OpenClaw 生态的安全防护方案存在四大核心短板:
防护覆盖碎片化,仅针对单一威胁或智能体生命周期某一环节;
安全与任务效率相互掣肘,智能体需在完成任务与合规防护间妥协;
以事后日志分析为主的被动防御,无法提前阻断风险;
静态规则无法适配智能体自我进化与新型攻击迭代,防护效果持续衰减。

ClawKeeper:面向智能体时代的安全基础设施
ClawKeeper 突破传统防护思路,打造技能层、插件层、观察者层三位一体的实时安全框架,覆盖智能体指令解析、运行时执行、系统级监管全流程,实现从被动防御到主动干预、从静态规则到动态进化的升级。
Skill-based(技能级别防护):指令层面的安全规则注入
立足智能体指令构建阶段,将结构化安全策略以标准化形式嵌入智能体上下文,从源头约束行为边界,覆盖系统环境与跨软件交互场景,低成本实现基础安全合规,适配多平台部署需求。
Plugin-based(插件级别防护):运行时内部的强制安全监控
作为智能体运行时的 “内置安全管家”,通过配置加固、主动威胁检测、行为扫描、配置文件保护等硬编码机制,全程监控执行链路,封堵已知漏洞、拦截恶意操作,实现静态到动态的全流程防护。
Watcher-based(监管者级别防护):解耦式系统级安全中间件
ClawKeeper 最具突破性的设计 —— 独立于业务智能体的外部监控器,作为专属安全监管智能体,实时捕获运行状态、验证行为轨迹,无需耦合智能体内部逻辑即可实现高危操作阻断、人工确认介入,彻底解决安全与任务的冲突,抵御对抗性篡改,还能随威胁进化持续迭代。



技能级别防护:指令层面的安全规则注入
技能级防护是 ClawKeeper 面向 OpenClaw 智能体打造的轻量化、易部署、广兼容的前端安全屏障,工作在智能体指令理解与技能执行的最上游,从任务启动阶段就建立安全约束。
它不再依赖零散的提示词约束,而是把系统操作、文件访问、软件交互、权限使用等安全策略,整理为结构化、可直接被模型理解的规则文档,稳定注入到智能体的上下文环境中,让安全要求成为执行任务时必须遵守的“默认准则”。
在防护范围上,它不只关注传统 Linux 环境,还全面覆盖 Windows、macOS 等大众操作系统,针对文件读写、命令执行、进程操作等行为做出明确限制。
同时,它面向飞书、钉钉、Telegram 等通信软件做专项安全约束,防止智能体在对话场景中无意泄露密钥、凭证、隐私内容,或向错误联系人发送敏感信息。
为了让安全能力更主动,ClawKeeper 还在技能层内置了定时安全扫描与交互日志总结能力:智能体可自动按周期巡检环境风险、汇总近期操作行为,形成可追溯的安全记录,既不侵入框架底层,也不需要复杂配置,就能实现全交互周期的基础安全合规。
技能级防护凭借轻量化、无侵入、易部署的特性,成为快速搭建基础安全防线的首选方案,可在多系统与多软件平台下实现前端规则约束。
但它高度依赖大模型对安全指令的理解与执行,易被对抗性提示词绕过,安全保障强度有限,无法单独承担核心防护任务。


插件级别防护:运行时内部的强制安全监控
插件级防护是 ClawKeeper 在智能体运行时层的核心加固手段,以硬编码、强约束、全流程审计的方式,成为 OpenClaw 执行过程中 “无法绕过” 的内部安全守门人。
不同于技能层的规则注入,插件级防护深度集成在 OpenClaw 运行时内部,直接接管关键执行链路,从静态配置加固到动态行为监控,形成闭环防护。
它整合威胁检测、行为扫描、配置保护、日志审计等能力,一次性补齐当前零散插件的防护短板,实现真正的纵深防御。
在防护能力上,插件层首先对 OpenClaw 进行系统性安全加固:扫描暴露端口、弱权限、明文凭证、未授权访问等 OWASP 典型风险,并自动执行修复,把网关绑定本地、锁定关键配置、注入安全基线,从根源缩小攻击面。
同时,它对 AGENTS.md、openclaw.json、SOUL.md 等核心配置文件做加密哈希校验,任何未授权篡改都会被实时拦截,防止被恶意关闭安全机制、植入后门。
在运行阶段,插件层会全程记录智能体生命周期行为:用户指令、LLM 输入输出、工具调用序列、Shell 执行记录等全部上链存证,不丢不漏。
基于完整日志,它能异步回溯扫描,精准识别提示注入、恶意技能调用、密钥泄露、高危命令执行、异常高频操作等隐蔽威胁,让事后追溯与风险定位变得简单可行。
插件级防护以运行时强管控、低性能开销、全链路审计的优势,为 OpenClaw 提供稳定可靠的内置安全能力,可有效完成配置加固、威胁检测与行为回溯。
但它与智能体框架深度耦合,跨平台兼容性较弱,且依赖静态规则库,对新型未知威胁的自适应能力不足。


监管者级别防护:解耦式系统级安全中间件
Watcher 级防护是 ClawKeeper 最具颠覆性的核心设计,它跳出传统 “内置安全” 思路,以独立、解耦、外部监管的方式,打造智能体体系里的专属安全 “监工”,从根本上解决任务执行与安全保障的内在冲突。
它不再是嵌入 OpenClaw 的技能或插件,而是一个完全独立的安全智能体,以外部中间件的身份,通过标准化通信接口与业务智能体实时连接。
这种架构让安全监管与任务执行彻底分离:业务智能体专心完成任务,Watcher 只负责安全校验,互不干扰、互不妥协。
运行时,Watcher 会持续接收来自插件层的实时行为数据流,包括上下文状态、工具调用、多轮交互、执行轨迹等,对智能体的每一步操作进行独立安全诊断。
一旦发现高危行为、异常循环、越权操作、提示注入等风险,它可直接触发干预:暂停执行、阻断操作、强制人工确认,甚至终止运行,实现真正的实时防御。
这一架构带来三大革命性优势:
抗篡改、难绕过:Watcher 独立于业务智能体进程之外,无法被指令卸载、禁用或篡改,从根源封堵 “绕过安全” 的攻击路径。
安全与性能解耦:不再让智能体在 “完成任务” 和 “遵守安全” 之间二选一,Watcher 专职保障安全,业务智能体全力提升效率。
可进化、可追溯:作为智能体,Watcher 可自主学习新威胁、更新安全策略,不断提升防御精度;所有安全决策外部可查、可审计,让安全过程透明可信。
Watcher 同时支持本地与云端部署:本地部署保护隐私,云端部署支持批量统一监管,既适用于个人智能体,也能支撑企业级多智能体集群安全管控。
凭借解耦架构、强干预能力与通用适配性,Watcher 范式不仅是 ClawKeeper 的 “终极防线”,更有望成为下一代自主智能体系统的通用安全基石。


定性分析:真实场景验证,全链路防护可落地、可感知
研究团队在真实 OpenClaw 环境中开展大量案例测试,从技能层、插件层、Watcher 层分别验证防护效果,证明 ClawKeeper 可在实际使用中可靠拦截风险、不破坏正常业务流程。
第一层、技能级别防护:系统 + 软件双边界防护
ClawKeeper 在指令解析阶段就介入,将结构化安全策略注入智能体上下文,使其在生成行为前就具备风险判断能力,从源头减少被恶意提示词“带偏”的可能。
这一机制同时覆盖系统与应用两个层面,在操作系统层,可识别经混淆处理的恶意指令(如 Base64 载荷),并拒绝执行潜在代码注入行为;在应用软件层(如飞书),可实时识别敏感信息外发并进行安全提醒。

此外,系统还提供周期性系统级别的环境扫描与软件场景的交互日志总结,分别用于发现系统异常和提升行为可审计性。

第二层:插件级别防护 —— 运行时硬审计机制
Plugin 层以内嵌方式对智能体进行全流程监控,通过硬编码规则实现对配置、行为和日志的统一管理。
针对日益猖獗的“供应链攻击”,Plugin 层提供了针对技能的深度静态扫描,例如识别 “curl | bash” 等高风险远程执行模式,并给出修复建议。

其次,面对复杂多变的交互过程,对历史交互进行统一日志记录与静态分析,能够在多轮对话中识别如提示词注入、敏感数据窃取等复杂攻击路径。

第三层:监管者级别防护 —— 独立监管,实时干预
区别于前两层防护,Watcher 作为独立智能体存在,专门负责安全监管,并具备直接干预执行流程的能力。通过持续监控交互上下文与工具调用,一旦检测到高风险行为,Watcher 可以立即介入,例如:
中断可疑命令执行,并强制进入用户确认流程;

在异常情况下终止任务,避免系统陷入错误循环或失控状态。


定量评估:全方位攻防测试,防护成功率达 85%–90%
为了客观验证 ClawKeeper 的真实防御能力,研究团队构建了覆盖七大典型威胁场景的安全评测基准,包含提示注入、敏感数据泄露、权限越界、高危命令执行、配置篡改、OWASP 漏洞检测、恶意技能安装等,总计 140 个对抗样本。
实验对比了 OpenGuardrails、ClawSec、OSPG、SecureClaw 等当前主流开源安全方案,以防御成功率(DSR)为核心指标。
结果显示,ClawKeeper 在全部七类任务上均大幅超越现有方案,防御成功率稳定达到 85%–90%。
而且,传统安全工具普遍存在防护碎片化,最多仅覆盖 2–3 类威胁;而 ClawKeeper 实现全类别、全覆盖。

此外,团队专门验证了 Watcher 的自进化能力:随着处理的威胁样本不断增加,Watcher 可自主更新安全策略,防御成功率从初始约 90% 逐步提升至 95%,而技能 / 插件类防护因规则固定,无法实现自适应提升。


结语
从大模型到智能体,AI 正在从“对话工具”演进为“执行主体”,安全问题的重要性正在迅速提升。
ClawKeeper 的出现,补上了自主智能体规模化落地的关键一块拼图。
它不再是零散的补丁,而是从内到外、从静到动、从防御到监管的完整安全体系;它不仅守护 OpenClaw,更以通用可迁移的 Watcher 范式,为整个智能体生态提供了可复用、可进化的安全范式。
让智能体更强大,也更安全 —— 这正是 ClawKeeper 带给 AI 时代的真正价值。
更多阅读




#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧

夜雨聆风