OpenClaw也要装“杀毒软件”?ClawKeeper盯住「龙虾」每一步

ClawKeeper 把技能、插件和 Watcher 接到一起，把 OpenClaw 安全从零散防护做成完整体系。

近日，由北京邮电大学、北京智源人工智能研究院、中国信息通信研究院联合推出 ClawKeeper —— 首个面向 OpenClaw 生态的全维度、全生命周期、可进化的智能体安全框架。

以“技能-插件-观察者”三层协同防护架构，破解当前 AI 智能体安全防护碎片化、被动化、静态化的行业痛点，为高权限智能体提供实时、全面、可进化的安全保护。

这不仅是一个工具，更是智能体时代的安全基础设施。相关研究论文已同步上线，项目开源仅数日便收获业界广泛关注。

论文地址：

https://arxiv.org/abs/2603.24414

GitHub 地址：

https://github.com/SafeAI-Lab-X/ClawKeeper

OpenClaw 能力扩容，安全风险迫在眉睫

作为当下主流的开源自主智能体运行平台，OpenClaw 凭借工具调用、本地文件访问、Shell 命令执行、跨平台部署等强大能力，成为 AI 智能体落地应用的核心载体，广泛应用于自动化办公、代码辅助、长期运行个人智能体等场景。

但伴随权限提升与生态扩张，其安全隐患愈发突出：提示词注入、敏感数据泄露、权限滥用、恶意技能执行、远程代码执行漏洞等风险频发，轻则导致智能体行为失控、数据外泄，重则引发系统级安全事故。

论文指出当前 OpenClaw 生态的安全防护方案存在四大核心短板：

防护覆盖碎片化，仅针对单一威胁或智能体生命周期某一环节；
安全与任务效率相互掣肘，智能体需在完成任务与合规防护间妥协；
以事后日志分析为主的被动防御，无法提前阻断风险；
静态规则无法适配智能体自我进化与新型攻击迭代，防护效果持续衰减。

ClawKeeper：面向智能体时代的安全基础设施

ClawKeeper 突破传统防护思路，打造技能层、插件层、观察者层三位一体的实时安全框架，覆盖智能体指令解析、运行时执行、系统级监管全流程，实现从被动防御到主动干预、从静态规则到动态进化的升级。

Skill-based（技能级别防护）：指令层面的安全规则注入

立足智能体指令构建阶段，将结构化安全策略以标准化形式嵌入智能体上下文，从源头约束行为边界，覆盖系统环境与跨软件交互场景，低成本实现基础安全合规，适配多平台部署需求。

Plugin-based（插件级别防护）：运行时内部的强制安全监控

作为智能体运行时的 “内置安全管家”，通过配置加固、主动威胁检测、行为扫描、配置文件保护等硬编码机制，全程监控执行链路，封堵已知漏洞、拦截恶意操作，实现静态到动态的全流程防护。

Watcher-based（监管者级别防护）：解耦式系统级安全中间件

ClawKeeper 最具突破性的设计 —— 独立于业务智能体的外部监控器，作为专属安全监管智能体，实时捕获运行状态、验证行为轨迹，无需耦合智能体内部逻辑即可实现高危操作阻断、人工确认介入，彻底解决安全与任务的冲突，抵御对抗性篡改，还能随威胁进化持续迭代。

技能级别防护：指令层面的安全规则注入

技能级防护是 ClawKeeper 面向 OpenClaw 智能体打造的轻量化、易部署、广兼容的前端安全屏障，工作在智能体指令理解与技能执行的最上游，从任务启动阶段就建立安全约束。

它不再依赖零散的提示词约束，而是把系统操作、文件访问、软件交互、权限使用等安全策略，整理为结构化、可直接被模型理解的规则文档，稳定注入到智能体的上下文环境中，让安全要求成为执行任务时必须遵守的“默认准则”。

在防护范围上，它不只关注传统 Linux 环境，还全面覆盖 Windows、macOS 等大众操作系统，针对文件读写、命令执行、进程操作等行为做出明确限制。

同时，它面向飞书、钉钉、Telegram 等通信软件做专项安全约束，防止智能体在对话场景中无意泄露密钥、凭证、隐私内容，或向错误联系人发送敏感信息。

为了让安全能力更主动，ClawKeeper 还在技能层内置了定时安全扫描与交互日志总结能力：智能体可自动按周期巡检环境风险、汇总近期操作行为，形成可追溯的安全记录，既不侵入框架底层，也不需要复杂配置，就能实现全交互周期的基础安全合规。

技能级防护凭借轻量化、无侵入、易部署的特性，成为快速搭建基础安全防线的首选方案，可在多系统与多软件平台下实现前端规则约束。

但它高度依赖大模型对安全指令的理解与执行，易被对抗性提示词绕过，安全保障强度有限，无法单独承担核心防护任务。

插件级别防护：运行时内部的强制安全监控

插件级防护是 ClawKeeper 在智能体运行时层的核心加固手段，以硬编码、强约束、全流程审计的方式，成为 OpenClaw 执行过程中 “无法绕过” 的内部安全守门人。

不同于技能层的规则注入，插件级防护深度集成在 OpenClaw 运行时内部，直接接管关键执行链路，从静态配置加固到动态行为监控，形成闭环防护。

它整合威胁检测、行为扫描、配置保护、日志审计等能力，一次性补齐当前零散插件的防护短板，实现真正的纵深防御。

在防护能力上，插件层首先对 OpenClaw 进行系统性安全加固：扫描暴露端口、弱权限、明文凭证、未授权访问等 OWASP 典型风险，并自动执行修复，把网关绑定本地、锁定关键配置、注入安全基线，从根源缩小攻击面。

同时，它对 AGENTS.md、openclaw.json、SOUL.md 等核心配置文件做加密哈希校验，任何未授权篡改都会被实时拦截，防止被恶意关闭安全机制、植入后门。

在运行阶段，插件层会全程记录智能体生命周期行为：用户指令、LLM 输入输出、工具调用序列、Shell 执行记录等全部上链存证，不丢不漏。

基于完整日志，它能异步回溯扫描，精准识别提示注入、恶意技能调用、密钥泄露、高危命令执行、异常高频操作等隐蔽威胁，让事后追溯与风险定位变得简单可行。

插件级防护以运行时强管控、低性能开销、全链路审计的优势，为 OpenClaw 提供稳定可靠的内置安全能力，可有效完成配置加固、威胁检测与行为回溯。

但它与智能体框架深度耦合，跨平台兼容性较弱，且依赖静态规则库，对新型未知威胁的自适应能力不足。

监管者级别防护：解耦式系统级安全中间件

Watcher 级防护是 ClawKeeper 最具颠覆性的核心设计，它跳出传统 “内置安全” 思路，以独立、解耦、外部监管的方式，打造智能体体系里的专属安全 “监工”，从根本上解决任务执行与安全保障的内在冲突。

它不再是嵌入 OpenClaw 的技能或插件，而是一个完全独立的安全智能体，以外部中间件的身份，通过标准化通信接口与业务智能体实时连接。

这种架构让安全监管与任务执行彻底分离：业务智能体专心完成任务，Watcher 只负责安全校验，互不干扰、互不妥协。

运行时，Watcher 会持续接收来自插件层的实时行为数据流，包括上下文状态、工具调用、多轮交互、执行轨迹等，对智能体的每一步操作进行独立安全诊断。

一旦发现高危行为、异常循环、越权操作、提示注入等风险，它可直接触发干预：暂停执行、阻断操作、强制人工确认，甚至终止运行，实现真正的实时防御。

这一架构带来三大革命性优势：

抗篡改、难绕过：Watcher 独立于业务智能体进程之外，无法被指令卸载、禁用或篡改，从根源封堵 “绕过安全” 的攻击路径。
安全与性能解耦：不再让智能体在 “完成任务” 和 “遵守安全” 之间二选一，Watcher 专职保障安全，业务智能体全力提升效率。
可进化、可追溯：作为智能体，Watcher 可自主学习新威胁、更新安全策略，不断提升防御精度；所有安全决策外部可查、可审计，让安全过程透明可信。

Watcher 同时支持本地与云端部署：本地部署保护隐私，云端部署支持批量统一监管，既适用于个人智能体，也能支撑企业级多智能体集群安全管控。

凭借解耦架构、强干预能力与通用适配性，Watcher 范式不仅是 ClawKeeper 的 “终极防线”，更有望成为下一代自主智能体系统的通用安全基石。

定性分析：真实场景验证，全链路防护可落地、可感知

研究团队在真实 OpenClaw 环境中开展大量案例测试，从技能层、插件层、Watcher 层分别验证防护效果，证明 ClawKeeper 可在实际使用中可靠拦截风险、不破坏正常业务流程。

第一层、技能级别防护：系统 + 软件双边界防护

ClawKeeper 在指令解析阶段就介入，将结构化安全策略注入智能体上下文，使其在生成行为前就具备风险判断能力，从源头减少被恶意提示词“带偏”的可能。

这一机制同时覆盖系统与应用两个层面，在操作系统层，可识别经混淆处理的恶意指令（如 Base64 载荷），并拒绝执行潜在代码注入行为；在应用软件层（如飞书），可实时识别敏感信息外发并进行安全提醒。

此外，系统还提供周期性系统级别的环境扫描与软件场景的交互日志总结，分别用于发现系统异常和提升行为可审计性。

第二层：插件级别防护 —— 运行时硬审计机制

Plugin 层以内嵌方式对智能体进行全流程监控，通过硬编码规则实现对配置、行为和日志的统一管理。

针对日益猖獗的“供应链攻击”，Plugin 层提供了针对技能的深度静态扫描，例如识别 “curl | bash” 等高风险远程执行模式，并给出修复建议。

其次，面对复杂多变的交互过程，对历史交互进行统一日志记录与静态分析，能够在多轮对话中识别如提示词注入、敏感数据窃取等复杂攻击路径。

第三层：监管者级别防护 —— 独立监管，实时干预

区别于前两层防护，Watcher 作为独立智能体存在，专门负责安全监管，并具备直接干预执行流程的能力。通过持续监控交互上下文与工具调用，一旦检测到高风险行为，Watcher 可以立即介入，例如：

中断可疑命令执行，并强制进入用户确认流程；

在异常情况下终止任务，避免系统陷入错误循环或失控状态。

定量评估：全方位攻防测试，防护成功率达 85%–90%

为了客观验证 ClawKeeper 的真实防御能力，研究团队构建了覆盖七大典型威胁场景的安全评测基准，包含提示注入、敏感数据泄露、权限越界、高危命令执行、配置篡改、OWASP 漏洞检测、恶意技能安装等，总计 140 个对抗样本。

实验对比了 OpenGuardrails、ClawSec、OSPG、SecureClaw 等当前主流开源安全方案，以防御成功率（DSR）为核心指标。

结果显示，ClawKeeper 在全部七类任务上均大幅超越现有方案，防御成功率稳定达到 85%–90%。

而且，传统安全工具普遍存在防护碎片化，最多仅覆盖 2–3 类威胁；而 ClawKeeper 实现全类别、全覆盖。

此外，团队专门验证了 Watcher 的自进化能力：随着处理的威胁样本不断增加，Watcher 可自主更新安全策略，防御成功率从初始约 90% 逐步提升至 95%，而技能 / 插件类防护因规则固定，无法实现自适应提升。

结语

从大模型到智能体，AI 正在从“对话工具”演进为“执行主体”，安全问题的重要性正在迅速提升。

ClawKeeper 的出现，补上了自主智能体规模化落地的关键一块拼图。

它不再是零散的补丁，而是从内到外、从静到动、从防御到监管的完整安全体系；它不仅守护 OpenClaw，更以通用可迁移的 Watcher 范式，为整个智能体生态提供了可复用、可进化的安全范式。

让智能体更强大，也更安全 —— 这正是 ClawKeeper 带给 AI 时代的真正价值。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧