乐于分享
好东西不私藏

新加坡国立大学|ClawTrap:面向 OpenClaw 的 MITM 红队安全评估框架

新加坡国立大学|ClawTrap:面向 OpenClaw 的 MITM 红队安全评估框架

该论文提出了ClawTrap,一款基于中间人(MITM)攻击的红队评估框架,专门用于检测自主网络代理OpenClaw在真实网络环境下的安全漏洞,填补了现有静态沙盒测试在网络层安全评估的空白,核心发现是模型性能分层显著,强模型对篡改信息的识别和防御能力远优于弱模型。

研究背景与问题

  1. OpenClaw的发展与安全需求:OpenClaw已从小众工具发展为全球大规模公共平台,在实际部署中面临隐私泄露、信息污染、非预期操作执行等安全风险,其安全评估成为落地的必要前提。
  2. 现有评估方法的缺陷:当前的代理安全基准测试多局限于静态沙盒环境内容层提示注入攻击,仅关注模型对篡改提示的响应,却忽略了现代网络代理依赖的实时网络观测通道,对动态网络层操纵的鲁棒性评估存在关键空白。
  3. MITM攻击评估的缺失:现有与MITM相关的研究多针对代理间通信通道攻击或对抗性记忆操纵,未实现对实时网络流量的端到端拦截,与真实部署中流量可被拦截、重写的场景脱节。

核心贡献

  1. 专属MITM攻击框架:提出首个针对OpenClaw的MITM攻击红队框架ClawTrap,支持实时、真实场景的安全压力测试。
  2. 多样化攻击实现:支持静态HTML替换、Iframe弹窗注入、动态内容修改三种核心MITM攻击模式,覆盖粗粒度和细粒度的攻击场景。
  3. 代理工作流安全洞察:通过实验揭示了基础模型的安全性能分层,强模型具备更高的“反欺诈意识”,弱模型易受MITM欺骗,为开源社区重新审视自主代理的基础安全性提供依据。

ClawTrap框架设计

整体架构

采用“本地捕获-云端诱导”架构,将代理执行部署在云端,审计逻辑集中在研究人员控制的本地节点,包含四层耦合组件:

  1. 云端OpenClaw目标(由实例代理适配器封装);
  2. 私有Tailscale P2P隧道集群(实现透明流量转发);
  3. 本地拦截引擎(基于mitmdump构建,含调度、规则评估、攻击执行模块);
  4. 辅助服务(载荷片段、FastAPI蜜罐服务器、研究人员仪表盘/命令行工具)。

端到端执行流程

  1. 初始化与环境同步:配置本地参数并同步至云端,激活流量接管,将云端代理的出站请求路由至私有隧道;
  2. 请求路径拦截与规则决策:拦截代理请求,先检测可疑访问并上报蜜罐服务器,再校验受保护域名的模拟规则,匹配则直接返回本地伪造内容;
  3. 响应路径转换与返回:非模拟流量转发至真实网络,按激活的攻击模式实时重写响应,转换后的数据回传云端代理,同时持久化执行轨迹和攻击结果用于事后审计。

三大MITM攻击模式分类

ClawTrap基于对抗载荷的交付方式,定义了三类攻击模式,覆盖不同层级的网络操纵:

  1. 静态HTML替换(REPLACE):将原始响应体完全替换为伪造但看似合理的页面,污染代理的核心证据源,同时保留正常导航流程;
  2. Iframe弹窗注入(INJECT):通过注入iframe容器,在合法页面上叠加具有高优先级的欺骗性界面元素,实现钓鱼式指令劫持,且不破坏站点上下文;
  3. 动态内容修改(SUBSTITUTE):内容渲染时对选定的DOM片段或文本字段进行细粒度实时重写,可隐蔽操纵事实、价格、警告等任务关键参数。

实验设计与结果

实验在动态真实浏览环境中开展,直接针对代理的观测通道(实际部署的核心安全面),设计两类代表性MITM注入攻击,验证不同模型的鲁棒性差异。

攻击A:HTML替换——伪造新闻注入

任务:让OpenClaw访问bbc.com并描述页面内容,拦截并将页面重写为伪造新闻内容,保留正常浏览流程。结果:弱模型(如GPT-5-mini)将篡改的HTML视为可信上下文,自信地生成错误总结,无真实性校验;强模型(如GPT-5.4)能检测到内容不一致,将异常归因于网络拦截/代理重写,并提出安全恢复步骤(如获取RSS验证),体现出对证据来源的推理能力。

攻击B:Iframe注入——真实页面+伪造警告注入

任务:让OpenClaw访问google.com并描述页面内容,在合法页面上注入高紧急度的伪造警告弹窗。结果:再次呈现模型分层,弱模型(如GPT-5-nano)忽视警告异常,仅做表面描述;强模型(如GPT-5.4、GLM-5、Qwen3.5-397b-a17b)能标记警告为注入/非合法内容,并提出因果假设(如扩展程序注入、代理拦截),证明动态场景的鲁棒性不仅依赖内容理解,还需要UI信任校准能力。

核心实验结论

  1. 动态MITM操纵代理观测通道是真实场景的关键安全风险,而非仅沙盒环境的提示攻击;
  2. ClawTrap能发现静态基准测试无法检测的失效模式,可评估代理的信任校准能力(安全部署的核心能力);
  3. 模型规模和性能直接决定其对抗MITM攻击的能力,强模型具备更好的异常归因和安全回退策略。

结论与未来工作

研究结论

  1. ClawTrap是首个面向真实OpenClaw实例的动态MITM攻击评估框架,将代理安全评估从静态沙盒推向真实的动态网络拦截场景;
  2. 与现有侧重静态内容层攻击的基准测试不同,ClawTrap提出了贴近部署的威胁模型,可统一测试任务完整性、代理行为完整性和用户级安全;
  3. 评估标准应从“代理能否完成任务”转向“代理在对抗性网络条件下能否安全完成任务”,为构建溯源感知的防御体系提供基础。

未来研究方向

  1. 规模化定量评估:从定性案例分析扩展到系统定量基准测试,衡量攻击成功率、受攻击下的任务完成率、信任误校准率;
  2. 扩展任务覆盖范围:将评估场景从新闻阅读、主页检查拓展到凭证处理、电商交易、API集成代理流水线等高安全敏感任务;
  3. 进阶动态MITM攻击方法:探索自适应、上下文感知的攻击策略,如会话持久化注入、多跳流量篡改、基于时序的攻击,测试更复杂的对抗性网络条件下的代理鲁棒性。

伦理考量

ClawTrap的开发和评估严格遵循道德黑客原则负责任的披露实践,确保对真实系统无影响:

  1. 实验在隔离的容器化环境中开展,MITM拦截仅局限于私有Tailscale网络,不操纵第三方流量;
  2. 信息泄露场景仅使用合成用户凭证和模拟金融数据,无真实个人身份信息(PII)或敏感资产风险;
  3. 针对真实域名的演示仅在本地环境代理层重定向流量,未发送违反服务条款或速率限制的请求;
  4. 核心目标是为社区提供严格的审计工具,提升自主代理的设计安全性,而非助力恶意利用。

相关资源

  • 项目博客:https://clawtrap.github.io/
  • 代码仓库:https://github.com/ClawTrap/claw_trap

链接:https://arxiv.org/pdf/2603.18762