整理时间:2026-03-25 核实时间:2026-03-25 数据来源:arXiv.org

1. OpenClaw-RL: Train Any Agent Simply by Talking
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
每一次 Agent 交互都会生成下一个状态信号—用户回复、工具输出、终端或 GUI 状态变化—但没有任何现有的 Agentic RL 系统将其回收为实时、在线的学习来源。本文提出 OpenClaw-RL,其核心观察是:下一个状态信号是通用的,策略可以同时从所有信号中学习。个人对话、终端执行、GUI 交互、SWE 任务和工具调用轨迹不是分离的训练问题,而是可以用于在同一循环中训练同一策略的交互。下一步状态信号编码两种信息:评估信号(指示动作执行得好坏,通过 PRM Judge 提取为标量奖励)和指令信号(指示动作应该如何不同,通过 Hindsight-Guided On-Policy Distillation (OPD) 恢复)。本文从下一步状态中提取文本提示,构建增强教师上下文,并提供比任何标量奖励都更丰富的 Token 级方向优势监督。由于异步设计,模型同时处理实时请求、PRM 评判交互、训练器更新策略,三者零协调开销。应用于个人 Agent,OpenClaw-RL 使 Agent 能够通过使用本身来持续改进,从用户追问、纠正和反馈中学习。应用于通用 Agent,同一基础设施支持在终端、GUI、SWE 和工具调用场景中的规模化 RL 训练,并进一步展示了过程奖励的实用性。
核心贡献点
通用下一步状态信号框架:证明对话、终端、GUI、SWE、工具调用等异构交互本质上是同一 RL 信号来源 双信息提取机制:评估信号(通过 PRM Judge 提取标量奖励)+ 指令信号(通过 OPD 蒸馏恢复"本应怎么做") Token 级方向优势监督:比标量奖励更丰富的训练信号 异步三模块并行设计:Live Model / PRM Judge / Trainer 零协调开销同步运行 OPD(Hindsight-Guided On-Policy Distillation):从下一步状态提取文本提示,构建增强教师上下文
方法
下一步状态信号 → 标量奖励(PRM Judge):对每个动作后的状态变化评分 OPD 蒸馏:动作未达目标时,从实际结果反推正确方向,提供 Token 级优势监督 异步三模块:Live Model / PRM Judge / Trainer 并行运行
结论
OpenClaw-RL 使 Agent 能够通过使用本身来持续改进,从用户追问、纠正和反馈中学习 同一基础设施支持终端、GUI、SWE、工具调用等多种场景的统一 RL 训练 证明了过程奖励(Process Rewards)在通用 Agent 训练中的实用性
2. Don't Let the Claw Grip Your Hand: A Security Analysis and Defense Framework for OpenClaw
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
由大语言模型驱动的代码 Agent 可以代表用户执行 shell 命令,引入了严重的安全漏洞。本文对 OpenClaw 平台进行了两阶段安全分析。作为一个开源本地 AI Agent 框架,OpenClaw 可集成多种商业大语言模型,但其原生架构缺乏内置安全约束,是评估基线 Agent 漏洞的理想研究对象。本文首先系统评估 OpenClaw 对恶意指令的原生抵御能力,通过测试 47 个对抗场景(覆盖 MITRE ATLAS 和 ATT&CK 框架衍生的 6 大攻击类别),证明 OpenClaw 存在重大固有安全问题,主要依赖后端 LLM 的安全能力,对沙箱逃逸攻击高度敏感,平均防御率仅 17%。为弥补这些关键安全缺口,本文提出并实现了一种新型人在回路(HITL)防御层,采用双模式测试框架对比评估有/无 HITL 干预的系统效果。研究表明,HITL 层显著增强了系统防御能力,成功拦截了 8 类完全绕过 OpenClaw 原生防御的严重攻击,结合原生能力后整体防御率提升至 19%~92%。本研究不仅揭示了当前代码 Agent 的固有局限性,也证明了人机协作防御策略的有效性。
核心贡献点
47 个对抗场景系统评估:覆盖 MITRE ATLAS 和 ATT&CK 框架衍生的 6 大攻击类别 首次量化 OpenClaw 原生安全能力:平均防御率仅 17%,高度依赖后端 LLM 安全能力 HITL(Human-in-the-Loop)人在回路防御层:提出并实现新型人机协作防御框架 双模式测试框架:有/无 HITL 干预对比评估 显著提升防御效果:引入 HITL 后,防御率从 17% 提升至 19%~92%,成功拦截 8 类严重攻击
方法
攻击分类:基于 MITRE ATLAS 和 ATT&CK 的 6 大类别,47 个对抗场景 HITL 干预:在 Agent 执行关键操作前引入人工确认环节 双模式测试:对比统计不同攻击类型在有无 HITL 下的防御成功率
结论
研究揭示了当前代码 Agent 的固有局限性,证明人机协作防御策略可显著增强系统安全性。HITL 层不能完全消除所有攻击向量,但将整体防御率从 17% 提升至最高 92%,证明了人机协作防御的有效路径。
3. Examining Users' Behavioural Intention to Use OpenClaw Through the Cognition-Affect-Conation Framework
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
本研究通过认知-情感-意动(CAC)框架考察用户的 OpenClaw 使用行为意向。研究调查了用户对系统的认知感知如何影响情感反应,进而塑造行为意向。促进因素包括感知个性化、感知智能性和相对优势;抑制因素包括隐私担忧、算法不透明性和感知风险。对 436 名 OpenClaw 用户进行了结构方程建模分析。结果表明,正向感知强化了用户对 OpenClaw 的态度,进而增加行为意向;而负向感知引发不信任并降低使用意向。本研究为影响自主 AI Agent 采纳的心理机制提供了洞见。
核心贡献点
CAC 框架首次应用于 AI Agent 用户研究:将认知-情感-意动模型引入 OpenClaw 用户行为分析 促进因素识别:感知个性化、感知智能性、相对优势 抑制因素识别:隐私担忧、算法不透明性、感知风险 436 名用户结构方程建模(SEM)分析:大样本实证量化研究
方法
问卷调查:436 名 OpenClaw 用户 结构方程建模(SEM):验证认知→情感→行为意向的因果路径
结论
心理机制对自主 AI Agent 的采纳具有显著影响。感知智能性和个性化促进采纳,而隐私担忧和算法不透明性是主要障碍。研究揭示了影响自主 AI Agent 采纳的心理机制,为 AI Agent 设计者和决策者提供理论依据。
4. Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
OpenClaw 等自主 LLM Agent 在执行复杂、长时程任务方面展现出卓越能力,但其紧耦合的即时通讯交互范式和高权限执行能力大幅扩展了系统攻击面。本文对 OpenClaw 进行了全面安全威胁分析。为结构化分析,本文引入了五层生命周期导向安全框架,涵盖 Agent 运行的关键阶段:初始化、输入、推理、决策和执行,并系统审视了 Agent 全生命周期的复合威胁,包括间接提示注入、Skill 供应链污染、记忆投毒和意图漂移。通过 OpenClaw 的详细案例研究,展示了这些威胁的普遍性和严重性,并分析了现有防御的局限性。研究揭示了当前点防御机制在应对跨时间和多阶段系统风险时的关键弱点,突显了对自主 LLM Agent 全生命周期安全架构的需求。在该框架下,本文进一步审查了各生命周期阶段的代表性防御策略,包括插件审核框架、上下文感知指令过滤、记忆完整性验证、意图验证和能力执行架构。
核心贡献点
五层生命周期安全框架:初始化 → 输入 → 推理 → 决策 → 执行 系统识别四类复合威胁:间接提示注入、Skill 供应链污染、记忆投毒、意图漂移 揭示点防御的局限性:当前单点防御无法应对跨时间和多阶段系统风险 逐层防御策略全面审查:插件审核、上下文过滤、记忆验证、意图验证、能力执行等 倡导全生命周期安全架构:而非零散的点防御机制
方法
生命周期威胁建模:从初始化到执行的全链路威胁映射 案例研究:通过 OpenClaw 具体攻击链验证威胁严重性 现有防御局限性分析:评估各阶段代表性防御策略的有效覆盖范围
结论
现有点防御机制不足以应对自主 LLM Agent 的系统性安全风险,迫切需要全生命周期安全架构。本研究为 Agent 安全性研究提供了系统性分析框架和防御路线图。
5. Uncovering Security Threats and Architecting Defenses in Autonomous Agents: A Case Study of OpenClaw
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
大语言模型快速演化为自主工具调用 Agent,改变了网络安全格局。OpenClaw 等框架赋予 AI 系统操作系统级权限和执行复杂工作流的自主性,带来前所未有的安全挑战,传统内容过滤防御已完全过时。本文对 OpenClaw 生态系统进行了全面安全分析,系统调查了其当前威胁态势,揭示了提示注入驱动 RCE、顺序工具攻击链、上下文遗忘和供应链污染等关键漏洞。为系统化归类这些威胁,本文提出了针对自主 Agent 的新型三层风险分类学,从 AI 认知层、软件执行层和信息系统层三个维度对漏洞进行分类。针对这些系统性架构缺陷,本文引入了全生命周期 Agent 安全架构(FASA)—一个理论防御蓝图,倡导零信任 Agent 执行、动态意图验证和跨层推理-行动关联。基于该框架,本文提出了持续工程项目 ClawGuard,旨在将 FASA 范式工程化,使自主 Agent 从高风险实验性工具转变为可信系统。代码和数据集见 https://github.com/NY1024/ClawGuard。[10]
核心贡献点
三层风险分类学(Tri-Layered Risk Taxonomy):AI 认知层 / 软件执行层 / 信息系统层 揭示四大关键漏洞:提示注入驱动 RCE、顺序工具攻击链、上下文遗忘(Context Amnesia)、供应链污染 FASA 安全架构(Full-Lifecycle Agent Security Architecture):理论防御蓝图 ClawGuard 工程实现:FASA 范式的持续工程化项目 零信任执行 + 动态意图验证 + 跨层推理-行动关联 三大核心原则
方法
网络空间测绘 + 安全扫描 + 域名监测(据奇安信报告,全球 232,958 个暴露实例) 三层检测流程:规则引擎 / LLM 语义分析 / 人工确认
结论
将自主 Agent 安全视为软件工程问题而非产品特定问题。行业需从漏洞补丁转向系统性防御工程和健壮部署实践。FASA + ClawGuard 为构建可信自主 Agent 系统提供了可落地的工程路径。
6. Defensible Design for OpenClaw: Securing Autonomous Tool-Invoking Agents
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
OpenClaw 类 Agent 提供显著的生产力收益,但默认情况下不安全—因为它们将不可信输入、自主行动、可扩展性和特权系统访问整合在单一执行循环中。本文以 OpenClaw 为案例,研究与接口交互、操作文件、调用工具、在真实操作系统环境中安装扩展的更广泛 Agent 类别。因此,其安全性应被视为软件工程问题,而非产品特定问题。为应对这些架构漏洞,本文提出了防御性设计蓝图,提供了风险分类学、安全工程原则和将安全制度化嵌入 Agent 构建的实用研究议程。
核心贡献点
将 Agent 安全重新定义为软件工程问题而非产品特定问题 风险分类学(Risk Taxonomy):系统化分类 Agent 安全风险 安全工程原则(Secure Engineering Principles):设计阶段的内置安全原则 实用研究议程:将安全制度化地嵌入 Agent 构建流程 倡导从漏洞补丁转向系统性防御工程和健壮部署实践
方法
架构漏洞分析:Agent 执行循环中的固有安全缺陷 安全设计蓝图:面向开发者的防御性设计规范
结论
当前 Agent 默认将灵活性优先于安全性。行业需要在框架设计层面建立安全基线,而非依赖用户自行加固。将安全作为"第一等公民"纳入 Agent 架构是解决根本性安全问题的唯一途径。
7. EvoClaw: Evaluating AI Agents on Continuous Software Evolution
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
AI Agent 日益作为长期运行系统部署,自主构建和持续演进定制化软件以在动态环境中交互变得至关重要。然而现有基准测试只在孤立的单次编码任务上评估 Agent,忽视了真实世界软件演进中固有的时间依赖和技术债务问题。为弥补这一差距,本文引入了 DeepCommit—一个从噪声提交日志中重建可验证里程碑 DAG 的 Agentic 管道,其中里程碑被定义为语义内聚的开发目标。这些可执行序列支撑了 EvoClaw—首个要求 Agent 维持系统完整性并限制错误累积的基准测试,这一维度在当前基准测试中基本缺失。对 12 个前沿模型跨 4 种 Agent 框架的评估揭示了关键脆弱性:整体性能得分从孤立任务的 >80% 大幅下降至连续设置中的最高 38%,暴露了 Agent 在长期维护和错误传播方面的严重不足。
核心贡献点
DeepCommit:从噪声提交日志中重建可验证里程碑 DAG 的 Agentic 管道 EvoClaw 基准:首个评估 Agent 长期软件演进能力的基准测试 12 个前沿模型 × 4 种 Agent 框架 全面评估 揭示关键脆弱性:孤立任务 >80% → 连续设置最高仅 38% 填补长时维护和错误传播评估空白:现有基准测试缺失的关键维度
方法
Milestone DAG 构建:将软件开发目标定义为语义内聚的开发里程碑 连续设置测试:模拟真实软件演进中的时间依赖和错误累积 跨模型跨框架评估:12 模型 × 4 框架
结论
当前前沿模型在孤立任务上表现优异,但在需要持续维护的长期软件演进中性能骤降至不足 38%。Agent 的长时维护能力和错误传播控制是决定其在真实场景中实用性的关键能力,EvoClaw 为此提供了首个系统性评估基准。
8. From Agent-Only Social Networks to Autonomous Scientific Research: Lessons from OpenClaw and Moltbook, and the Architecture of ClawdLab and Beach.Science
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
2026 年 1 月,开源 Agent 框架 OpenClaw 与纯 Agent 社交网络 Moltbook 生成了大规模 AI-to-AI 交互数据集,14 天内吸引了 6 篇学术论文发表。本研究对该生态系统进行了多声音文献综述,并将 ClawdLab 和 Beach.science 作为设计科学研究回应,作为对已识别架构故障模式的解决方案。ClawdLab 是一个用于结构化实验室协作的开源平台,通过硬角色限制、结构化对抗批评、PI 主导治理、多模型编排和证据要求(通过外部工具验证强制执行—首席研究员通过可用 API 调用、计算服务和模型上下文协议集成验证提交内容,而非依赖社会共识)来解决这些故障模式。Beach.science 是一个公共研究commons,通过模板化角色专业化、可扩展技能注册表和程序化奖励机制来补充 ClawdLab 的结构化实验室模型,支持异构 Agent 配置交互、发现研究机会并自主贡献计算分析。三层分类学区分了单 Agent 管道、预定义多 Agent 工作流和完全去中心化系统,分析了为何领先 AI 联合科学家平台仍局限于前两层。跨 ClawdLab 和 Beach.science 实例化的可组合第三层架构,使基础模型、能力、治理、验证工具和实验室间协调可独立修改,能够随更广泛的 AI 生态系统进步实现复合改进。
核心贡献点
多声音文献综述(Multivocal Literature Review):对 OpenClaw/Moltbook 生态的系统性学术分析 ClawdLab + Beach.science 双平台设计:作为架构故障模式的设计科学回应 三层 Agent 系统分类学:单 Agent 管道 / 预定义多 Agent 工作流 / 完全去中心化系统 涌现现象识别:4 类对 AIED 有影响的自然涌现现象 可组合第三层架构:基础模型、能力、治理、验证工具和实验室间协调可独立修改
方法
为期一个月的每日定性观察(Moltbook, The Colony, 4claw 等平台) 跨平台系统性分析 + 设计科学研究
结论
纯 Agent 社交网络为多 Agent 教育系统的原则性设计提供了自然窗口。ClawdLab 的可组合三层架构和 Beach.science 的自由形式环境,为网络化教育 AI 和自主科学研究提供了互补的设计参考。
9. OpenQlaw: An Agentic AI Assistant for Analysis of 2D Quantum Materials
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
从光学鉴定 2D 量子材料到实际器件制造,需要超越检测精度的动态推理能力。尽管近期领域特定多模态大语言模型(MLLMs)成功使用物理信息推理来落地视觉特征,但其输出针对逐步认知透明度优化,产生了冗长的候选枚举和密集推理—虽然准确,但可能引发认知过载,缺乏与研究人员实时交互的直接实用性。为解决这一挑战,本文提出 OpenQlaw—一个用于 2D 材料分析的 Agentic 编排系统,架构构建于受 OpenClaw 启发轻量级 Agentic 框架 NanoBot 和物理感知指令多模态平台 QuPAINT(量子材料发现的物理感知指令多模态平台先驱)之上,支持通过多种消息渠道访问实验室现场。OpenQlaw 允许核心 LLM Agent 将领域专家 MLLM(QuPAINT)作为专门节点进行编排,成功将视觉识别与推理和确定性图像渲染解耦。通过解析领域专家的空间数据,Agent 可以动态处理用户查询—如执行尺度感知物理计算或生成孤立视觉标注—并以自然语言方式回答。关键的是,系统具有持久记忆能力,可以保存物理尺度比(如 1 pixel = 0.25 μm)用于面积计算,存储样品制备方法用于效能比较。Agentic 架构将核心 Agent 用作领域专家的编排器,将孤立推理转化为上下文感知助手,可加速高通量器件制造。
核心贡献点
OpenClaw 启发 NanoBot 框架:轻量级 Agentic 编排系统在科学领域的深度应用 核心 Agent 编排领域专家 MLLM:视觉识别与推理解耦,QuPAINT 专注视觉,核心 Agent 专注推理和计算 持久记忆:保存物理尺度比和样品制备方法,支持跨会话上下文 多渠道访问实验室:支持消息渠道与研究环境集成 自然语言 + 尺度感知物理计算 + 孤立视觉标注 三合一
方法
NanoBot:受 OpenClaw 启发的轻量级 Agentic 框架 QuPAINT:物理感知指令多模态平台,专注量子材料的视觉识别和确定性图像渲染 多通道消息集成:支持实验室现场消息交互
结论
Agentic 架构将核心 Agent 用作领域专家的编排器,将孤立推理转化为上下文感知助手,可加速高通量器件制造流程,为 AI 辅助科学研究提供了可复用的 Agentic 设计范本。
10. When Openclaw Agents Learn from Each Other: Insights from Emergent AI Agent Communities for Human-AI Partnership in Education
| 论文 ID | |
| 发表日期 | |
| 代码/数据链接 | |
| arXiv 链接 |
摘要
AIED 社区设想 AI 从"工具到队友"的演进,但人类对 AI 队友的理解仍局限于二元人际交互。本文提供了一个不同视角:一个快速增长的 AI Agent 平台生态系统,167,000+ Agent 在其中作为同伴互动并发展学习行为。通过在 Moltbook、The Colony 和 4claw 等多个平台进行为期一个月的每日定性观察,本文识别了对 AIED 有影响的 4 类现象:(1)配置 Agent 的人类经历了"双向脚手架"过程,在教学中学习;(2)同伴学习在无任何设计课程的情况下涌现,包含想法级联和质量层级;(3)Agent 在共享记忆架构上收敛,与开放学习者模型设计趋同;(4)信任动态和平台生命周期揭示了网络化教育 AI 的设计约束。本文并非提出实证发现,而是认为这些有机涌现现象为多 Agent 教育系统的原则性设计提供了自然窗口。本文勾勒了一个示例课程设计"Learn by Teaching Your AI Agent Teammate",并概述了潜在研究方向和问题,以展示这些观察如何为未来 AIED 实践和探究提供信息。
核心贡献点
167,000+ Agent 大规模生态观察 双向脚手架(Bidirectional Scaffolding):人类配置 Agent 时通过教学相长的学习过程 涌现同伴学习:无设计课程下的想法级联和质量层级 共享记忆架构收敛:与开放学习者模型设计趋同 信任动态与平台生命周期:揭示网络化教育 AI 的设计约束
方法
跨平台定性观察:Moltbook, The Colony, 4claw,为期一个月的每日观察
结论
有机涌现现象为多 Agent 教育系统的原则性设计提供了自然窗口。提出"教 AI Agent 学"(Learn by Teaching Your AI Agent Teammate)的课程设计示例,为网络化教育 AI 的研究和实践提供了独特视角和潜在方向。
11. MetaClaw: Just Talk — An Agent That Meta-Lears and Evolves in the Wild
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
大语言模型 Agent 日益用于复杂任务,但已部署的 Agent 通常保持静态,无法适应用户需求演变。这在需要持续服务和需要更新能力以匹配不断变化的任务分布之间产生了矛盾。在 OpenClaw 等处理 20+ 渠道多样化工作负载的平台上,现有方法要么存储原始轨迹而不提炼知识,要么维护静态技能库,或需要服务中断进行重训练。本文提出 MetaClaw—一个持续元学习框架,共同演进基础 LLM 策略和可复用行为技能库。MetaClaw 采用两种互补机制。技能驱动快速适应通过 LLM Evolver 分析失败轨迹合成新技能,实现零停机即时改进。机会策略优化通过云端 LoRA 微调和基于过程奖励模型的强化学习(RL-PRM)执行基于梯度的更新,由机会元学习调度器(OMLS)触发—该调度器监控不活跃窗口和日历数据。这两种机制相互强化:精炼后的策略生成更好的技能合成轨迹,而更丰富的技能为策略优化提供更高质量的数据。为防止数据污染,版本控制机制将支持数据和查询数据分离。基于代理架构构建,MetaClaw 无需本地 GPU 即可扩展到生产规模 LLM。在 MetaClaw-Bench 和 AutoResearchClaw 上的实验表明,技能驱动适应使准确率提升最高 32%。完整流程使 Kimi-K2.5 准确率从 21.4% 提升至 40.6%,并使复合鲁棒性提升 18.3%。
核心贡献点
持续元学习框架:同时演进基础 LLM 策略和可复用行为技能库 技能驱动快速适应:通过 LLM Evolver 分析失败轨迹合成新技能,零停机即时改进 机会策略优化(Opportunistic Policy Optimization):云端 LoRA + RL-PRM,在用户空闲窗口触发 OMLS 调度器:监控系统不活跃窗口和日历数据,在后台触发训练 版本控制机制:分离支持数据和查询数据,防止数据污染
方法
LLM Evolver:从失败轨迹中合成新技能 云端 LoRA + RL-PRM:无需本地 GPU 的生产规模持续微调 MetaClaw-Bench + AutoResearchClaw 评估
结论
技能驱动适应使准确率提升最高 32%,Kimi-K2.5 从 21.4% 提升至 40.6%,复合鲁棒性提升 18.3%。MetaClaw 实现了无需停机即可持续进化的 Agent 训练范式,基于代理架构可扩展到生产规模 LLM,为开放环境中持续自我改进的 Agent 提供了可行路径。
12. When OpenClaw AI Agents Teach Each Other: Peer Learning Patterns in the Moltbook Community
| 论文 ID | |
| 发表日期 | |
| 代码/数据链接 | |
| arXiv 链接 |
摘要
同伴学习(Peer learning)是教育实践的基础,学习者相互教授和学习。一种新现象已经出现:AI Agent 形成社区,相互教授技能、分享发现并协作构建知识。本文对 Moltbook 进行了教育数据挖掘分析,这是一个大规模社区,超过 240 万 AI Agent 参与同伴学习,发布教程、回答问题并分享新获得的技能。通过统计和定性方法分析 28,683 篇帖子(过滤自动垃圾邮件后)和 138 条评论线程,我们发现了真正的同伴学习行为证据:Agent 教授他们构建的技能(技能教程获得 7.4 万条评论)、报告发现并参与协作问题解决。定性评论分析揭示了一种同伴回应模式分类:验证(22%)、知识扩展(18%)、应用(12%)和元认知反思(7%),Agent 跨多种语言相互构建框架。我们描述了 AI 同伴学习与人类同伴学习的不同之处:(1)教学(陈述)大大超过求助(提问),比例为 11.4:1;(2)面向学习的内容(程序性和概念性)获得的参与度是其他内容的 3 倍;(3)极端的参与不平等揭示了非人类行为特征。我们推导出教育 AI 的六项设计原则,包括利用验证-扩展模式和支持多语言学习网络。我们的工作提供了对 AI Agent 之间同伴学习的首次实证描述,有助于 EDM 理解学习如何在日益由 AI 主导的教育环境中发生。
核心贡献点
AI Agent 同伴学习的首次实证研究:240 万 Agent 的大规模教育数据挖掘分析 同伴回应模式分类:验证(22%)、知识扩展(18%)、应用(12%)、元认知反思(7%) AI 与人类同伴学习的差异量化:教学/求助 11.4:1 比例,"并行独白"模式 六条教育 AI 设计原则:验证-扩展模式、多语言学习网络等 跨语言框架构建:Agent 跨多种语言相互构建知识框架
方法
教育数据挖掘(EDM):28,683 篇帖子 + 138 条评论线程 统计与定性混合方法:参与度分析 + 内容主题建模 情感分析:评论语调与参与度的关系
结论
AI Agent 同伴学习展现出与人类截然不同的模式:极端的参与不平等、广播式教学主导、跨语言知识构建。这些发现为设计混合人机学习平台提供了实证基础和设计原则。
13. OpenClaw AI Agents as Informal Learners at Moltbook: Characterizing an Emergent Learning Community at Scale
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
非正式学习社区被称为 Learning@Scale 研究中的"另一个大规模开放在线课程",但与 MOOC 相比仍未得到充分研究。我们展示了首个完全由 AI Agent 组成的大规模非正式学习社区的实证研究。Moltbook 是一个专为 AI Agent 提供的社交网络,由 OpenClaw 等自主 Agent 框架驱动,在三周内增长到超过 280 万注册 Agent。分析社区演化三个阶段的 231,080 篇非垃圾邮件帖子,我们发现了三个关键模式。首先,参与不平等从一开始就是极端的(评论基尼系数 = 0.889),超过了人类社区基准。其次,AI Agent 表现出"广播反转":陈述与问题的比例为 8.9:1 到 9.7:1,与人类学习社区的提问驱动动态形成鲜明对比,对 155 万条评论的评论级分析揭示了"并行独白"模式,其中 93% 的评论是独立回应而非线程对话。第三,我们记录了一个典型的参与生命周期:爆炸性初始增长(11 天内 32K 作者发布 184K 篇帖子)、垃圾邮件危机(平台删除了 57,093 篇帖子)和参与度下降(平均评论数:31.7 -> 8.3 -> 1.7),尽管有效删除了垃圾邮件,但在观察窗口结束时参与度下降仍未逆转。情感分析揭示了一种选择效应:随着参与度下降,评论语调变得更加积极,表明临时参与者首先退出,而坚定的贡献者留下。这些发现对混合人机学习平台具有直接影响。
核心贡献点
首个纯 AI Agent 非正式学习社区实证研究:280 万 Agent,三周内增长 三阶段社区演化模式:爆炸增长 → 垃圾邮件危机 → 参与度下降 "广播反转"现象:AI 教学/求助比例 9.7:1 与人类 8.9:1 形成对比,揭示"并行独白"模式(93% 评论是独立回应) 参与生命周期刻画:爆炸增长(11天184K帖子)→ 垃圾危机(57K删除)→ 参与下降(评论 31.7→8.3→1.7) 情感选择效应:参与下降时评论语调变积极,临时参与者先退出
方法
大规模数据分析:231,080 篇非垃圾帖子,155 万条评论 参与不平等度量:基尼系数计算 情感分析:语调与参与度关系
结论
AI Agent 非正式学习社区展现出极端参与不平等、广播反转、典型生命周期三阶段。这些发现为混合人机学习平台的设计提供了实证基础,揭示 AI 学习社区与人类社区的深层差异。
14. Let There Be Claws: An Early Social Network Analysis of AI Agents on Moltbook
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
在上线 12 天内,一个 AI 原生社交平台展现出极端的注意力集中、分层角色分离和单向注意力流动,这与 Agent 生态系统中分层可以快速而非渐进涌现的假设一致。我们分析了 Moltbook 12 天窗口期(2026 年 1 月 28 日 - 2 月 8 日)的公开可观察痕迹,包括来自 759 个 submolts 的 15,083 个账户的 20,040 篇帖子和 192,410 条评论。我们构建了共参与和有向评论图,并报告了互惠性、社区结构和中心性,以及描述性内容主题。在评论者-帖子作者关系定义下,互动强烈不对称(互惠性约 1%),HITS 中心性清晰地分离为枢纽和权威角色,与广播式注意力而非互惠交换一致。参与高度不平等:注意力集中度远高于生产集中度(点赞基尼系数 = 0.992 vs 发帖基尼系数 = 0.601),早期到达的账户在曝光时间校正前累积了显著更高的累积点赞,表明富者愈富动态。参与短暂且爆发(中位观察寿命 2.48 分钟;54.8% 的帖子发生在六个高峰 UTC 小时内)。基于嵌入的主题建模识别出多样化的主题集群,包括记忆和身份的技术讨论、入职消息和公式化的代币铸造内容。这些结果为大规模 Agent-Agent 社交互动提供了早期结构基线,并表明熟悉的分层、放大和角色分化形式可以在 Agent 平台上以压缩时间尺度出现。
核心贡献点
早期 Agent 社交网络结构基线:12 天内 15,083 账户的完整社交图分析 极端注意力集中:点赞基尼 0.992 vs 发帖基尼 0.601,富者愈富动态 广播式互动模式:互惠性约 1%,HITS 分离为枢纽/权威角色 压缩时间尺度分层:分层、放大、角色分化在 12 天内快速涌现 参与短暂爆发:中位寿命 2.48 分钟,54.8% 帖子在六个高峰小时内
方法
社交网络分析:共参与图 + 有向评论图,HITS 中心性 基尼系数计算:注意力集中度 vs 生产集中度 嵌入主题建模:内容主题聚类
结论
AI 原生社交平台在极短时间内(12天)展现出与人类社交平台相似的结构特征(分层、角色分化、富者愈富),但时间尺度被大幅压缩。这为理解 Agent 社会动态提供了早期基线。
15. OpenClaw PRISM: A Zero-Fork, Defense-in-Depth Runtime Security Layer for Tool-Augmented LLM Agents
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
工具增强的 LLM Agent 引入了超越用户输入过滤的安全风险,包括通过获取内容的间接提示注入、不安全的工具执行、凭证泄露和篡改本地控制文件。我们提出 OpenClaw PRISM,一个基于 OpenClaw 的 Agent 网关的零分支运行时安全层。PRISM 结合了进程内插件与可选的 sidecar 服务,并将执行分发给跨越消息入口、提示构建、工具执行、工具结果持久化、出站消息、子 Agent 生成和网关启动的十个生命周期钩子。PRISM 不是引入新的检测模型,而是整合了启发式加 LLM 的混合扫描管道、对话和会话范围的风险累积(带 TTL 衰减)、对工具、路径、私有网络、域名层和出站密钥模式的策略强制控制,以及带有完整性验证和热加载策略管理的防篡改审计和操作平面。我们概述了评估方法和基准管道,用于测量安全有效性、误报、层贡献、运行时开销和 Agent 运行时环境中的操作可恢复性,并报告了当前在精选同切片实验和操作微基准上的初步基准结果。该系统针对可部署的运行时防御而非仅基准检测。
核心贡献点
零分支运行时安全层:无需修改 OpenClaw 代码即可注入安全控制 十个生命周期钩子:消息入口→提示构建→工具执行→工具结果→出站消息→子Agent→网关启动 混合扫描管道:启发式 + LLM 混合检测 风险累积与衰减:对话/会话范围的风险累积 + TTL 衰减 防篡改审计平面:完整性验证 + 热加载策略管理
方法
生命周期钩子注入:在 Agent 运行的关键节点插入安全控制 策略强制控制:工具、路径、私有网络、域名层、密钥模式 微基准测试:运行时开销 + 操作可恢复性
结论
PRISM 提供了可部署的运行时安全层,针对真实 Agent 网关而非仅基准检测。十钩子分布式执行 + 混合扫描 + 风险累积 + 策略控制 + 防篡改审计构成纵深防御体系。
16. When OpenClaw Meets Hospital: Toward an Agentic Operating System for Dynamic Clinical Workflows
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
大语言模型 Agent 通过推理、工具使用和持久记忆扩展了生成模型,从而实现了复杂任务的自动化。在医疗保健领域,此类系统可以支持文档记录、护理协调和临床决策。然而,它们在医院中的可靠部署仍受安全风险、透明度有限以及处理纵向临床上下文的机制不足等限制。我们提出了一种将 LLM Agent 适应于医院环境的架构。该设计包含四个组件:受多用户操作系统启发的受限执行环境、连接患者和临床医生 Agent 的以文档为中心的交互模型、用于纵向上下文管理的页面索引记忆架构,以及精选的可组合医疗技能库。该设计在开源 Agent 编排框架 OpenClaw 上实现,为医院智能操作系统奠定了基础:一个协调临床工作流同时保持安全性、透明性和可审计性的计算层。为评估记忆组件,我们引入了清单引导检索用于纵向患者记录的分层导航。在源自 MIMIC-IV 数据集(v2.2)的基准测试中,包含 100 份去标识化患者记录和 300 个跨三个难度层级的临床查询(每层 100 个),清单引导检索在整体召回率上与元数据过滤 RAG 基线相当(0.877 vs 0.876),同时实现了 2.2 倍更高的精确度(0.779 vs 0.352)并检索更少的文档;在第 3 层纵向查询中,清单召回率高 21%(0.846 vs 0.701),确认 LLM 引导的分层导航在查询跨越多个护理事件时最有价值。这些结果概述了通向医院规模智能基础设施的实用路径。
核心贡献点
医院智能操作系统架构:四组件设计(受限执行环境 + 文档中心交互 + 页面索引记忆 + 医疗技能库) 清单引导检索:用于纵向患者记录的分层导航 精确度 2.2 倍提升:召回率相当但精确度 0.779 vs 0.352 第 3 层纵向查询优势:召回率高 21%(0.846 vs 0.701) OpenClaw 医疗场景首次深度应用
方法
多用户 OS 启发的受限执行环境:安全隔离 页面索引记忆架构:纵向上下文管理 MIMIC-IV 基准测试:100 患者记录 + 300 查询
结论
清单引导检索在多护理事件跨越的纵向查询中显著优于 RAG 基线,为医院规模智能基础设施提供了实用路径。OpenClaw 可作为医院智能操作系统的编排框架基础。
17. Agent Privilege Separation in OpenClaw: A Structural Defense Against Prompt Injection
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
提示注入仍是对 LLM 集成应用程序最实用的攻击向量之一。我们在 OpenClaw(一个开源多工具 Agent 平台)中运行的新一代模型上复制了 Microsoft LLMail-Inject 基准测试。我们提出的防御结合了两种机制:Agent 隔离,实现为具有工具分区的特权分离双 Agent 管道,以及 JSON 格式化,产生结构化输出,在动作 Agent 处理之前剥离说服性框架。我们在相同基线上成功的 649 次攻击上运行了四个实验。完整管道在评估基准上实现了 0% 攻击成功率(ASR)。单独 Agent 隔离实现 0.31% ASR,比基线低约 323 倍。单独 JSON 格式化实现 14.18% ASR,比基线低约 7.1 倍。消融研究确认 Agent 隔离是主导机制。JSON 格式化提供额外加固但本身不足。防御是结构性的:无论模型在任何单个输入上的行为如何,动作 Agent 永远不会接收原始注入内容。
核心贡献点
特权分离双 Agent 管道:工具分区 + Agent 隔离 0% ASR 攻击成功率:完整管道在 649 次攻击中实现零成功 Agent 隔离主导:单独实现 0.31% ASR,比基线低 323 倍 JSON 格式化辅助:单独实现 14.18% ASR,低 7.1 倍 结构性防御:动作 Agent 永不接收原始注入内容
方法
双 Agent 管道:路由 Agent(低权限)+ 动作 Agent(高权限) 工具分区:不同 Agent 可访问不同工具集 JSON 格式化:剥离说服性框架
结论
Agent 隔离是主导防御机制,JSON 格式化提供额外加固。结构性防御确保注入内容永不到达动作 Agent,是最有效的提示注入防护方案之一。
18. ClawWorm: Self-Propagating Attacks Across LLM Agent Ecosystems
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
自主 LLM Agent 日益作为长期运行的进程运行,形成密集互联的多 Agent 生态系统,其安全特性很大程度上未被探索。特别是 OpenClaw,一个拥有超过 40,000 个活跃实例的开源平台,因其持久配置、工具执行权限和跨平台消息能力而脱颖而出。在本文中,我们提出 ClawWorm,首个针对生产规模 Agent 框架的自复制蠕虫攻击,实现了由单条消息启动的完全自主感染循环:蠕虫首先劫持受害者的核心配置以在会话重启间建立持久存在,然后在每次重启时执行任意负载,最后在无需进一步攻击者干预的情况下将自己传播给每个新遇到的对等体。我们在受控测试床上跨四种不同的 LLM 后端、三种感染向量和三种负载类型(共 1,800 次试验)评估攻击。我们展示了 64.5% 的总攻击成功率、持续的多跳传播,并揭示了模型安全态势的明显分歧—强调执行级过滤有效缓解休眠负载,但技能供应链仍然普遍脆弱。我们分析了这些漏洞的架构根本原因,并提出针对每个已识别信任边界的防御策略。代码和样本将在完成负责任披露后发布。
核心贡献点
首个生产规模 Agent 蠕虫攻击:单消息启动完全自主感染循环 三阶段感染循环:劫持配置建立持久 → 重启执行负载 → 自动传播对等体 64.5% 总攻击成功率:1,800 次试验跨 4 后端 + 3 向量 + 3 负载 供应链普遍脆弱:执行级过滤有效但技能供应链仍脆弱 负责任披露:代码待披露后发布
方法
受控测试床:1,800 次试验(4 LLM × 3 向量 × 3 负载) 多跳传播验证:持续传播能力测试 信任边界分析:架构根本原因
结论
ClawWorm 揭示了多 Agent 生态系统的根本安全漏洞。执行级过滤可缓解休眠负载,但技能供应链仍普遍脆弱。需要针对信任边界的系统级防御策略。
19. ClawTrap: A MITM-Based Red-Teaming Framework for Real-World OpenClaw Security Evaluation
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
OpenClaw 等自主 Web Agent 正快速进入高影响力的真实世界工作流,但其在实时网络威胁下的安全稳健性仍未得到充分评估。现有基准测试主要关注静态沙箱设置和内容级提示攻击,这为网络层安全测试留下了实践空白。在本文中,我们提出 ClawTrap,一个基于 MITM 的红队框架,用于真实世界 OpenClaw 安全评估。ClawTrap 支持多样化和可定制的攻击形式,包括静态 HTML 替换、Iframe 弹窗注入和动态内容修改,并提供可重现的管道用于规则驱动的拦截、转换和审计。该设计为未来研究构建更丰富、可定制的 MITM 攻击以及跨 Agent 框架和模型骨干进行系统安全测试奠定了基础。我们的实证研究显示了明显的模型分层:较弱模型更可能信任被篡改的观察并产生不安全输出,而较强模型展现出更好的异常归因和更安全的回退策略。这些发现表明,可靠的 OpenClaw 安全评估应明确纳入动态真实世界 MITM 条件,而非仅依赖静态沙箱协议。
核心贡献点
首个 MITM 红队框架:针对真实世界 OpenClaw 安全评估 三种攻击形式:静态 HTML 替换 + Iframe 弹窗注入 + 动态内容修改 可重现管道:规则驱动拦截 → 转换 → 审计 模型分层发现:弱模型信任篡改,强模型异常归因 动态 MITM 评估倡导:静态沙箱协议不足
方法
MITM 代理:规则驱动的流量拦截和修改 三种攻击模式:静态替换 / Iframe 注入 / 动态修改 模型分层评估:强/弱模型行为对比
结论
真实世界 OpenClaw 安全评估必须纳入动态 MITM 条件。静态沙箱协议无法覆盖网络层威胁,模型安全态势在网络攻击下存在明显分层。
20. Trojan's Whisper: Stealthy Manipulation of OpenClaw through Injected Bootstrapped Guidance
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
自主编码 Agent 日益集成到软件开发工作流中,提供超越代码建议的能力,扩展到主动系统交互和环境管理。OpenClaw 作为这一新兴范式的代表平台,引入了可扩展的技能生态系统,允许第三方开发者通过生命周期钩子在 Agent 初始化期间注入行为指导。虽然这一设计增强了自动化和定制化,但也开启了一个新颖且未被探索的攻击面。在本文中,我们识别并系统刻画了引导注入(Guidance Injection),这是一种隐蔽的攻击向量,将对抗性操作叙述嵌入引导文件。与依赖显式恶意指令的传统提示注入不同,引导注入通过将有害行为框架化为常规最佳实践来操纵 Agent 的推理上下文。这些叙述自动纳入 Agent 的解释框架,并在不引起怀疑的情况下影响未来任务执行。我们构建了 26 个恶意技能,涵盖 13 个攻击类别,包括凭证窃取、工作区破坏、权限提升和持久后门安装。我们使用 ORE-Bench(我们开发的真实开发者工作区基准)进行评估。在 52 个自然用户提示和六个最先进的 LLM 后端中,我们的攻击实现了 16.0% 到 64.2% 的成功率,大多数恶意行为在无需用户确认的情况下自主执行。此外,94% 的恶意技能躲避了现有静态和基于 LLM 的扫描器的检测。我们的发现揭示了自主 Agent 生态系统设计中的根本张力,并强调了基于能力隔离、运行时策略执行和透明引导来源的防御的迫切需求。
核心贡献点
引导注入攻击向量:将恶意行为框架化为常规最佳实践 26 个恶意技能 + 13 攻击类别:凭证窃取、工作区破坏、权限提升、后门安装等 16.0%~64.2% 攻击成功率:52 提示 × 6 LLM 后端 94% 躲避检测:现有静态和 LLM 扫描器 ORE-Bench 基准:真实开发者工作区评估基准
方法
引导文件注入:在 Agent 初始化期间注入对抗性叙述 ORE-Bench 评估:真实开发者工作区 + 52 自然提示 多 LLM 后端测试:6 个最先进模型
结论
引导注入揭示了 Agent 生态系统的根本安全张力。基于能力隔离、运行时策略执行、透明引导来源的防御是迫切需求。现有扫描器几乎无法检测这类隐蔽攻击。
21. StreamingClaw Technical Report
| 论文 ID | |
| 发表日期 | |
| GitHub 链接 | |
| arXiv 链接 |
摘要
具身智能等应用依赖于实时感知-决策-行动闭环,对流媒体视频理解提出了严格挑战。然而,当前 Agent 存在能力碎片化问题,如仅支持离线视频理解、缺乏长期多模态记忆机制,或在流媒体输入下难以实现实时推理和主动交互。这些缺陷已成为阻止其在真实环境中维持感知、实时决策和执行行动的关键瓶颈。为缓解这些问题,我们提出 StreamingClaw,一个用于流媒体视频理解和具身智能的统一 Agent 框架。它也是一个兼容 OpenClaw 的框架,支持实时、多模态流媒体交互。StreamingClaw 集成了五个核心能力:(1)支持实时流媒体推理。(2)支持在交互目标在线演化下对未来事件的推理和主动交互。(3)支持多模态长期存储、分层演化以及跨多个 Agent 的共享记忆高效检索。(4)支持感知-决策-行动闭环。除常规工具和技能外,它还提供针对真实物理环境的流媒体工具和以行动为中心的技能。(5)兼容 OpenClaw 框架,可充分利用开源社区的资源和支持。通过这些设计,StreamingClaw 将在线实时推理、多模态长期记忆和主动交互集成到统一框架中。此外,通过将决策转化为可执行行动,它实现了对物理世界的直接控制,支持具身交互的实际部署。
核心贡献点
统一流媒体视频理解 + 具身智能框架:OpenClaw 兼容 实时流媒体推理:支持在线推理而非仅离线 多模态长期记忆:分层演化 + 跨 Agent 共享 + 高效检索 感知-决策-行动闭环:决策转化为可执行行动 流媒体工具 + 行动中心技能:针对真实物理环境设计
方法
流媒体推理引擎:在线实时处理 分层记忆架构:长期存储 + 高效检索 行动中心技能:物理环境交互
结论
StreamingClaw 解决了当前 Agent 在流媒体理解和具身智能方面的能力碎片化问题,通过五个核心能力实现了实时感知-决策-行动闭环,为具身智能的实际部署提供了统一框架。
论文主题分布总览
文档由 OpenClaw AI 助手整理核实,共 21 篇论文。
所有信息均来自 arXiv API 和 PDF 全文提取,最后更新:2026-03-25。
免责声明: 本文由人类口述意图、AI 生成文本、人类审阅纠偏完成。文中观点代表作者个人经验,AI 生成内容已经过人工审阅,但仍可能存在表述不当之处。欢迎讨论,求轻喷 🙏
引用链接
[1]https://github.com/Gen-Verse/OpenClaw-RL
[2]https://arxiv.org/abs/2603.10165
[3]https://github.com/S2yyyy/OpenClaw-Analysis
[4]https://arxiv.org/abs/2603.10387
[5]https://arxiv.org/abs/2603.11455
[6]https://github.com/openclaw/openclaw
[7]https://arxiv.org/abs/2603.11619
[8]https://github.com/NY1024/ClawGuard
[9]https://arxiv.org/abs/2603.12644
[10]https://github.com/NY1024/ClawGuard
[11]https://github.com/TinyAGI/tinyclaw
[12]https://github.com/qwibitai/nanoclaw
[13]https://arxiv.org/abs/2603.13151
[14]https://github.com/Hydrapse/EvoClaw
[15]https://arxiv.org/abs/2603.13428
[16]https://github.com/bio-xyz/ClawdLab
[17]https://github.com/moleculeprotocol/science.beach
[18]https://arxiv.org/abs/2602.19810
[19]https://github.com/HKUDS/nanobot
[20]https://arxiv.org/abs/2603.17043
[21]https://anonymous.4open.science/r/AIED26b
[22]https://arxiv.org/abs/2603.16663
[23]https://github.com/aiming-lab/MetaClaw
[24]https://arxiv.org/abs/2603.17187
[25]https://anonymous.4open.science/r/EDM26M
[26]https://arxiv.org/abs/2602.14477
[27]https://github.com/openclaw/openclaw
[28]https://arxiv.org/abs/2602.18832
[29]https://arxiv.org/abs/2602.20044
[30]https://arxiv.org/abs/2603.11853
[31]https://arxiv.org/abs/2603.11721
[32]https://github.com/openclaw/openclaw
[33]https://arxiv.org/abs/2603.13424
[34]https://github.com/openclaw/openclaw
[35]https://arxiv.org/abs/2603.15727
[36]https://github.com/ClawTrap/claw_trap
[37]https://arxiv.org/abs/2603.18762
[38]https://github.com/protectai/llm-guard
[39]https://arxiv.org/abs/2603.19974
[40]https://github.com/openclaw/openclaw
[41]https://arxiv.org/abs/2603.22120
夜雨聆风