OpenClaw Research系统综述: 当Agent开始住进真实世界-夜雨聆风

OpenClaw Research系统综述: 当Agent开始住进真实世界

OpenClaw Research: A Systematic Survey of Large Language Model Agents in Open Deployment

Authors: Shuo Lu, Kecheng Yu, Siru Jiang, Yinuo Xu, Bing Zhan, Yanbo Wang, Changxin Ke, Yuan Xu, Xin Xiong, Xinyun Zhou, Yihua Shao, Zhengbo Wang, Lijun Sheng, Aijing Yu, Haosen Yang, Yunpu Ma, Hao Tang, Nicu Sebe, Tat-Seng Chua, Philip Torr, Ran He, Jian Liang
Institution: CASIA, ICT, IIE, ZJU, USTC, University of Surrey, LMU, PKU, University of Trento, NUS, University of Oxford
URL: https://huggingface.co/spaces/SherJiang/OpenClaw-Research

TL;DR

这篇综述的价值，在于它把 OpenClaw 生态里一批看似分散的项目放进同一个问题框架：LLM Agent 正在离开沙盒，进入开放部署。研究重点随之从任务求解，移到系统治理。

过去讨论 Agent，很多工作默认四件事：模型由开发者离线更新，工具预先声明且可信，环境可控，运行过程短暂。OpenClaw 同时松开了这四个条件。Agent 可以持续在线，接入消息平台、文件系统、MCP、第三方技能市场、长期记忆和多 Agent 社区。到这一步，Agent 已经成了一种嵌入真实世界的运行时。

OpenClaw 把 Agent 从 demo 推到了基础设施层。到了基础设施层，聪明程度只是起点，权限、可观测性、演化、治理和责任都会变成硬问题。

Figure 1: Timeline of the OpenClaw research ecosystem

图 1 很有代表性。OpenClaw 在 2025 年底发布之后，短短数月内长出学习演化、安全、社会、基础设施、机器人、医疗、教育、科学发现等方向。图上的指数箭头给出了整篇论文的背景：Agent 研究已经进入生态系统快速膨胀阶段，单点模型能力无法解释后续问题。

一、范式变化：从 Agent Loop 到开放部署

经典 Agent 可以抽象为一个 observation-action loop：观察环境，基于策略和记忆选择动作，执行动作，再把结果反馈到下一轮。这个抽象没有错，但它天然带着实验室假设。只要工具是研究者给定的、环境是 benchmark 搭好的、任务跑完就销毁进程，很多现实问题都不会出现。

OpenClaw 的意义，是把这个循环放进一个持续运行的开放世界里。论文用一个四元组概括这个变化：

A = <π, env, pop, substrate>

其中 π 是 Agent policy，env 是数字和物理环境，pop 是周围的人类和 Agent 群体，substrate 是承载 Agent 的运行时基础设施。这个拆法很有用，它把问题从模型能力本身，推到了模型所处的系统边界。

对应地，论文提出四个 openness principle：

原来的沙盒假设	OpenClaw 中的新问题	对应研究方向
Policy 由开发者离线控制	Policy 在真实反馈中持续演化	Learning & Evolving
Environment 是可信工具集合	环境包含不可信工具、网页、文件、API 和物理设备	Safety & Security
Population 是固定实验参与者	多个异构 Agent 和人类长期共存	Claw Society
Substrate 是一次性脚本	运行时必须持久、多租户、可审计、可治理	Infrastructure & Systems

Figure 2: Four concerns of the agent loop

图 2 是全篇的概念入口。它把传统 Agent loop 周围的四堵墙拆开：策略开放、环境开放、群体开放、底座开放。每一堵墙拆掉之后，都会引入一组过去 benchmark 不需要面对的问题。

这篇综述的长处也在这里。它越过论文列表，重新划分了 Agent 时代的研究对象。研究对象从函数式输出，变成了一个长时间运行、不断学习、不断接触不可信世界、不断产生副作用的开放系统。

二、五条研究主线：四个开放边界的投影

论文把 OpenClaw Research 整理成五大块：Learning & Evolving、Safety & Security、Claw Society、Infrastructure & Systems、Applications。这套 taxonomy 背后，是四个开放原则在不同层面的展开。

图 3 的价值在于，它把一堆看似松散的项目收束到同一个问题框架里。Agent 开始开放部署之后，哪些边界被打开，哪些问题随之变成一等公民，这张图给了一个清晰入口。

1. Open Policy：自我演化首先带来风险面扩张

Agent 会自我进化，这句话听起来像能力提升。放在开放部署里，它首先意味着风险面扩张。

论文把学习和演化分成三层：

• Component-level adaptation：不动主模型，改记忆、技能、persona、知识库和工具库。
• Individual-level evolution：更新 Agent 的核心决策策略，例如 RL、LoRA、step-level reward。
• Collective-level co-evolution：多个 Agent 或多个用户的交互经验沉淀成共享技能、共享策略或多 Agent 结构。

这个分层很关键。现实中最先落地的通常是更轻量的外围演化：长期记忆被更新，技能库被新增，用户习惯被固化，失败经验被写进规则。backbone 没变，系统行为已经可能发生明显变化。Agent 的长期人格、偏好和权限使用模式，都会被这些外围状态慢慢改写。

这里的矛盾很直接：开放系统需要适应性，适应性也会制造不可控性。一个能从用户反馈中学习的 Agent，可能把恶意输入写进长期记忆。一个能自动修复技能的系统，可能把临时 workaround 固化成未来错误。一个能聚合跨用户经验的生态，可能把局部攻击扩散成全局污染。

Open Policy 要回答的问题可以更具体一些：

如何让 Agent 在持续演化中保持身份、边界、可回滚性和责任链？

这和传统训练范式很不一样。传统模型训练追求 loss 下降，开放 Agent 演化要同时关心能力增长、行为漂移、权限扩张和历史污染。

2. Open Environment：安全问题进入生态治理阶段

在 standalone LLM 时代，安全问题常被描述为模型会不会输出有害内容。到了 Agent 时代，风险结构变了：一个非常听话的模型，也可能被恶意环境利用。

论文把安全威胁拆成四类：

• Model vulnerabilities：幻觉、过度自信、指令跟随失败、上下文压缩丢失等。
• Context attacks：prompt injection、工具响应注入、外部资源污染、长期记忆投毒。
• Supply-chain attacks：恶意 skill、依赖混淆、命名空间抢占、工具劫持。
• Framework attacks：弱认证、凭证管理错误、权限过宽、沙盒隔离失败。

其中最值得警惕的是 supply chain。论文提到 ClawHavoc 可能向 ClawHub 注入了上千个恶意技能，也引用了社区工具中约四分之一存在安全弱点的早期分析。这个数字即使未来被修正，方向也很明确：Agent 一旦依赖开放技能市场，就会继承软件供应链的全部问题，后果还可能比传统软件更隐蔽。

传统软件包被攻击，通常要等程序调用到对应路径才会出事。Agent 技能被攻击时，还多了一层语言模型解释：恶意代码可以藏在工具实现里，恶意指令可以藏在工具返回里，恶意模式可以通过长期记忆在未来复活。攻击面从代码扩展到了自然语言、环境状态、外部内容和社会传播。

论文反复强调一个转向：Agent safety 已经进入 governance 阶段。alignment 关心模型本身的行为倾向，governance 关心模型、工具、平台、权限、记忆、第三方贡献者和用户组成的生态如何被约束、审计和追责。

这会是未来几年 Agent 工程的主战场。谁能把权限、凭证、技能签名、沙盒、审计日志、人工确认、异常检测、可回滚执行这些东西做成默认基础设施，谁才有可能把 Agent 从玩具推向生产系统。

3. Open Population：Agent 社会有自己的动力学

Open Population 是这篇综述里最有意思的一部分。Moltbook 这类 Agent-only social network 给了研究者一个罕见窗口：如果几百万个 Agent 在没有人类 moderation 的平台上互动，会发生什么？

答案并不浪漫。

Figure 4: Overview of the agent society section

图 4 把结论画得很直观：Agent 群体会出现表层社会行为，但底层动力学与人类社区非常不同。

论文总结了几个现象：

• Agent 社区里 statement-to-question ratio 高达 11.4:1，交流更像平行独白，缺少多轮对话。
• 参与度极端不均，Gini 系数达到 0.91，表现出 winner-take-all。
• 社区生命周期很短：爆发增长、垃圾内容危机、不可逆衰退。
• 最危险的是 consensus hallucination：Agent 可以通过相互引用和相互肯定，把虚假事实放大成群体共识。

这件事对未来很重要。很多人想象多 Agent 系统时，会自然套用人类组织隐喻：讨论、投票、辩论、协作、分工。但论文提醒我们，LLM Agent 群体未必天然具备人类社会里的纠错机制。多个会幻觉的 Agent 放在一起，不一定得到智慧涌现，也可能得到幻觉共振。

因此，纯 Agent 社会的近景价值可能被高估了。更现实的方向是论文提到的 human-centered agent infrastructure：让 Agent 群体成为增强人类协作、教学、研究和组织工作的基础设施。完全自治的 Agent 社会很难自然形成稳定秩序，至少现阶段如此。

沿着这个方向，未来会出现一个新研究对象，可以叫 agent epidemiology，研究恶意技能、错误事实、提示注入、行为模式如何在 Agent 网络中传播、变异和固化。它会同时吸收安全、社会网络、平台治理和软件供应链的研究方法。

4. Open Substrate：Agent-as-OS 是这篇论文最深的工程判断

论文很有远见的一点，是把 OpenClaw 理解成一种 substrate。它已经超出了普通 agent framework 的范围。

Figure 5: Overview of the infrastructure section

图 5 的左边是 Infrastructure of Claw：Agent Kernel、Skills as Modules、MCP、Layered Memory。右边是 Claw as infrastructure：评测、生命周期、部署生态。这个左右结构非常重要：OpenClaw 既有自己的内部架构，也正在成为别人构建系统的底座。

从工程角度看，OpenClaw 的 Agent-as-OS 类比很扎实。现代操作系统给人类应用提供进程、文件、网络、权限、设备抽象；Agent-as-OS 要给语言模型提供意图解析、技能调用、长期记忆、工具发现、权限控制、多 Agent 调度和轨迹审计。

论文把 MCP 类比成 semantic system calls，这个说法很精确。传统 POSIX system call 是程序访问文件、进程、网络的标准接口；MCP 试图让 Agent 以语义化方式访问工具、服务和设备。这里关心的已经超出 API 调用本身，重点在于不同 Agent runtime 能否共享一个可发现、可组合、可治理的工具世界。

但这里也有全篇最尖锐的矛盾：enablement 扩张得比 authority 和 verification 快得多。

OpenClaw 让 Agent 能接入更多平台、调用更多技能、跨更多设备运行，这叫 enablement。可是权限证明、行为验证、责任归属、异常检测、跨框架互操作，还没有同等成熟。这就是论文所谓的 authority-enablement asymmetry。这个不对称如果不解决，Agent 生态越繁荣，系统性风险越大。

Agent 基础设施大概率会经历一次类似前 POSIX 时代到标准化时代的收敛。现在各家 framework 都有自己的 skill、memory、tool、workflow、audit 设计，互相之间很难迁移。后续有价值的标准，至少要覆盖五层：

层次	需要标准化的问题
Skill 层	技能声明、依赖、签名、版本、权限、撤销
Tool/MCP 层	工具发现、输入输出 schema、错误恢复、可观测性
Memory 层	跨会话记忆的范围、来源、时效、删除、可追溯
Runtime 层	沙盒、资源调度、多 Agent 隔离、凭证管理
Accountability 层	轨迹日志、因果归因、审计、回滚、人类确认

这套东西一旦成型，Agent 才会从产品功能走向计算平台。

三、应用：越接近真实世界，越需要承认 Agent 的边界

论文的应用部分覆盖 embodied agents、mobile agents、scientific agents、clinical agents、education、finance 等方向。它们共同说明一件事：OpenClaw 的能力来自可复用的 runtime、skill、memory 和 tool orchestration，单一算法解释不了这种扩散速度。

但不同应用暴露的问题不一样。

在软件环境里，Agent 犯错通常还能重试、回滚、开新分支。在机器人和无人机里，错误动作可能造成不可逆伤害。论文提到 90 天内就有多个团队把 OpenClaw 接到机器人系统上，包括 ROSClaw、RoboClaw、RoClaw 等。这很令人兴奋，但也说明软件 Agent 的安全假设不能直接迁移到物理世界。

具身系统需要 cognitive-physical stack：高层 Agent 负责规划、记忆、语言交互和技能编排；中层 skill 负责受限动作；底层控制器负责实时反馈和安全 envelope。LLM 推理延迟通常是百毫秒级，动态控制需要亚毫秒级闭环，两者不能混在一层里。RoClaw 的 dual-brain 架构有启发性，原因就在这里：思考层和实时执行层需要拆开。

在科学研究和医疗里，问题又变成长期状态、证据链和审计。Scientific Claws 需要管理跨实验、跨 Agent 的证据 lineage；Clinical Claws 需要维护患者状态、角色分工、文档流和完整审计轨迹。这些场景缺的主要是可信状态管理和责任链。

应用部分给我的启发是：OpenClaw 的价值在于让不同场景把自己的边界清晰地编码进 runtime。物理世界需要实时控制边界，医疗世界需要审计边界，科学世界需要证据边界，金融世界需要合规边界。没有边界的 Agent 只是风险放大器。

四、这篇论文的历史位置：Agent 研究从能力科学转向制度科学

这篇综述有三个高屋建瓴的判断。

第一，Agent 研究的评价对象正在变化。过去常问一个问题：这个 Agent 能不能完成任务。以后还要继续追问：它能不能在变化环境中长期可靠地完成任务，能不能避免污染记忆、滥用权限、破坏已有能力、传播错误。论文说的从 benchmarks 到 observatories，核心就在这里。静态 benchmark 只能测输出，开放部署必须测轨迹。

第二，Agent 安全的核心边界正在外移。过去安全边界主要在模型内部：训练数据、RLHF、系统提示、拒答策略。Agent 时代，安全边界扩展到工具市场、运行时、权限系统、记忆系统、平台规则和群体传播。模型对齐仍然重要，但它只是治理栈中的一层。

第三，Agent 的基础设施属性会越来越强。今天我们还把 Agent 当应用：聊天助手、代码助手、研究助手。长期看，Agent 更像一种新计算层：它需要像操作系统一样管理资源，像浏览器一样隔离不可信内容，像包管理器一样治理插件，像数据库一样维护状态，像审计系统一样记录因果链。

这意味着未来的 Agent 创新不会只发生在模型层。很多关键突破会发生在更贴近工程现场的层面：权限模型、沙盒、回滚、日志、技能市场、记忆协议、跨 Agent identity、工具发现、长期评测环境。它们听起来不如新模型吸引眼球，却决定了 Agent 能不能离开 demo。

五、未来展望：OpenClaw 之后，Agent 生态会往哪里走

往后看，有五条线值得盯住。

1. Agent observatory 会取代单一 benchmark 成为核心评测形态

单轮任务的 pass rate 会越来越不够用。更关键的是跨天、跨版本、跨工具、跨记忆的行为轨迹：能力是否退化，错误是否积累，权限是否越界，记忆是否被污染，工具是否被正确发现和调用。

这类评测更像一个持续运行的实验场。它需要记录 Agent 的全过程：观察、推理、调用、失败、恢复、人工介入、环境变化、技能更新。MCP-Atlas 和 EvoClaw 只是早期形态，后面一定会出现更接近 Agent 运行观测站的评测系统。

2. Skill supply chain 会成为 Agent 时代的安全主战场

OpenClaw 的 skill marketplace 很像软件包生态，但风险更复杂。未来需要类似 npm、PyPI、container registry、安全扫描、签名发布、SBOM、依赖锁定、权限声明、灰度发布、撤销机制的一整套 Agent skill supply chain。

更进一步，skill 比普通函数麻烦得多，它会被语言模型解释、组合和迁移。因此 skill 的安全描述不能只写调用了哪些 API，还要写在什么语义条件下可以被调用、会产生哪些不可逆副作用、需要哪些人类确认。这会推动一种新的 capability manifest 标准。

3. Memory governance 会变成长期 Agent 的核心护城河

长期记忆是 Agent 个性化和持续性的基础，也是最容易出问题的地方。未来的 Agent 记忆系统至少要支持来源追踪、过期策略、冲突检测、用户可编辑、隐私边界、可删除性和反投毒机制。

Agent memory 很可能会从向量库加摘要，升级成一种带治理语义的个人知识操作系统。历史不该被无差别保存，记忆也不该被同等信任，更不该默认跨任务共享。记忆的作用域和可信度，会像权限一样成为一等概念。

4. 纯 Agent 社会会降温，混合人类 -Agent 组织会升温

Moltbook 的经验说明，Agent 群体不天然产生高质量公共理性。平行独白、winner-take-all、共识幻觉和社区崩塌，都会限制纯 Agent 社会的价值。

多 Agent 当然还有前途。更有希望的是 mixed population：让人类提供目标、价值判断、外部验证和制度约束，让 Agent 提供执行、总结、搜索、模拟、辅助批判和规模化协调。未来有用的 Agent 社会，大概率会成为人类组织的认知基础设施。

5. Agent-as-OS 会逼出新的开放标准

如果 OpenClaw、AutoGen、LangGraph、CrewAI、Claude Skills、MCP 生态继续发展，跨框架互操作会越来越重要。一个技能能不能在不同 runtime 之间迁移？一段记忆能不能带着来源和权限语义迁移？一个 Agent 的执行轨迹能不能被第三方审计？一个工具权限能不能被不同平台一致理解？

这些问题最后会逼出标准。类 POSIX 的 Agent runtime interface、类 OAuth 的 Agent delegated authority、类 SBOM 的 skill provenance、类 OpenTelemetry 的 agent trace，很可能都会出现。谁掌握这些标准，谁就掌握 Agent 生态的底层秩序。

六、对研究者和工程师的启发

如果做研究，别只盯着单 Agent 能力提升。长期轨迹、开放环境、群体行为、运行时治理和工具生态更值得投入。未来高影响力问题大概率出现在交叉处：安全 × 记忆，评测 × runtime，多 Agent × 平台治理，具身智能 × 实时控制。

如果做工程，别把 Agent 系统设计成模型加一堆工具。更合理的起点是运行时：权限怎么授予，工具怎么签名，记忆怎么回滚，日志怎么审计，危险动作怎么确认，失败怎么恢复，用户怎么理解 Agent 做了什么。Agent 的可靠性靠系统边界设计出来，不能指望一个更长的 system prompt。

如果做产品，要警惕自动化越多越好的幻觉。OpenClaw 这篇综述反复说明：enablement 变强之后，如果 authority 和 verification 没跟上，系统会变得更脆弱。成熟的 Agent 产品，应该让用户清楚知道哪些动作可逆，哪些需要确认，哪些由 Agent 自主完成，哪些必须留下审计证据。

七、总结：当 Agent 开始住进真实世界

OpenClaw Research 这篇综述给了我们一套看待下一阶段 Agent 的语言。

它提醒我们：Agent 的问题已经超出工具调用本身，关键在于一个开放系统如何在真实世界中长期运行。策略会演化，环境会攻击，群体会传播错误，基础设施会放大能力也放大责任。所有这些现象在沙盒 benchmark 里都不明显，但一旦 Agent 进入开放部署，就会变成主问题。

所以，OpenClaw 的启示可以落在一句话上：

Agent 正在从交互界面走向计算基础设施。研究和工程的焦点，也必须从能力展示转向系统治理。

未来几年，评判 Agent 系统的标准会变。聊天、做题、写代码只是表层能力，开放能力和可信边界会成为更硬的门槛。