“OpenClaw 类”自进化智能体代表项目介绍

专注AIGC技术的专业社区，关注大语言模型（LLM）的发展和应用落地，聚焦LLM及AI技术的市场研究和开发者生态，欢迎关注！

传统Agent存在两个根本性瓶颈：一是记忆短暂，大多数Agent最多保留一个对话窗口内的上下文，无法长期积累经验；二是能力固定，Agent的能力由开发者预设，无法随着使用而增长或适应。一个在用户电脑上运行了三个月的Agent，和刚安装时几乎没有区别，它不仅没有“学会”用户的偏好，甚至在重复执行相同的错误。

“自进化”的核心思想是：Agent不应该是静态的软件，而应该是一个能随着使用和环境变化而持续自我改进的有机系统。在OpenClaw生态中，“自进化”已呈现出几种不同的形态，从温和到激进依次递进：

• 自我反思 + 提示工程调整：Agent在执行任务后自动分析“哪里做得不好”，并在下一次类似任务时调整自己的推理策略。这是最保守的自进化形式，不改变任何代码或配置，仅改变LLM的推理路径。

• 自动创建/更新Skills/Routines：Agent将成功完成的任务模式抽取为可复用的技能文件，下次遇到类似任务时直接调用。Hermes Agent是这一模式最激进的代表。

• 调整自身配置与工具调用策略：Agent根据使用模式，自适应地调整模型选择（在廉价模型和高性能模型之间切换）、记忆管理策略（哪些记忆值得保留）、工具调用偏好（哪些工具更可靠）。

• 自动修改自身代码、设计新实验：在极端版本中，Agent可以直接修改构成自身的代码。Karpathy的Autoresearch是最典型的案例——Agent不断修改训练脚本和超参数，跑实验验证效果，保留有改进的变更。

这一趋势背后的现实驱动力来自两个方向。研究端，自动化实验循环在某些任务中已经超越了人工调参效率。产业端，企业部署的Agent数量正在快速增长，但能够维护和调优这些Agent的工程师极度稀缺，让Agent“自己维护自己”成了唯一可扩展的方案。

OpenClaw催生了一系列自主智能体（AI助手）的爆发。以下是一些代表性项目及其简要定位：

• Nanobot：由香港大学数据科学实验室推出的超轻量Agent内核，仅约4000行Python代码却实现了约90%的OpenClaw核心能力。极简的代码量意味着更高的可审计性和更低的安全风险——如果你想要一个“干净”的Agent内核，Nanobot可能是目前最好的起点。

• AutoResearchClaw：23阶段科研Agent流水线，覆盖从自然语言课题输入到会议格式排版的完整学术生产流程。多个子Agent分工协作（检索、阅读、写作、审稿），是一个多Agent协作的标杆案例。

• Claw Code：Anthropic Claude Code源码泄露后，社区发起的clean-room重写项目。它复刻了Claude Code的harness思路（plan-execute-verify循环），但以开源方式实现。Claw Code仓库在一天内获得了7.5万+ Star，显示出社区对“开源harness”的强烈需求。

• DeerFlow 2.0：ByteDance开源的SuperAgent Harness，建立在LangGraph/LangChain之上，强调DAG状态机式的Agent流程和多Agent协作。所有执行在Docker容器内完成，面向企业级安全与治理。与OpenClaw相比，DeerFlow更偏“企业工作流编排”而非“个人助手”。

• Autoresearch（Karpathy）：一个极简的自循环实验框架。OpenAI创始成员Andrej Karpathy用它来驱动LLM训练脚本的自动优化——Agent修改训练超参、启动训练、根据指标决定是否保留变更。Karpathy在两天内跑出约700次实验，保留约20个显著改善的配置。这个项目的简洁性恰恰是其力量的来源：Agent只需要明确的目标、稳定的实验循环和可追踪的改动历史。

• Hermes Agent：Nous Research发布的开源Agent，拥有最激进的记忆与自进化设计。四层记忆架构（即时上下文→短期工作记忆→长期结构化记忆→经验技能）加上内建学习环路，使Agent能在使用过程中持续自我改进。

一、Nanobot：OpenClaw 精神的超轻量级实现

在OpenClaw代码量膨胀至40万行的背景下，香港大学数据科学实验室（HKUDS）推出的Nanobot提供了一种截然不同的哲学：用最少代码实现最核心能力。

Nanobot是一个仅约4000行Python代码的Agent内核，却实现了约90%的OpenClaw核心能力。它的架构设计遵循“可审计性优先”原则——每一行代码都应该能被一个人类工程师在合理时间内阅读和理解。这使得Nanobot不仅是一个可用的Agent框架，更是一个理想的教学样本和研究基线。

架构特点：

• 极简Agent Loop：核心循环逻辑清晰可见，不会有数十层抽象和回调让读者迷失。

• 插件化工具与记忆接口：通过简洁的接口定义，工具和记忆后端可以替换，但接口本身的设计被严格控制在最小必要范围内。

自进化能力方面，Nanobot本身保持极简，不内置自进化机制。但HKUDS团队在其基础之上提出了OpenSpace等“自进化skill引擎”概念——一个运行在Nanobot外围的模块，能够观察Agent的行为模式，自动抽取可复用工作流模板并生成新的技能文件。这种“内核简洁、扩展在外”的设计哲学，为Agent的自进化提供了一种更可控的实现路径。

二、AutoResearchClaw：“论文工厂”式科研流水线

AutoResearchClaw是为学术生产量身打造的“论文工厂”。这个开源项目定义了23个阶段的科研Agent流水线，从自然语言课题输入到会议格式排版，涵盖了学术写作的几乎每一个环节。

整个流程分为 8个板块（Phase A-H），共计23个阶段。其中包含了很多前沿的AI Agent机制，如辩论（debate）、自我修复（self-healing）、多智能体（multi-agent）、证据核查（evidence check）。

Phase A: Research Scoping (科研范围界定/选题)。这个阶段是研究的起点，由AI自主确定研究方向。

1.TOPIC_INIT (主题初始化)：AI系统根据当前的知识库或需求，“脑补”或生成一个初始的科研课题。

2.PROBLEM_DECOMPOSE (问题拆解)：将宏大的主题拆解为具体的、可被量化或实验验证的子问题。

Phase B: Literature Discovery (文献发现)。收集外部已有的知识，避免重复造轮子。

3.SEARCH_STRATEGY (检索策略)：制定如何在学术数据库（如Google Scholar, arXiv等）中搜索关键词的策略。

4.LITERATURE_COLLECT (文献收集)：← real API，通过调用真实的学术API接口获取论文全文或元数据。

5.LITERATURE_SCREEN (文献筛选)：[gate] （关卡/质检门）。这是一个“质量门”，过滤掉无关或低质量的文献，通过该门的文献才能进入下一步。

6.KNOWLEDGE_EXTRACT (知识提取)：从筛选出的文献中提取核心观点、方法论、公式和结论。

Phase C: Knowledge Synthesis (知识合成)。结合现有文献，催生出属于本研究的新见解。

7.SYNTHESIS (综合归纳)：将提取的各种知识点串联起来，形成该领域的知识图谱或脉络。

8.HYPOTHESIS_GEN (假设生成)：← debate。该阶段引入了“辩论机制”。由多个AI角色（例：激进派/保守派）针对提取的知识进行辩论，防止单一模型陷入偏见或幻觉，从而生成更可靠、更具创新性的科学假说。

Phase D: Experiment Design (实验设计)。在虚拟/现实世界中验证假说前的准备工作。

9.EXPERIMENT_DESIGN (实验设计)：[gate] 对产出的实验方案做可行性评估，如果不合理则返工。

10.CODE_GENERATION (代码生成)：根据实验设计方案，自动生成可执行的源代码（如Python脚本）。

11.RESOURCE_PLANNING (资源规划)：计算并规划所需的计算资源（GPU、内存）、数据集或硬件。

Phase E: Experiment Execution (实验执行)。真正开始运行代码。

12.EXPERIMENT_RUN (实验运行)：系统自动执行生成好的代码，跑出数据结果。

13.ITERATIVE_REFINE (迭代优化)：← self-healing。引入“自我修复”机制——如果代码报错、崩溃或者运行结果收敛失败，AI会自行分析错误日志，自动修改代码并重新运行，直到实验成功执行为止。

Phase F: Analysis & Decision (分析与决策)。研究走到了关键分岔点。

14.RESULT_ANALYSIS (结果分析)：← multi-agent。引入“多智能体”系统。不同的AI智能体（如统计专家、领域专家、反方辩手）各自独立分析实验数据，汇总讨论，防止单一模型解读偏差。

15.RESEARCH_DECISION (科研决策)：← PIVOT/REFINE。根据分析的结果，决定下一步方向：是PIVOT（转向/改变预设方案），还是REFINE（微调/继续深耕）。这个闭环确保了科研不会一条路走到黑。

Phase G: Paper Writing (论文写作)。将成功的实验结果转化为学术论文。

16.PAPER_OUTLINE (论文大纲)：基于实验结果，先搭出论文的骨架（引言、方法、实验、结论等）。

17.PAPER_DRAFT (论文草稿)：填充内容，把大纲扩展为一篇完整的论文初稿。

18.PEER_REVIEW (同行评审)：← evidence check。AI系统自身充当“评审人”和“纠错员”，对草稿里的事实陈述进行“证据核查”——确保写出的每个结论都有对应的数据或图表支撑，杜绝“空口白话”。

19.PAPER_REVISION (论文修订)：整合评审意见，修改和完善论文。

Phase H: Finalization (最终定稿)。产出符合学术出版标准的最终产品。

20.QUALITY_GATE (质量门)：[gate] 最终的终极质检！检查论文的逻辑、篇幅、语言质量是否达标。

21.KNOWLEDGE_ARCHIVE (知识归档)：将实验数据、源代码、过程日志等全部打包归档，方便复现。

22.EXPORT_PUBLISH (导出发布)：← LaTeX。将论文直接通过LaTeX排版引擎转成符合顶级期刊/会议要求的PDF格式。

23.CITATION_VERIFY (引用核查)：← relevance check。在最终提交前，对文中所有的参考文献引用进行“相关性核查”。防止AI编造出不相关的引用文献。

多Agent协作是AutoResearchClaw的关键设计。检索、阅读、规划、写作、审稿——多专门子Agent在23个阶段中交替上场，由主调度Agent协调工作流。通过将任务分解给专门的子Agent，每个子系统可以拥有更聚焦的系统提示词、更少的工具集和更明确的成功标准。

自进化机制在AutoResearchClaw的最新版本中得到了显著增强。Human-in-the-Loop（HITL）共驾模式允许研究者在关键节点（如方法设计完成时、初稿生成后）插入人工评审和修正，这些反馈不仅影响当前任务的最终输出，还反哺到子Agent的策略。例如，如果研究者反复在方法设计阶段修正某类问题，系统会调整方法设计Agent的系统提示词，使其在未来避免同类型错误。在实验设计和文献筛选阶段，系统使用自监督指标（如交叉引用一致性、文献与课题的语义匹配评分）来调整子Agent的采样策略——更频繁地引用被多个后续工作引用的论文，降低对偏离主题的文献的权重。

风险与伦理讨论是AutoResearchClaw绕不开的话题。论文质量（AI生成的文献综述是否真正理解了原文？是否存在断章取义？）、数据虚构风险（LLM可能在不知道真实实验数据的情况下“脑补”出看似合理的结果）和学术诚信（如果一篇论文从文献检索到初稿写作完全由Agent完成，作者的学术贡献如何界定？）是学术界激烈争论的焦点。部分学术出版商已开始更新投稿政策，要求作者声明AI辅助的程度；一些会议在试点“AI生成内容检测”环节。

三、Claw Code：Claude Code 泄露重写与 harness 工程

2026年3月31日凌晨4点，安全研究员Chaofan Shou在npm注册表中发现了一个异常：@anthropic-ai/claude-code的2.1.88版本附带了59.8MB的JavaScript source map文件（cli.js.map）。这个source map指向了约50万行未混淆的TypeScript源码，几乎完整展示了Anthropic旗舰编码agent工具的内部结构。

社区在数小时内完成了源码镜像和分析，迅速解构出其中multi-agent体系、harness结构和安全机制。

在合法的clean-room重写框架下（不直接复制源码，仅基于公开分析和合法逆向工程复刻设计理念），多个社区团队创建了Claw Code项目，用Python和Rust重写Claude Code的核心harness逻辑。

部分Claw Code仓库在24小时内获得75,000+ Stars，成为GitHub历史上增速最快的仓库之一。这波浪潮的核心驱动力并非简单的“想要免费版Claude Code”，而是开发社区对成熟coding agent的harness工程的强烈好奇心。

从泄露源码的分析中，业界获得了关于成熟coding agent的harness设计的几个关键认知：

• 稳定的Plan-Execute-Verify循环：Claude Code并非简单地“写一段代码，让你来运行”。它的harness包含严格的“规划→编码→运行测试→验证结果→若失败则分析错误→修正→再测试”循环。

• 深度开发工具集成：不仅是调用API，而是深度集成编辑器（VS Code/JetBrains）、版本控制（Git操作、PR创建）、CI/CD（触发test suite、等待CI结果）。

• “不可见约束”机制：通过规范文件（规则、编码标准、设计文档）和CI gate限制agent行为——“让它自由但有边界”。这是在agent能力日益强大的时代最核心的harness工程原则之一。

Claw Code被社区视为“Claude Code harness的开源镜像”。许多OpenClaw开发者借鉴其结构重写自家智能体的harness层。一个常见的组合模式是：用OpenClaw作为统一的总调度orchestrator（利用其多通道接入和记忆系统），而在编码类子任务中切换到Claw Code风格的harness（利用其更精细的PEV循环和代码质量约束）。这种“各取所长”的组合使用，正成为Agent原生开发者的标配实践。

基于对Claude Code架构思路的理解，用Python和Rust重新实现了类似功能的harness。这些复刻项目统称为Claw Code。

四、DeerFlow 2.0：ByteDance 的 SuperAgent Harness

DeerFlow 2.0代表了Agent领域的另一条路线——从“个人小助手”走向“企业级Agent编排平台”。与1.x版本（内部深度研究框架）完全不同，2.0是一次彻底重写，核心定位变成“SuperAgent Harness”，其设计哲学与OpenClaw形成鲜明对比：OpenClaw追求个人化、轻量部署、多通道接入；DeerFlow 2.0则追求企业级工作流编排、DAG状态机管控、多Agent协作和安全沙箱隔离。

核心特征：

• 建立在LangGraph/LangChain之上：利用LangGraph的DAG状态机来定义Agent流程。每个节点是一个Agent操作，边表示控制流。这使得复杂的工作流可以被可视化设计和调试。

• 多Agent拓扑：主协调Agent调度多个专门子Agent，每个子Agent拥有独立的工具集、系统提示词和资源配置。子Agent之间可以传递中间结果。

• 持久化记忆 + Docker沙箱执行：所有子Agent的执行都在Docker容器中完成——代码运行、数据处理、外部API调用都被限制在容器边界内。这为每个子Agent提供了一定程度的隔离。

• 内建Skills系统：DeerFlow拥有自己的技能模块格式，支持技能的复用、组合和版本管理。

自进化设计是DeerFlow 2.0 Roadmap中的亮点。其提出的“分层记忆 + 自演化轮次”机制，允许Agent在每次长任务结束后自动进行“会后复盘”——分析哪些步骤高效、哪些步骤出错、哪些中间结果可以复用。复盘结果被写入Agent的长期记忆和user memory中，影响后续类似任务的处理策略。

面向企业的治理能力是DeerFlow 2.0与OpenClaw最显著的差异。DeerFlow提供了模型配置管理、安全策略定义、全链路日志追踪和自动化测试工具，使企业IT团队可以像管理传统微服务一样管理Agent集群。所有子Agent的执行环境、网络访问权限和资源配额都可以通过配置文件精细控制。

OpenClaw更擅长“个人场景”——通过你的Telegram/Slack接收指令，调动你的个人工具链完成日常任务。DeerFlow 2.0更擅长“团队场景”——在受控的企业环境中，协调多个专门Agent完成端到端的业务工作流。两者不是竞争，而是在Agent应用谱系中占据不同的生态位。事实上，已有企业将OpenClaw作为前端人机交互接口，DeerFlow作为后端工作流引擎，构建完整的企业Agent平台。

五、Autoresearch：700 次实验与“Karpathy Loop”

Andrej Karpathy在2026年初发布了一个令人印象深刻的小项目：Autoresearch。这个项目代码量极少，核心逻辑不过几百行Python，但它所展示的范式影响力远超其体积。

项目动机非常朴素：给Agent一个真实而完整的LLM训练脚本，让它自己在有限的时间和计算预算下不断试验并优化脚本。Agent直接修改训练脚本的源代码，运行训练，看指标，决定是否保留变更。

工作机制被社区称为“Karpathy Loop”：

1.人类准备一个基础训练脚本（prepare.py），其中包含模型定义、数据加载、训练循环和评估逻辑。

2.Autoresearch Agent读取脚本，在其上下文窗口内进行推理：“什么改动可能提升性能？”

3.Agent修改源代码——可能是调整学习率、改变模型层数、修改数据采样策略、甚至重写部分训练逻辑。

4.Agent启动训练，在固定时间片（如5分钟）内运行训练脚本。

5.训练完成后，Agent读取指标（loss、准确率、训练时间）。

6.如果指标有显著改善，Agent将改动以git commit形式保留；如果没有改善或变差，则丢弃改动（git reset）。

7.回到步骤2，继续尝试。

Karpathy在两天内跑出约700次实验，Agent自动保留了约20个显著改善的配置。其中最引人注目的改进是：Agent通过调整数据预处理管线和训练循环的并行化策略，将训练时间减少了约11%。

Karpathy Loop这一概念已被Forbes和Fortune等商业媒体视为“可优化任何可度量目标的通用模式”。不仅是LLM训练脚本，任何有清晰评估指标的计算任务（代码性能优化、数据库查询调优、CI/CD流水线效率提升）都可能受益于这种“Agent + 实验循环”的架构。

六、Hermes Agent：自我进化的“记忆大师”

Nous Research发布的Hermes Agent是2026年最受关注的自进化Agent框架之一。与OpenClaw强调多通道部署、Autoresearch强调实验优化不同，Hermes的核心是记忆结构与自进化技能——让Agent在使用过程中变得越来越“懂”它的主人，并积累越来越多的可复用技能。

Hermes Agent在发布后数周内GitHub Star突破10万，成为仅次于OpenClaw的热门Agent项目。5月10日，其在OpenRouter全球Token调用消耗量上，首次超越 OpenClaw。其吸引力不仅来自技术架构的激进性，更来自它在“Agent如何自我成长”这一核心命题上的深度探索。

四层记忆结构是Hermes最核心的设计创新：

• 即时上下文：当前对话中的全部交互内容，与传统LLM的上下文窗口类似。

• 短期工作记忆：最近若干任务的摘要——不是完整日志，而是经过提炼的关键信息（做了什么、结果如何、有什么教训）。

• 长期结构化记忆：类似OpenClaw的MEMORY.md/USER.md，但在Hermes中这些记忆是知识图谱而非纯文本——实体、关系、属性被显式建模，使Agent可以进行更精确的回忆和推理。

• 经验技能：这是Hermes最独特的一层。Agent在完成复杂任务后，自动分析“做了什么”、“哪些步骤是可复用的”，然后生成一个新的Skill文档和配套脚本。这些自生成技能的累积效应，是Agent在使用过程中能力持续增长的关键。

学习循环的工作方式如下：每次复杂任务完成后，Hermes不会简单地记录“任务完成”，而是执行一个“事后反思”流程——审视执行过程中的决策链、识别成功因素和失败原因、抽象可复用的子流程。如果发现某个子流程（如“从邮件中提取会议邀请并添加到日历”）在未来可能再次出现，Hermes会自动生成一个Skill文件，包含自然语言描述和执行脚本，供后续任务调用。

社区报告的实践结果表明，在领域内积累20+个自生成技能后，Agent完成同类任务的耗时可以下降30-40%。这不是因为模型变聪明了，而是因为Agent不需要“从零推理”——它已经有了一套经过验证的、针对特定领域和用户偏好的可复用模块。

与OpenClaw对比，Hermes更像一个“知识工作者”而非“全能助手”。OpenClaw的优势在于多通道普及和丰富的预设技能生态。Hermes的优势则在于“随时间增值”——刚安装时能力有限，但随着使用，Agent逐渐生成了针对用户特定场景的技能库，这些技能因为是从用户的真实使用模式中“生长”出来的，天然更贴合用户的需求。

Hermes也暴露了自进化Agent的一个核心张力：自主生成的技能越多，Agent的行为就越难以预测和审计。当Agent积累了数百个自生成技能时，人类用户可能完全不知道“这个Agent现在到底会做什么”。它可能在三个月前学会了一个邮件处理技巧，如今在一个看似无关的操作中突然调用了它，产生了意想不到的后果。

七、其他代表性项目

OpenClaw类自主智能体远不止上述几个明星项目。一些其他值得关注的代表性成员如：

• PicoClaw/NanoClaw/ZeroClaw：这些是更轻量级的OpenClaw实现变体，面向特定场景——如嵌入式设备、边缘计算节点、或作为更大型系统的内嵌Agent模块。它们通常舍弃多通道Gateway和多模型路由，专注于最小可行Agent循环。

• NemoClaw：NVIDIA在2026年3月GTC大会上发布的基于OpenClaw的企业级方案。NemoClaw在OpenClaw核心之上叠加了NVIDIA OpenShell沙箱技术、GPU加速推理和企业级身份认证。其核心价值在于将OpenClaw的灵活性与企业IT环境的安全和治理需求对接。

• 企业自建Harness：多家云厂商和大型企业基于OpenClaw架构定制开发了自己的内部Agent平台——集成公司特有的SSO、审计日志和资源管理系统。这些自建方案通常不会以开源形式发布，但在内部已承担起实质性的业务负载。

八、国内大厂和大模型公司项目

OpenClaw热潮下，国内厂商迅速跟进，“养虾”一时间成了全民狂欢。

• QClaw (腾讯)：主打微信/QQ一键操控，零门槛本地化。打通微信和QQ等5大IM工具，支持语音远程指挥电脑，数据100%本地处理更安全。适合注重隐私的国内用户。

• AutoClaw / 澳龙 (智谱AI)：主打傻瓜式部署。被誉为国内首个“真·一键安装”本地版，预置超50个热门Skills，支持接入GLM、DeepSeek等模型，上手快且提供免费额度。适合不想折腾的小白和职场人。

• Kimi Claw (月之暗面)：主打生态无缝衔接。Kimi平台原生功能，借助5000+社区技能（ClawHub），能一键部署到云端实现7×24小时在线，无需操心硬件。适合Kimi忠实用户或重度自动化需求者。

• JVS Claw (阿里云)：主打开箱即用。基于“无影”云电脑，无需配置环境即开即用，支持多端访问，数据云端隔离安全性高。适合不想折腾硬件的普通用户，月费套餐低至29元起。

• Xiaomi miclaw (小米)：主打手机原生与全生态联动。国内首个手机端类OpenClaw应用，能深度调用系统能力控制硬件，数据本地处理安全性高。适合小米手机和米家生态链用户。

• StepClaw / 阶跃龙虾 (阶跃星辰)：主打越用越聪明的“自进化”。接入了国内活跃的“水产市场”应用生态，能自动发现并补齐能力短板。已率先接入微信，支持本地/云端双部署，数据不上云。适合追求AI成长性的用户。

• ArkClaw (火山引擎/字节)：主打飞书与云端托管。云端一键部署，7×24小时在线，深度适配飞书，支持多种大模型切换并集成专业金融数据库。适合飞书重度用户和追求云端体验的团队。

• DuClaw (百度)：主打本土化场景。百度智能云推出，覆盖“云端+手机+桌面+家庭”场景，搭载搜索、电商等本土化插件，提供覆盖全场景的“龙虾全家桶”。适合百度生态依赖者。

• MaxClaw (MiniMax)：主打免费快捷体验。以“10秒部署，网页版直接使用”为亮点，兼容原生技能生态，提供每日免费额度，极大降低了体验门槛。适合想轻度尝鲜的用户。

• AudioClaw (商汤科技)：主打语音交互。基于多模态大模型，将语音输入、智能会议记录、内容改写等能力融为一体，让AI“听懂”并执行任务。适合经常开会、有大量语音处理需求的办公族。

• CoPaw (阿里云)：主打开源与开发者生态。完全开源（Apache-2.0协议），支持本地大模型接入，确保了数据主权和二次开发自由。适合追求数据安全和定制化的开发者及企业。

• WorkBuddy (腾讯)：主打企业级办公协作。深度集成企业微信、QQ等，附带安全审计能力，更像一个面向团队协作的“AI数字员工”。适合寻求团队AI协作方案的公司。

• SafeClaw (上海人工智能实验室)：主打内生式安全。为“龙虾”提供系统级“防护网”，通过安全可信监控中台实现多层级风险识别与拦截，保障任务执行安全。适合对安全性要求苛刻的企业用户。

可以说，2026年上半年的这场“百虾大战”，都在降低门槛与寻找生态位。

九、自进化智能体的共同模式与工程抽象

纵览上述项目，可以抽象出自进化智能体的四个共同要素：

1.明确的外部目标与评价指标：自进化不是随机的自我修改，而是朝向一个明确定义的目标。这个目标可以是量化的（loss、准确率、ROI、响应时间）或定性的（用户满意度评分、任务完成率）。没有清晰的目标函数，自进化就变成了“随机游走”。

2.稳定的实验循环（Experiment Loop）：变更→执行→度量→接受或回滚。这个循环是所有自进化系统的核心引擎。Karpathy Loop做的是“修改代码→跑训练→看指标→git commit或reset”；Hermes做的是“完成任务→事后反思→抽取模式→生成或更新技能”。

3.可追踪的改动历史：git commit记录、实验数据库、日志文件——这些基础设施确保每一次自进化改动都是可回溯、可审计、可回滚的。在自进化系统中，回滚能力比进化能力更重要。

4.安全与资源约束：预算上限（最多消耗多少API调用费用）、时间上限（单个实验最长运行时间）、访问权限（Agent可以修改哪些文件、调用哪些API）。这些约束是防止自进化“失控”的硬性边界。

从这些共同要素出发，可以抽象出几个关键的工程模式：

• PEV Loop（Plan-Execute-Verify）：在所有编码和系统管理类Agent中重复出现的核心模式。Plan阶段强制Agent在行动前思考；Execute阶段在受控环境中执行；Verify阶段用自动化测试或规则检查确认结果。

• Spec-driven/Test-driven Harness：任何能力变化（新增技能、修改配置、更新策略）都必须由规范文件驱动，并通过测试验证。这使得“自进化”有了可追溯的源头和可验证的结果。

• “自进化 = Agent + Harness + 可度量目标”的系统工程：自进化不是Agent的“魔法特性”，而是一个系统工程问题——Agent提供认知引擎、harness提供约束和反馈、可度量目标提供进化方向。

以上内容为《2026 OpenClaw 类自主智能体发展白皮书》的部分内容节选，完整版白皮书请扫描下方二维码或点击【阅读原文】下载。

END

点击图片立即报名👇️