“OpenClaw 类”自进化智能体代表项目介绍
传统Agent存在两个根本性瓶颈:一是记忆短暂,大多数Agent最多保留一个对话窗口内的上下文,无法长期积累经验;二是能力固定,Agent的能力由开发者预设,无法随着使用而增长或适应。一个在用户电脑上运行了三个月的Agent,和刚安装时几乎没有区别,它不仅没有“学会”用户的偏好,甚至在重复执行相同的错误。
“自进化”的核心思想是:Agent不应该是静态的软件,而应该是一个能随着使用和环境变化而持续自我改进的有机系统。在OpenClaw生态中,“自进化”已呈现出几种不同的形态,从温和到激进依次递进:
• 自我反思 + 提示工程调整:Agent在执行任务后自动分析“哪里做得不好”,并在下一次类似任务时调整自己的推理策略。这是最保守的自进化形式,不改变任何代码或配置,仅改变LLM的推理路径。
• 自动创建/更新Skills/Routines:Agent将成功完成的任务模式抽取为可复用的技能文件,下次遇到类似任务时直接调用。Hermes Agent是这一模式最激进的代表。
• 调整自身配置与工具调用策略:Agent根据使用模式,自适应地调整模型选择(在廉价模型和高性能模型之间切换)、记忆管理策略(哪些记忆值得保留)、工具调用偏好(哪些工具更可靠)。
• 自动修改自身代码、设计新实验:在极端版本中,Agent可以直接修改构成自身的代码。Karpathy的Autoresearch是最典型的案例——Agent不断修改训练脚本和超参数,跑实验验证效果,保留有改进的变更。
这一趋势背后的现实驱动力来自两个方向。研究端,自动化实验循环在某些任务中已经超越了人工调参效率。产业端,企业部署的Agent数量正在快速增长,但能够维护和调优这些Agent的工程师极度稀缺,让Agent“自己维护自己”成了唯一可扩展的方案。
OpenClaw催生了一系列自主智能体(AI助手)的爆发。以下是一些代表性项目及其简要定位:
• Nanobot:由香港大学数据科学实验室推出的超轻量Agent内核,仅约4000行Python代码却实现了约90%的OpenClaw核心能力。极简的代码量意味着更高的可审计性和更低的安全风险——如果你想要一个“干净”的Agent内核,Nanobot可能是目前最好的起点。
• AutoResearchClaw:23阶段科研Agent流水线,覆盖从自然语言课题输入到会议格式排版的完整学术生产流程。多个子Agent分工协作(检索、阅读、写作、审稿),是一个多Agent协作的标杆案例。
• Claw Code:Anthropic Claude Code源码泄露后,社区发起的clean-room重写项目。它复刻了Claude Code的harness思路(plan-execute-verify循环),但以开源方式实现。Claw Code仓库在一天内获得了7.5万+ Star,显示出社区对“开源harness”的强烈需求。
• DeerFlow 2.0:ByteDance开源的SuperAgent Harness,建立在LangGraph/LangChain之上,强调DAG状态机式的Agent流程和多Agent协作。所有执行在Docker容器内完成,面向企业级安全与治理。与OpenClaw相比,DeerFlow更偏“企业工作流编排”而非“个人助手”。
• Autoresearch(Karpathy):一个极简的自循环实验框架。OpenAI创始成员Andrej Karpathy用它来驱动LLM训练脚本的自动优化——Agent修改训练超参、启动训练、根据指标决定是否保留变更。Karpathy在两天内跑出约700次实验,保留约20个显著改善的配置。这个项目的简洁性恰恰是其力量的来源:Agent只需要明确的目标、稳定的实验循环和可追踪的改动历史。
• Hermes Agent:Nous Research发布的开源Agent,拥有最激进的记忆与自进化设计。四层记忆架构(即时上下文→短期工作记忆→长期结构化记忆→经验技能)加上内建学习环路,使Agent能在使用过程中持续自我改进。
一、Nanobot:OpenClaw 精神的超轻量级实现
在OpenClaw代码量膨胀至40万行的背景下,香港大学数据科学实验室(HKUDS)推出的Nanobot提供了一种截然不同的哲学:用最少代码实现最核心能力。
Nanobot是一个仅约4000行Python代码的Agent内核,却实现了约90%的OpenClaw核心能力。它的架构设计遵循“可审计性优先”原则——每一行代码都应该能被一个人类工程师在合理时间内阅读和理解。这使得Nanobot不仅是一个可用的Agent框架,更是一个理想的教学样本和研究基线。
架构特点:
• 极简Agent Loop:核心循环逻辑清晰可见,不会有数十层抽象和回调让读者迷失。
• 插件化工具与记忆接口:通过简洁的接口定义,工具和记忆后端可以替换,但接口本身的设计被严格控制在最小必要范围内。
自进化能力方面,Nanobot本身保持极简,不内置自进化机制。但HKUDS团队在其基础之上提出了OpenSpace等“自进化skill引擎”概念——一个运行在Nanobot外围的模块,能够观察Agent的行为模式,自动抽取可复用工作流模板并生成新的技能文件。这种“内核简洁、扩展在外”的设计哲学,为Agent的自进化提供了一种更可控的实现路径。
二、AutoResearchClaw:“论文工厂”式科研流水线
AutoResearchClaw是为学术生产量身打造的“论文工厂”。这个开源项目定义了23个阶段的科研Agent流水线,从自然语言课题输入到会议格式排版,涵盖了学术写作的几乎每一个环节。
整个流程分为 8个板块(Phase A-H),共计23个阶段。其中包含了很多前沿的AI Agent机制,如辩论(debate)、自我修复(self-healing)、多智能体(multi-agent)、证据核查(evidence check)。

Phase A: Research Scoping (科研范围界定/选题)。这个阶段是研究的起点,由AI自主确定研究方向。
1.TOPIC_INIT (主题初始化):AI系统根据当前的知识库或需求,“脑补”或生成一个初始的科研课题。
2.PROBLEM_DECOMPOSE (问题拆解):将宏大的主题拆解为具体的、可被量化或实验验证的子问题。
Phase B: Literature Discovery (文献发现)。收集外部已有的知识,避免重复造轮子。
3.SEARCH_STRATEGY (检索策略):制定如何在学术数据库(如Google Scholar, arXiv等)中搜索关键词的策略。
4.LITERATURE_COLLECT (文献收集):← real API,通过调用真实的学术API接口获取论文全文或元数据。
5.LITERATURE_SCREEN (文献筛选):[gate] (关卡/质检门)。这是一个“质量门”,过滤掉无关或低质量的文献,通过该门的文献才能进入下一步。
6.KNOWLEDGE_EXTRACT (知识提取):从筛选出的文献中提取核心观点、方法论、公式和结论。
Phase C: Knowledge Synthesis (知识合成)。结合现有文献,催生出属于本研究的新见解。
7.SYNTHESIS (综合归纳):将提取的各种知识点串联起来,形成该领域的知识图谱或脉络。
8.HYPOTHESIS_GEN (假设生成):← debate。该阶段引入了“辩论机制”。由多个AI角色(例:激进派/保守派)针对提取的知识进行辩论,防止单一模型陷入偏见或幻觉,从而生成更可靠、更具创新性的科学假说。
Phase D: Experiment Design (实验设计)。在虚拟/现实世界中验证假说前的准备工作。
9.EXPERIMENT_DESIGN (实验设计):[gate] 对产出的实验方案做可行性评估,如果不合理则返工。
10.CODE_GENERATION (代码生成):根据实验设计方案,自动生成可执行的源代码(如Python脚本)。
11.RESOURCE_PLANNING (资源规划):计算并规划所需的计算资源(GPU、内存)、数据集或硬件。
Phase E: Experiment Execution (实验执行)。真正开始运行代码。
12.EXPERIMENT_RUN (实验运行):系统自动执行生成好的代码,跑出数据结果。
13.ITERATIVE_REFINE (迭代优化):← self-healing。引入“自我修复”机制——如果代码报错、崩溃或者运行结果收敛失败,AI会自行分析错误日志,自动修改代码并重新运行,直到实验成功执行为止。
Phase F: Analysis & Decision (分析与决策)。研究走到了关键分岔点。
14.RESULT_ANALYSIS (结果分析):← multi-agent。引入“多智能体”系统。不同的AI智能体(如统计专家、领域专家、反方辩手)各自独立分析实验数据,汇总讨论,防止单一模型解读偏差。
15.RESEARCH_DECISION (科研决策):← PIVOT/REFINE。根据分析的结果,决定下一步方向:是PIVOT(转向/改变预设方案),还是REFINE(微调/继续深耕)。这个闭环确保了科研不会一条路走到黑。
Phase G: Paper Writing (论文写作)。将成功的实验结果转化为学术论文。
16.PAPER_OUTLINE (论文大纲):基于实验结果,先搭出论文的骨架(引言、方法、实验、结论等)。
17.PAPER_DRAFT (论文草稿):填充内容,把大纲扩展为一篇完整的论文初稿。
18.PEER_REVIEW (同行评审):← evidence check。AI系统自身充当“评审人”和“纠错员”,对草稿里的事实陈述进行“证据核查”——确保写出的每个结论都有对应的数据或图表支撑,杜绝“空口白话”。
19.PAPER_REVISION (论文修订):整合评审意见,修改和完善论文。
Phase H: Finalization (最终定稿)。产出符合学术出版标准的最终产品。
20.QUALITY_GATE (质量门):[gate] 最终的终极质检!检查论文的逻辑、篇幅、语言质量是否达标。
21.KNOWLEDGE_ARCHIVE (知识归档):将实验数据、源代码、过程日志等全部打包归档,方便复现。
22.EXPORT_PUBLISH (导出发布):← LaTeX。将论文直接通过LaTeX排版引擎转成符合顶级期刊/会议要求的PDF格式。
23.CITATION_VERIFY (引用核查):← relevance check。在最终提交前,对文中所有的参考文献引用进行“相关性核查”。防止AI编造出不相关的引用文献。
多Agent协作是AutoResearchClaw的关键设计。检索、阅读、规划、写作、审稿——多专门子Agent在23个阶段中交替上场,由主调度Agent协调工作流。通过将任务分解给专门的子Agent,每个子系统可以拥有更聚焦的系统提示词、更少的工具集和更明确的成功标准。
自进化机制在AutoResearchClaw的最新版本中得到了显著增强。Human-in-the-Loop(HITL)共驾模式允许研究者在关键节点(如方法设计完成时、初稿生成后)插入人工评审和修正,这些反馈不仅影响当前任务的最终输出,还反哺到子Agent的策略。例如,如果研究者反复在方法设计阶段修正某类问题,系统会调整方法设计Agent的系统提示词,使其在未来避免同类型错误。在实验设计和文献筛选阶段,系统使用自监督指标(如交叉引用一致性、文献与课题的语义匹配评分)来调整子Agent的采样策略——更频繁地引用被多个后续工作引用的论文,降低对偏离主题的文献的权重。
风险与伦理讨论是AutoResearchClaw绕不开的话题。论文质量(AI生成的文献综述是否真正理解了原文?是否存在断章取义?)、数据虚构风险(LLM可能在不知道真实实验数据的情况下“脑补”出看似合理的结果)和学术诚信(如果一篇论文从文献检索到初稿写作完全由Agent完成,作者的学术贡献如何界定?)是学术界激烈争论的焦点。部分学术出版商已开始更新投稿政策,要求作者声明AI辅助的程度;一些会议在试点“AI生成内容检测”环节。
三、Claw Code:Claude Code 泄露重写与 harness 工程
2026年3月31日凌晨4点,安全研究员Chaofan Shou在npm注册表中发现了一个异常:@anthropic-ai/claude-code的2.1.88版本附带了59.8MB的JavaScript source map文件(cli.js.map)。这个source map指向了约50万行未混淆的TypeScript源码,几乎完整展示了Anthropic旗舰编码agent工具的内部结构。
社区在数小时内完成了源码镜像和分析,迅速解构出其中multi-agent体系、harness结构和安全机制。
在合法的clean-room重写框架下(不直接复制源码,仅基于公开分析和合法逆向工程复刻设计理念),多个社区团队创建了Claw Code项目,用Python和Rust重写Claude Code的核心harness逻辑。
部分Claw Code仓库在24小时内获得75,000+ Stars,成为GitHub历史上增速最快的仓库之一。这波浪潮的核心驱动力并非简单的“想要免费版Claude Code”,而是开发社区对成熟coding agent的harness工程的强烈好奇心。
从泄露源码的分析中,业界获得了关于成熟coding agent的harness设计的几个关键认知:
• 稳定的Plan-Execute-Verify循环:Claude Code并非简单地“写一段代码,让你来运行”。它的harness包含严格的“规划→编码→运行测试→验证结果→若失败则分析错误→修正→再测试”循环。
• 深度开发工具集成:不仅是调用API,而是深度集成编辑器(VS Code/JetBrains)、版本控制(Git操作、PR创建)、CI/CD(触发test suite、等待CI结果)。
• “不可见约束”机制:通过规范文件(规则、编码标准、设计文档)和CI gate限制agent行为——“让它自由但有边界”。这是在agent能力日益强大的时代最核心的harness工程原则之一。
Claw Code被社区视为“Claude Code harness的开源镜像”。许多OpenClaw开发者借鉴其结构重写自家智能体的harness层。一个常见的组合模式是:用OpenClaw作为统一的总调度orchestrator(利用其多通道接入和记忆系统),而在编码类子任务中切换到Claw Code风格的harness(利用其更精细的PEV循环和代码质量约束)。这种“各取所长”的组合使用,正成为Agent原生开发者的标配实践。
基于对Claude Code架构思路的理解,用Python和Rust重新实现了类似功能的harness。这些复刻项目统称为Claw Code。
四、DeerFlow 2.0:ByteDance 的 SuperAgent Harness
DeerFlow 2.0代表了Agent领域的另一条路线——从“个人小助手”走向“企业级Agent编排平台”。与1.x版本(内部深度研究框架)完全不同,2.0是一次彻底重写,核心定位变成“SuperAgent Harness”,其设计哲学与OpenClaw形成鲜明对比:OpenClaw追求个人化、轻量部署、多通道接入;DeerFlow 2.0则追求企业级工作流编排、DAG状态机管控、多Agent协作和安全沙箱隔离。
核心特征:
• 建立在LangGraph/LangChain之上:利用LangGraph的DAG状态机来定义Agent流程。每个节点是一个Agent操作,边表示控制流。这使得复杂的工作流可以被可视化设计和调试。
• 多Agent拓扑:主协调Agent调度多个专门子Agent,每个子Agent拥有独立的工具集、系统提示词和资源配置。子Agent之间可以传递中间结果。
• 持久化记忆 + Docker沙箱执行:所有子Agent的执行都在Docker容器中完成——代码运行、数据处理、外部API调用都被限制在容器边界内。这为每个子Agent提供了一定程度的隔离。
• 内建Skills系统:DeerFlow拥有自己的技能模块格式,支持技能的复用、组合和版本管理。
自进化设计是DeerFlow 2.0 Roadmap中的亮点。其提出的“分层记忆 + 自演化轮次”机制,允许Agent在每次长任务结束后自动进行“会后复盘”——分析哪些步骤高效、哪些步骤出错、哪些中间结果可以复用。复盘结果被写入Agent的长期记忆和user memory中,影响后续类似任务的处理策略。
面向企业的治理能力是DeerFlow 2.0与OpenClaw最显著的差异。DeerFlow提供了模型配置管理、安全策略定义、全链路日志追踪和自动化测试工具,使企业IT团队可以像管理传统微服务一样管理Agent集群。所有子Agent的执行环境、网络访问权限和资源配额都可以通过配置文件精细控制。
OpenClaw更擅长“个人场景”——通过你的Telegram/Slack接收指令,调动你的个人工具链完成日常任务。DeerFlow 2.0更擅长“团队场景”——在受控的企业环境中,协调多个专门Agent完成端到端的业务工作流。两者不是竞争,而是在Agent应用谱系中占据不同的生态位。事实上,已有企业将OpenClaw作为前端人机交互接口,DeerFlow作为后端工作流引擎,构建完整的企业Agent平台。
五、Autoresearch:700 次实验与“Karpathy Loop”
Andrej Karpathy在2026年初发布了一个令人印象深刻的小项目:Autoresearch。这个项目代码量极少,核心逻辑不过几百行Python,但它所展示的范式影响力远超其体积。
项目动机非常朴素:给Agent一个真实而完整的LLM训练脚本,让它自己在有限的时间和计算预算下不断试验并优化脚本。Agent直接修改训练脚本的源代码,运行训练,看指标,决定是否保留变更。

工作机制被社区称为“Karpathy Loop”:
1.人类准备一个基础训练脚本(prepare.py),其中包含模型定义、数据加载、训练循环和评估逻辑。
2.Autoresearch Agent读取脚本,在其上下文窗口内进行推理:“什么改动可能提升性能?”
3.Agent修改源代码——可能是调整学习率、改变模型层数、修改数据采样策略、甚至重写部分训练逻辑。
4.Agent启动训练,在固定时间片(如5分钟)内运行训练脚本。
5.训练完成后,Agent读取指标(loss、准确率、训练时间)。
6.如果指标有显著改善,Agent将改动以git commit形式保留;如果没有改善或变差,则丢弃改动(git reset)。
7.回到步骤2,继续尝试。
Karpathy在两天内跑出约700次实验,Agent自动保留了约20个显著改善的配置。其中最引人注目的改进是:Agent通过调整数据预处理管线和训练循环的并行化策略,将训练时间减少了约11%。
Karpathy Loop这一概念已被Forbes和Fortune等商业媒体视为“可优化任何可度量目标的通用模式”。不仅是LLM训练脚本,任何有清晰评估指标的计算任务(代码性能优化、数据库查询调优、CI/CD流水线效率提升)都可能受益于这种“Agent + 实验循环”的架构。
六、Hermes Agent:自我进化的“记忆大师”
Nous Research发布的Hermes Agent是2026年最受关注的自进化Agent框架之一。与OpenClaw强调多通道部署、Autoresearch强调实验优化不同,Hermes的核心是记忆结构与自进化技能——让Agent在使用过程中变得越来越“懂”它的主人,并积累越来越多的可复用技能。
Hermes Agent在发布后数周内GitHub Star突破10万,成为仅次于OpenClaw的热门Agent项目。5月10日,其在OpenRouter全球Token调用消耗量上,首次超越 OpenClaw。其吸引力不仅来自技术架构的激进性,更来自它在“Agent如何自我成长”这一核心命题上的深度探索。
四层记忆结构是Hermes最核心的设计创新:
• 即时上下文:当前对话中的全部交互内容,与传统LLM的上下文窗口类似。
• 短期工作记忆:最近若干任务的摘要——不是完整日志,而是经过提炼的关键信息(做了什么、结果如何、有什么教训)。
• 长期结构化记忆:类似OpenClaw的MEMORY.md/USER.md,但在Hermes中这些记忆是知识图谱而非纯文本——实体、关系、属性被显式建模,使Agent可以进行更精确的回忆和推理。
• 经验技能:这是Hermes最独特的一层。Agent在完成复杂任务后,自动分析“做了什么”、“哪些步骤是可复用的”,然后生成一个新的Skill文档和配套脚本。这些自生成技能的累积效应,是Agent在使用过程中能力持续增长的关键。
学习循环的工作方式如下:每次复杂任务完成后,Hermes不会简单地记录“任务完成”,而是执行一个“事后反思”流程——审视执行过程中的决策链、识别成功因素和失败原因、抽象可复用的子流程。如果发现某个子流程(如“从邮件中提取会议邀请并添加到日历”)在未来可能再次出现,Hermes会自动生成一个Skill文件,包含自然语言描述和执行脚本,供后续任务调用。
社区报告的实践结果表明,在领域内积累20+个自生成技能后,Agent完成同类任务的耗时可以下降30-40%。这不是因为模型变聪明了,而是因为Agent不需要“从零推理”——它已经有了一套经过验证的、针对特定领域和用户偏好的可复用模块。
与OpenClaw对比,Hermes更像一个“知识工作者”而非“全能助手”。OpenClaw的优势在于多通道普及和丰富的预设技能生态。Hermes的优势则在于“随时间增值”——刚安装时能力有限,但随着使用,Agent逐渐生成了针对用户特定场景的技能库,这些技能因为是从用户的真实使用模式中“生长”出来的,天然更贴合用户的需求。
Hermes也暴露了自进化Agent的一个核心张力:自主生成的技能越多,Agent的行为就越难以预测和审计。当Agent积累了数百个自生成技能时,人类用户可能完全不知道“这个Agent现在到底会做什么”。它可能在三个月前学会了一个邮件处理技巧,如今在一个看似无关的操作中突然调用了它,产生了意想不到的后果。
七、其他代表性项目
OpenClaw类自主智能体远不止上述几个明星项目。一些其他值得关注的代表性成员如:
• PicoClaw/NanoClaw/ZeroClaw:这些是更轻量级的OpenClaw实现变体,面向特定场景——如嵌入式设备、边缘计算节点、或作为更大型系统的内嵌Agent模块。它们通常舍弃多通道Gateway和多模型路由,专注于最小可行Agent循环。
• NemoClaw:NVIDIA在2026年3月GTC大会上发布的基于OpenClaw的企业级方案。NemoClaw在OpenClaw核心之上叠加了NVIDIA OpenShell沙箱技术、GPU加速推理和企业级身份认证。其核心价值在于将OpenClaw的灵活性与企业IT环境的安全和治理需求对接。
• 企业自建Harness:多家云厂商和大型企业基于OpenClaw架构定制开发了自己的内部Agent平台——集成公司特有的SSO、审计日志和资源管理系统。这些自建方案通常不会以开源形式发布,但在内部已承担起实质性的业务负载。
八、国内大厂和大模型公司项目
OpenClaw热潮下,国内厂商迅速跟进,“养虾”一时间成了全民狂欢。
• QClaw (腾讯):主打微信/QQ一键操控,零门槛本地化。打通微信和QQ等5大IM工具,支持语音远程指挥电脑,数据100%本地处理更安全。适合注重隐私的国内用户。
• AutoClaw / 澳龙 (智谱AI):主打傻瓜式部署。被誉为国内首个“真·一键安装”本地版,预置超50个热门Skills,支持接入GLM、DeepSeek等模型,上手快且提供免费额度。适合不想折腾的小白和职场人。
• Kimi Claw (月之暗面):主打生态无缝衔接。Kimi平台原生功能,借助5000+社区技能(ClawHub),能一键部署到云端实现7×24小时在线,无需操心硬件。适合Kimi忠实用户或重度自动化需求者。
• JVS Claw (阿里云):主打开箱即用。基于“无影”云电脑,无需配置环境即开即用,支持多端访问,数据云端隔离安全性高。适合不想折腾硬件的普通用户,月费套餐低至29元起。
• Xiaomi miclaw (小米):主打手机原生与全生态联动。国内首个手机端类OpenClaw应用,能深度调用系统能力控制硬件,数据本地处理安全性高。适合小米手机和米家生态链用户。
• StepClaw / 阶跃龙虾 (阶跃星辰):主打越用越聪明的“自进化”。接入了国内活跃的“水产市场”应用生态,能自动发现并补齐能力短板。已率先接入微信,支持本地/云端双部署,数据不上云。适合追求AI成长性的用户。
• ArkClaw (火山引擎/字节):主打飞书与云端托管。云端一键部署,7×24小时在线,深度适配飞书,支持多种大模型切换并集成专业金融数据库。适合飞书重度用户和追求云端体验的团队。
• DuClaw (百度):主打本土化场景。百度智能云推出,覆盖“云端+手机+桌面+家庭”场景,搭载搜索、电商等本土化插件,提供覆盖全场景的“龙虾全家桶”。适合百度生态依赖者。
• MaxClaw (MiniMax):主打免费快捷体验。以“10秒部署,网页版直接使用”为亮点,兼容原生技能生态,提供每日免费额度,极大降低了体验门槛。适合想轻度尝鲜的用户。
• AudioClaw (商汤科技):主打语音交互。基于多模态大模型,将语音输入、智能会议记录、内容改写等能力融为一体,让AI“听懂”并执行任务。适合经常开会、有大量语音处理需求的办公族。
• CoPaw (阿里云):主打开源与开发者生态。完全开源(Apache-2.0协议),支持本地大模型接入,确保了数据主权和二次开发自由。适合追求数据安全和定制化的开发者及企业。
• WorkBuddy (腾讯):主打企业级办公协作。深度集成企业微信、QQ等,附带安全审计能力,更像一个面向团队协作的“AI数字员工”。适合寻求团队AI协作方案的公司。
• SafeClaw (上海人工智能实验室):主打内生式安全。为“龙虾”提供系统级“防护网”,通过安全可信监控中台实现多层级风险识别与拦截,保障任务执行安全。适合对安全性要求苛刻的企业用户。
可以说,2026年上半年的这场“百虾大战”,都在降低门槛与寻找生态位。
九、自进化智能体的共同模式与工程抽象
纵览上述项目,可以抽象出自进化智能体的四个共同要素:
1.明确的外部目标与评价指标:自进化不是随机的自我修改,而是朝向一个明确定义的目标。这个目标可以是量化的(loss、准确率、ROI、响应时间)或定性的(用户满意度评分、任务完成率)。没有清晰的目标函数,自进化就变成了“随机游走”。
2.稳定的实验循环(Experiment Loop):变更→执行→度量→接受或回滚。这个循环是所有自进化系统的核心引擎。Karpathy Loop做的是“修改代码→跑训练→看指标→git commit或reset”;Hermes做的是“完成任务→事后反思→抽取模式→生成或更新技能”。
3.可追踪的改动历史:git commit记录、实验数据库、日志文件——这些基础设施确保每一次自进化改动都是可回溯、可审计、可回滚的。在自进化系统中,回滚能力比进化能力更重要。
4.安全与资源约束:预算上限(最多消耗多少API调用费用)、时间上限(单个实验最长运行时间)、访问权限(Agent可以修改哪些文件、调用哪些API)。这些约束是防止自进化“失控”的硬性边界。
从这些共同要素出发,可以抽象出几个关键的工程模式:
• PEV Loop(Plan-Execute-Verify):在所有编码和系统管理类Agent中重复出现的核心模式。Plan阶段强制Agent在行动前思考;Execute阶段在受控环境中执行;Verify阶段用自动化测试或规则检查确认结果。
• Spec-driven/Test-driven Harness:任何能力变化(新增技能、修改配置、更新策略)都必须由规范文件驱动,并通过测试验证。这使得“自进化”有了可追溯的源头和可验证的结果。
• “自进化 = Agent + Harness + 可度量目标”的系统工程:自进化不是Agent的“魔法特性”,而是一个系统工程问题——Agent提供认知引擎、harness提供约束和反馈、可度量目标提供进化方向。
以上内容为《2026 OpenClaw 类自主智能体发展白皮书》的部分内容节选,完整版白皮书请扫描下方二维码或点击【阅读原文】下载。

END
点击图片立即报名👇️





夜雨聆风