乐于分享
好东西不私藏

“OpenClaw 类”自进化智能体代表项目介绍

“OpenClaw 类”自进化智能体代表项目介绍

专注AIGC技术的专业社区,关注大语言模型(LLM)的发展和应用落地,聚焦LLM及AI技术的市场研究和开发者生态,欢迎关注!

传统Agent存在两个根本性瓶颈:一是记忆短暂,大多数Agent最多保留一个对话窗口内的上下文,无法长期积累经验;二是能力固定,Agent的能力由开发者预设,无法随着使用而增长或适应。一个在用户电脑上运行了三个月的Agent,和刚安装时几乎没有区别,它不仅没有学会用户的偏好,甚至在重复执行相同的错误。

自进化的核心思想是:Agent不应该是静态的软件,而应该是一个能随着使用和环境变化而持续自我改进的有机系统。在OpenClaw生态中,自进化已呈现出几种不同的形态,从温和到激进依次递进:

• 自我反思 + 提示工程调整Agent在执行任务后自动分析哪里做得不好,并在下一次类似任务时调整自己的推理策略。这是最保守的自进化形式,不改变任何代码或配置,仅改变LLM的推理路径。

• 自动创建/更新Skills/RoutinesAgent将成功完成的任务模式抽取为可复用的技能文件,下次遇到类似任务时直接调用。Hermes Agent是这一模式最激进的代表。

• 调整自身配置与工具调用策略Agent根据使用模式,自适应地调整模型选择(在廉价模型和高性能模型之间切换)、记忆管理策略(哪些记忆值得保留)、工具调用偏好(哪些工具更可靠)。

• 自动修改自身代码、设计新实验在极端版本中,Agent可以直接修改构成自身的代码。KarpathyAutoresearch是最典型的案例——Agent不断修改训练脚本和超参数,跑实验验证效果,保留有改进的变更。

这一趋势背后的现实驱动力来自两个方向。研究端,自动化实验循环在某些任务中已经超越了人工调参效率。产业端,企业部署的Agent数量正在快速增长,但能够维护和调优这些Agent的工程师极度稀缺,让Agent自己维护自己成了唯一可扩展的方案。

OpenClaw催生了一系列自主智能体(AI助手)的爆发。以下是一些代表性项目及其简要定位:

• Nanobot由香港大学数据科学实验室推出的超轻量Agent内核,仅约4000Python代码却实现了约90%OpenClaw核心能力。极简的代码量意味着更高的可审计性和更低的安全风险——如果你想要一个干净Agent内核,Nanobot可能是目前最好的起点。

• AutoResearchClaw23阶段科研Agent流水线,覆盖从自然语言课题输入到会议格式排版的完整学术生产流程。多个子Agent分工协作(检索、阅读、写作、审稿),是一个多Agent协作的标杆案例。

• Claw CodeAnthropic Claude Code源码泄露后,社区发起的clean-room重写项目。它复刻了Claude Codeharness思路(plan-execute-verify循环),但以开源方式实现。Claw Code仓库在一天内获得了7.5+ Star,显示出社区对开源harness的强烈需求。

• DeerFlow 2.0ByteDance开源的SuperAgent Harness,建立在LangGraph/LangChain之上,强调DAG状态机式的Agent流程和多Agent协作。所有执行在Docker容器内完成,面向企业级安全与治理。与OpenClaw相比,DeerFlow更偏企业工作流编排而非个人助手

• AutoresearchKarpathy一个极简的自循环实验框架。OpenAI创始成员Andrej Karpathy用它来驱动LLM训练脚本的自动优化——Agent修改训练超参、启动训练、根据指标决定是否保留变更。Karpathy在两天内跑出约700次实验,保留约20个显著改善的配置。这个项目的简洁性恰恰是其力量的来源:Agent只需要明确的目标、稳定的实验循环和可追踪的改动历史。

• Hermes AgentNous Research发布的开源Agent,拥有最激进的记忆与自进化设计。四层记忆架构(即时上下文短期工作记忆长期结构化记忆经验技能)加上内建学习环路,使Agent能在使用过程中持续自我改进。

一、NanobotOpenClaw 精神的超轻量级实现

OpenClaw代码量膨胀至40万行的背景下,香港大学数据科学实验室(HKUDS)推出的Nanobot提供了一种截然不同的哲学:用最少代码实现最核心能力。

Nanobot是一个仅约4000Python代码的Agent内核,却实现了约90%OpenClaw核心能力。它的架构设计遵循可审计性优先原则——每一行代码都应该能被一个人类工程师在合理时间内阅读和理解。这使得Nanobot不仅是一个可用的Agent框架,更是一个理想的教学样本和研究基线。

架构特点

• 极简Agent Loop核心循环逻辑清晰可见,不会有数十层抽象和回调让读者迷失。

• 插件化工具与记忆接口通过简洁的接口定义,工具和记忆后端可以替换,但接口本身的设计被严格控制在最小必要范围内。

自进化能力方面,Nanobot本身保持极简,不内置自进化机制。但HKUDS团队在其基础之上提出了OpenSpace自进化skill引擎概念——一个运行在Nanobot外围的模块,能够观察Agent的行为模式,自动抽取可复用工作流模板并生成新的技能文件。这种内核简洁、扩展在外的设计哲学,为Agent的自进化提供了一种更可控的实现路径。

二、AutoResearchClaw论文工厂式科研流水线

AutoResearchClaw是为学术生产量身打造的论文工厂。这个开源项目定义了23个阶段的科研Agent流水线,从自然语言课题输入到会议格式排版,涵盖了学术写作的几乎每一个环节。

整个流程分为 8个板块(Phase A-H),共计23个阶段。其中包含了很多前沿的AI Agent机制,如辩论(debate)、自我修复(self-healing)、多智能体(multi-agent)、证据核查(evidence check)。

Phase A: Research Scoping (科研范围界定/选题)。这个阶段是研究的起点,由AI自主确定研究方向。

1.TOPIC_INIT (主题初始化)AI系统根据当前的知识库或需求,脑补或生成一个初始的科研课题。

2.PROBLEM_DECOMPOSE (问题拆解)将宏大的主题拆解为具体的、可被量化或实验验证的子问题。

Phase B: Literature Discovery (文献发现)。收集外部已有的知识,避免重复造轮子。

3.SEARCH_STRATEGY (检索策略)制定如何在学术数据库(如Google Scholar, arXiv等)中搜索关键词的策略。

4.LITERATURE_COLLECT (文献收集)← real API,通过调用真实的学术API接口获取论文全文或元数据。

5.LITERATURE_SCREEN (文献筛选)[gate] (关卡/质检门)。这是一个质量门,过滤掉无关或低质量的文献,通过该门的文献才能进入下一步。

6.KNOWLEDGE_EXTRACT (知识提取)从筛选出的文献中提取核心观点、方法论、公式和结论。

Phase C: Knowledge Synthesis (知识合成)。结合现有文献,催生出属于本研究的新见解。

7.SYNTHESIS (综合归纳)将提取的各种知识点串联起来,形成该领域的知识图谱或脉络。

8.HYPOTHESIS_GEN (假设生成)← debate。该阶段引入了辩论机制。由多个AI角色(例:激进派/保守派)针对提取的知识进行辩论,防止单一模型陷入偏见或幻觉,从而生成更可靠、更具创新性的科学假说。

Phase D: Experiment Design (实验设计)。在虚拟/现实世界中验证假说前的准备工作。

9.EXPERIMENT_DESIGN (实验设计)[gate]  对产出的实验方案做可行性评估,如果不合理则返工。

10.CODE_GENERATION (代码生成)根据实验设计方案,自动生成可执行的源代码(如Python脚本)。

11.RESOURCE_PLANNING (资源规划)计算并规划所需的计算资源(GPU、内存)、数据集或硬件。

Phase E: Experiment Execution (实验执行)。真正开始运行代码。

12.EXPERIMENT_RUN (实验运行)系统自动执行生成好的代码,跑出数据结果。

13.ITERATIVE_REFINE (迭代优化)← self-healing。引入自我修复机制——如果代码报错、崩溃或者运行结果收敛失败,AI会自行分析错误日志,自动修改代码并重新运行,直到实验成功执行为止。

Phase F: Analysis & Decision (分析与决策)。研究走到了关键分岔点。

14.RESULT_ANALYSIS (结果分析)← multi-agent。引入多智能体系统。不同的AI智能体(如统计专家、领域专家、反方辩手)各自独立分析实验数据,汇总讨论,防止单一模型解读偏差。

15.RESEARCH_DECISION (科研决策)← PIVOT/REFINE。根据分析的结果,决定下一步方向:是PIVOT(转向/改变预设方案),还是REFINE(微调/继续深耕)。这个闭环确保了科研不会一条路走到黑。

Phase G: Paper Writing (论文写作)。将成功的实验结果转化为学术论文。

16.PAPER_OUTLINE (论文大纲)基于实验结果,先搭出论文的骨架(引言、方法、实验、结论等)。

17.PAPER_DRAFT (论文草稿)填充内容,把大纲扩展为一篇完整的论文初稿。

18.PEER_REVIEW (同行评审)← evidence checkAI系统自身充当评审人纠错员,对草稿里的事实陈述进行证据核查”——确保写出的每个结论都有对应的数据或图表支撑,杜绝空口白话

19.PAPER_REVISION (论文修订)整合评审意见,修改和完善论文。

Phase H: Finalization (最终定稿)。产出符合学术出版标准的最终产品。

20.QUALITY_GATE (质量门)[gate]  最终的终极质检!检查论文的逻辑、篇幅、语言质量是否达标。

21.KNOWLEDGE_ARCHIVE (知识归档)将实验数据、源代码、过程日志等全部打包归档,方便复现。

22.EXPORT_PUBLISH (导出发布)← LaTeX。将论文直接通过LaTeX排版引擎转成符合顶级期刊/会议要求的PDF格式。

23.CITATION_VERIFY (引用核查)← relevance check。在最终提交前,对文中所有的参考文献引用进行相关性核查。防止AI编造出不相关的引用文献。

Agent协作AutoResearchClaw的关键设计。检索、阅读、规划、写作、审稿——多专门子Agent23个阶段中交替上场,由主调度Agent协调工作流。通过将任务分解给专门的子Agent,每个子系统可以拥有更聚焦的系统提示词、更少的工具集和更明确的成功标准。

自进化机制AutoResearchClaw的最新版本中得到了显著增强。Human-in-the-LoopHITL)共驾模式允许研究者在关键节点(如方法设计完成时、初稿生成后)插入人工评审和修正,这些反馈不仅影响当前任务的最终输出,还反哺到子Agent的策略。例如,如果研究者反复在方法设计阶段修正某类问题,系统会调整方法设计Agent的系统提示词,使其在未来避免同类型错误。在实验设计和文献筛选阶段,系统使用自监督指标(如交叉引用一致性、文献与课题的语义匹配评分)来调整子Agent的采样策略——更频繁地引用被多个后续工作引用的论文,降低对偏离主题的文献的权重。

风险与伦理讨论AutoResearchClaw绕不开的话题。论文质量(AI生成的文献综述是否真正理解了原文?是否存在断章取义?)、数据虚构风险(LLM可能在不知道真实实验数据的情况下脑补出看似合理的结果)和学术诚信(如果一篇论文从文献检索到初稿写作完全由Agent完成,作者的学术贡献如何界定?)是学术界激烈争论的焦点。部分学术出版商已开始更新投稿政策,要求作者声明AI辅助的程度;一些会议在试点AI生成内容检测环节。

三、Claw CodeClaude Code 泄露重写与 harness 工程

2026331日凌晨4点,安全研究员Chaofan Shounpm注册表中发现了一个异常:@anthropic-ai/claude-code2.1.88版本附带了59.8MBJavaScript source map文件(cli.js.map)。这个source map指向了约50万行未混淆的TypeScript源码,几乎完整展示了Anthropic旗舰编码agent工具的内部结构。

社区在数小时内完成了源码镜像和分析,迅速解构出其中multi-agent体系、harness结构和安全机制。

在合法的clean-room重写框架下(不直接复制源码,仅基于公开分析和合法逆向工程复刻设计理念),多个社区团队创建了Claw Code项目,用PythonRust重写Claude Code的核心harness逻辑。

部分Claw Code仓库在24小时内获得75,000+ Stars,成为GitHub历史上增速最快的仓库之一。这波浪潮的核心驱动力并非简单的想要免费版Claude Code,而是开发社区对成熟coding agentharness工程的强烈好奇心。

从泄露源码的分析中,业界获得了关于成熟coding agentharness设计的几个关键认知:

• 稳定的Plan-Execute-Verify循环Claude Code并非简单地写一段代码,让你来运行。它的harness包含严格的规划编码运行测试验证结果若失败则分析错误修正再测试循环。

• 深度开发工具集成不仅是调用API,而是深度集成编辑器(VS Code/JetBrains)、版本控制(Git操作、PR创建)、CI/CD(触发test suite、等待CI结果)。

• 不可见约束机制通过规范文件(规则、编码标准、设计文档)和CI gate限制agent行为——“让它自由但有边界。这是在agent能力日益强大的时代最核心的harness工程原则之一。

Claw Code被社区视为Claude Code harness的开源镜像。许多OpenClaw开发者借鉴其结构重写自家智能体的harness层。一个常见的组合模式是:用OpenClaw作为统一的总调度orchestrator(利用其多通道接入和记忆系统),而在编码类子任务中切换到Claw Code风格的harness(利用其更精细的PEV循环和代码质量约束)。这种各取所长的组合使用,正成为Agent原生开发者的标配实践。

基于对Claude Code架构思路的理解,用PythonRust重新实现了类似功能的harness。这些复刻项目统称为Claw Code

四、DeerFlow 2.0ByteDance 的 SuperAgent Harness

DeerFlow 2.0代表了Agent领域的另一条路线——个人小助手走向企业级Agent编排平台。与1.x版本(内部深度研究框架)完全不同,2.0是一次彻底重写,核心定位变成SuperAgent Harness,其设计哲学与OpenClaw形成鲜明对比:OpenClaw追求个人化、轻量部署、多通道接入;DeerFlow 2.0则追求企业级工作流编排、DAG状态机管控、多Agent协作和安全沙箱隔离。

核心特征

• 建立在LangGraph/LangChain之上利用LangGraphDAG状态机来定义Agent流程。每个节点是一个Agent操作,边表示控制流。这使得复杂的工作流可以被可视化设计和调试。

• Agent拓扑主协调Agent调度多个专门子Agent,每个子Agent拥有独立的工具集、系统提示词和资源配置。子Agent之间可以传递中间结果。

• 持久化记忆 + Docker沙箱执行所有子Agent的执行都在Docker容器中完成——代码运行、数据处理、外部API调用都被限制在容器边界内。这为每个子Agent提供了一定程度的隔离。

• 内建Skills系统DeerFlow拥有自己的技能模块格式,支持技能的复用、组合和版本管理。

自进化设计DeerFlow 2.0 Roadmap中的亮点。其提出的分层记忆 自演化轮次机制,允许Agent在每次长任务结束后自动进行会后复盘”——分析哪些步骤高效、哪些步骤出错、哪些中间结果可以复用。复盘结果被写入Agent的长期记忆和user memory中,影响后续类似任务的处理策略。

面向企业的治理能力DeerFlow 2.0OpenClaw最显著的差异。DeerFlow提供了模型配置管理、安全策略定义、全链路日志追踪和自动化测试工具,使企业IT团队可以像管理传统微服务一样管理Agent集群。所有子Agent的执行环境、网络访问权限和资源配额都可以通过配置文件精细控制。

OpenClaw更擅长个人场景”——通过你的Telegram/Slack接收指令,调动你的个人工具链完成日常任务。DeerFlow 2.0更擅长团队场景”——在受控的企业环境中,协调多个专门Agent完成端到端的业务工作流。两者不是竞争,而是在Agent应用谱系中占据不同的生态位。事实上,已有企业将OpenClaw作为前端人机交互接口,DeerFlow作为后端工作流引擎,构建完整的企业Agent平台。

五、Autoresearch700 次实验与“Karpathy Loop”

Andrej Karpathy2026年初发布了一个令人印象深刻的小项目:Autoresearch。这个项目代码量极少,核心逻辑不过几百行Python,但它所展示的范式影响力远超其体积。

项目动机非常朴素:给Agent一个真实而完整的LLM训练脚本,让它自己在有限的时间和计算预算下不断试验并优化脚本。Agent直接修改训练脚本的源代码,运行训练,看指标,决定是否保留变更。

工作机制被社区称为Karpathy Loop

1.人类准备一个基础训练脚本(prepare.py),其中包含模型定义、数据加载、训练循环和评估逻辑。

2.Autoresearch Agent读取脚本,在其上下文窗口内进行推理:什么改动可能提升性能?

3.Agent修改源代码——可能是调整学习率、改变模型层数、修改数据采样策略、甚至重写部分训练逻辑。

4.Agent启动训练,在固定时间片(如5分钟)内运行训练脚本。

5.训练完成后,Agent读取指标(loss、准确率、训练时间)。

6.如果指标有显著改善,Agent将改动以git commit形式保留;如果没有改善或变差,则丢弃改动(git reset)。

7.回到步骤2,继续尝试。

Karpathy在两天内跑出约700次实验,Agent自动保留了约20个显著改善的配置。其中最引人注目的改进是:Agent通过调整数据预处理管线和训练循环的并行化策略,将训练时间减少了约11%

Karpathy Loop这一概念已被ForbesFortune等商业媒体视为可优化任何可度量目标的通用模式。不仅是LLM训练脚本,任何有清晰评估指标的计算任务(代码性能优化、数据库查询调优、CI/CD流水线效率提升)都可能受益于这种Agent + 实验循环的架构。

六、Hermes Agent:自我进化的记忆大师

Nous Research发布的Hermes Agent2026年最受关注的自进化Agent框架之一。与OpenClaw强调多通道部署、Autoresearch强调实验优化不同,Hermes的核心是记忆结构与自进化技能——Agent在使用过程中变得越来越它的主人,并积累越来越多的可复用技能。

Hermes Agent在发布后数周内GitHub Star突破10万,成为仅次于OpenClaw的热门Agent项目。510日,其在OpenRouter全球Token调用消耗量上,首次超越 OpenClaw。其吸引力不仅来自技术架构的激进性,更来自它在Agent如何自我成长这一核心命题上的深度探索。

四层记忆结构Hermes最核心的设计创新:

• 即时上下文当前对话中的全部交互内容,与传统LLM的上下文窗口类似。

• 短期工作记忆最近若干任务的摘要——不是完整日志,而是经过提炼的关键信息(做了什么、结果如何、有什么教训)。

• 长期结构化记忆类似OpenClawMEMORY.md/USER.md,但在Hermes中这些记忆是知识图谱而非纯文本——实体、关系、属性被显式建模,使Agent可以进行更精确的回忆和推理。

• 经验技能这是Hermes最独特的一层。Agent在完成复杂任务后,自动分析做了什么哪些步骤是可复用的,然后生成一个新的Skill文档和配套脚本。这些自生成技能的累积效应,是Agent在使用过程中能力持续增长的关键。

学习循环的工作方式如下:每次复杂任务完成后,Hermes不会简单地记录任务完成,而是执行一个事后反思流程——审视执行过程中的决策链、识别成功因素和失败原因、抽象可复用的子流程。如果发现某个子流程(如从邮件中提取会议邀请并添加到日历)在未来可能再次出现,Hermes会自动生成一个Skill文件,包含自然语言描述和执行脚本,供后续任务调用。

社区报告的实践结果表明,在领域内积累20+个自生成技能后,Agent完成同类任务的耗时可以下降30-40%。这不是因为模型变聪明了,而是因为Agent不需要从零推理”——它已经有了一套经过验证的、针对特定领域和用户偏好的可复用模块。

OpenClaw对比,Hermes更像一个知识工作者而非全能助手OpenClaw的优势在于多通道普及和丰富的预设技能生态。Hermes的优势则在于随时间增值”——刚安装时能力有限,但随着使用,Agent逐渐生成了针对用户特定场景的技能库,这些技能因为是从用户的真实使用模式中生长出来的,天然更贴合用户的需求。

Hermes也暴露了自进化Agent的一个核心张力:自主生成的技能越多,Agent的行为就越难以预测和审计。当Agent积累了数百个自生成技能时,人类用户可能完全不知道这个Agent现在到底会做什么。它可能在三个月前学会了一个邮件处理技巧,如今在一个看似无关的操作中突然调用了它,产生了意想不到的后果。

七、其他代表性项目

OpenClaw类自主智能体远不止上述几个明星项目。一些其他值得关注的代表性成员如:

• PicoClaw/NanoClaw/ZeroClaw这些是更轻量级的OpenClaw实现变体,面向特定场景——如嵌入式设备、边缘计算节点、或作为更大型系统的内嵌Agent模块。它们通常舍弃多通道Gateway和多模型路由,专注于最小可行Agent循环。

• NemoClawNVIDIA20263GTC大会上发布的基于OpenClaw的企业级方案。NemoClawOpenClaw核心之上叠加了NVIDIA OpenShell沙箱技术、GPU加速推理和企业级身份认证。其核心价值在于将OpenClaw的灵活性与企业IT环境的安全和治理需求对接。

• 企业自建Harness多家云厂商和大型企业基于OpenClaw架构定制开发了自己的内部Agent平台——集成公司特有的SSO、审计日志和资源管理系统。这些自建方案通常不会以开源形式发布,但在内部已承担起实质性的业务负载。

八、国内大厂和大模型公司项目

OpenClaw热潮下,国内厂商迅速跟进,养虾一时间成了全民狂欢。

• QClaw (腾讯)主打微信/QQ一键操控,零门槛本地化。打通微信和QQ5IM工具,支持语音远程指挥电脑,数据100%本地处理更安全。适合注重隐私的国内用户。

• AutoClaw / 澳龙 (智谱AI)主打傻瓜式部署。被誉为国内首个·一键安装本地版,预置超50个热门Skills,支持接入GLMDeepSeek等模型,上手快且提供免费额度。适合不想折腾的小白和职场人。

• Kimi Claw (月之暗面)主打生态无缝衔接。Kimi平台原生功能,借助5000+社区技能(ClawHub),能一键部署到云端实现7×24小时在线,无需操心硬件。适合Kimi忠实用户或重度自动化需求者。

• JVS Claw (阿里云)主打开箱即用。基于无影云电脑,无需配置环境即开即用,支持多端访问,数据云端隔离安全性高。适合不想折腾硬件的普通用户,月费套餐低至29元起。

• Xiaomi miclaw (小米)主打手机原生与全生态联动。国内首个手机端类OpenClaw应用,能深度调用系统能力控制硬件,数据本地处理安全性高。适合小米手机和米家生态链用户。

• StepClaw / 阶跃龙虾 (阶跃星辰)主打越用越聪明的自进化。接入了国内活跃的水产市场应用生态,能自动发现并补齐能力短板。已率先接入微信,支持本地/云端双部署,数据不上云。适合追求AI成长性的用户。

• ArkClaw (火山引擎/字节)主打飞书与云端托管。云端一键部署,7×24小时在线,深度适配飞书,支持多种大模型切换并集成专业金融数据库。适合飞书重度用户和追求云端体验的团队。

• DuClaw (百度)主打本土化场景。百度智能云推出,覆盖云端+手机+桌面+家庭场景,搭载搜索、电商等本土化插件,提供覆盖全场景的龙虾全家桶。适合百度生态依赖者。

• MaxClaw (MiniMax)主打免费快捷体验。以10秒部署,网页版直接使用为亮点,兼容原生技能生态,提供每日免费额度,极大降低了体验门槛。适合想轻度尝鲜的用户。

• AudioClaw (商汤科技)主打语音交互。基于多模态大模型,将语音输入、智能会议记录、内容改写等能力融为一体,让AI听懂并执行任务。适合经常开会、有大量语音处理需求的办公族。

• CoPaw (阿里云)主打开源与开发者生态。完全开源(Apache-2.0协议),支持本地大模型接入,确保了数据主权和二次开发自由。适合追求数据安全和定制化的开发者及企业。

• WorkBuddy (腾讯)主打企业级办公协作。深度集成企业微信、QQ等,附带安全审计能力,更像一个面向团队协作的AI数字员工。适合寻求团队AI协作方案的公司。

• SafeClaw (上海人工智能实验室)主打内生式安全。为龙虾提供系统级防护网,通过安全可信监控中台实现多层级风险识别与拦截,保障任务执行安全。适合对安全性要求苛刻的企业用户。

可以说,2026年上半年的这场百虾大战,都在降低门槛与寻找生态位。

九、自进化智能体的共同模式与工程抽象

纵览上述项目,可以抽象出自进化智能体的四个共同要素:

1.明确的外部目标与评价指标自进化不是随机的自我修改,而是朝向一个明确定义的目标。这个目标可以是量化的(loss、准确率、ROI、响应时间)或定性的(用户满意度评分、任务完成率)。没有清晰的目标函数,自进化就变成了随机游走

2.稳定的实验循环(Experiment Loop:变更执行度量接受或回滚。这个循环是所有自进化系统的核心引擎。Karpathy Loop做的是修改代码跑训练看指标git commitresetHermes做的是完成任务事后反思抽取模式生成或更新技能

3.可追踪的改动历史git commit记录、实验数据库、日志文件——这些基础设施确保每一次自进化改动都是可回溯、可审计、可回滚的。在自进化系统中,回滚能力比进化能力更重要。

4.安全与资源约束预算上限(最多消耗多少API调用费用)、时间上限(单个实验最长运行时间)、访问权限(Agent可以修改哪些文件、调用哪些API)。这些约束是防止自进化失控的硬性边界。

从这些共同要素出发,可以抽象出几个关键的工程模式:

• PEV LoopPlan-Execute-Verify在所有编码和系统管理类Agent中重复出现的核心模式。Plan阶段强制Agent在行动前思考;Execute阶段在受控环境中执行;Verify阶段用自动化测试或规则检查确认结果。

• Spec-driven/Test-driven Harness任何能力变化(新增技能、修改配置、更新策略)都必须由规范文件驱动,并通过测试验证。这使得自进化有了可追溯的源头和可验证的结果。

• 自进化 = Agent + Harness + 可度量目标的系统工程自进化不是Agent魔法特性,而是一个系统工程问题——Agent提供认知引擎、harness提供约束和反馈、可度量目标提供进化方向。

以上内容为2026 OpenClaw 类自主智能体发展白皮书的部分内容节选,完整版白皮书请扫描下方二维码或点击【阅读原文】下载。

END

点击图片立即报名👇️