乐于分享
好东西不私藏

Hermes与OpenClaw,Harness Engineering的爱马仕与龙虾:谁是Agent下一站?

Hermes与OpenClaw,Harness Engineering的爱马仕与龙虾:谁是Agent下一站?

2026年的AI Agent领域,正在经历一场深刻的价值重估。过去两年,行业的核心叙事始终围绕着哪个模型更聪明GPT-4Claude OpusGemini……每一次模型升级都伴随着基准测试分数的刷新和公众的惊叹。但到了2026年初,一个根本性的认知转变已经完成:大模型能力正在逐渐趋同,未来的技术壁垒正在从模型本身转向 Harness Engineering

引言:从比谁聪明比谁听话”——Harness Engineering的时代命题

Harness Engineering(驾驭工程/约束工程)的核心要义,是用一套工程化的将不可控的大模型约束为可控、可靠的生产力工具。LangChain20263月发布的实证报告中给出了一个极具说服力的数据:仅仅给同一个大语言模型换上一套更精巧的Harness架构,它在Terminal Bench 2.0上的通过率就直接从52.8%拉升到66.5%——底层模型权重一个字节都没改,排名却从三十名开外狂飙到前五。

正是在这一方法论框架下,两大开源AI Agent框架——OpenClawHermes Agent——展开了2026年最引人注目的龙虎斗。一个代表了Harness Engineering广度连接生态驱动的极致追求,另一个则代表了深度进化自动成长的激进探索。两者的交锋不仅关乎谁将成为开源Agent王者,更折射出整个行业对“AI Agent到底该长什么样这一根本问题的不同回答。

本文将先从Harness Engineering的方法论框架切入,深入剖析OpenClawHermes的技术架构、生态现状与增长轨迹,最后论证Agent下一站的演进方向——从单Agent左右互搏到多Agent系统的千军万马

2.Harness Engineering2026AI Agent的元方法论

PromptContext再到Harness:三层演进

2026年业界已形成清晰的共识:AI Agent工程经历了三层演进。

2023年重“Prompt”:如何更好地向模型表达需求;

2025年重“Context”:模型能看到什么信息环境;

2026年跃升至“Harness”:构建系统级的约束、验证与执行框架。

三者非替代而是分层:Prompt优化表达,Context管理信息环境,Harness构建可信执行系统。

Mitchell HashimotoHarness Engineering核心循环的总结堪称精辟:

“Harness Engineering的理念是每当发现Agent犯了一个错误,就投入时间设计一个方案,让它不再犯同样的错。

这恰恰道出了OpenClawHermes在产品哲学上的根本分野——前者将纠错的责任交给了人,后者试图将纠错的能力内化于Agent本身。

Harness的三层结构

从架构上看,Harness Engineering围绕AI Agent运行构建了一套完整的工程系统,包含三层结构:

执行层(Agent Harness:模型+工具调用+任务拆解,负责做事

评估层(Evaluation Harness:自动测试、评分、结果比对,负责判断做得对不对

控制层(Control Harness:权限边界、行为约束、合规审查,负责划定边界

如果将大模型比作一匹蓄势待发的烈马,Harness就是人类牵引、驾驭这匹烈马的缰绳。真正稀缺的能力,不在模型里面,在模型外面——如何找到一副趁手的缰绳,以及驾驶者心中清晰准确的目的地。OpenAI的实验也验证了这一判断:在驾驭工程工作流下,3人指挥AI5个月内造出百万行代码,程序员从执行者变为驾驭者

3.OpenClaw:广度优先的生态之王

核心理念:连接一切的工具箱

OpenClaw由奥地利独立开发者Peter Steinberger202511月推出,定位为完全开源且本地运行的AI Agent框架。其核心理念是将AI从云端聊天框彻底拉出来,接入到实际的工作、学习和生活中,真正执行任务。它强调人在中心、规则可控,通过成熟的技能生态与多平台接入能力,实现本地设备自动化与跨渠道交互,更像一套可高度定制的AI执行系统。

技术架构:三层解耦

OpenClaw的技术架构呈现出清晰的分层设计,被誉为“AI操作系统的雏形。

Gateway(调度中枢)。GatewayOpenClaw架构的核心组件,本质上是一个事件驱动的消息总线。它负责连接管理层(通过WebSocket维护与各Channel的长连接)、协议转换层(将异构聊天协议统一转换为内部事件流)以及安全策略层(实现设备配对与访问控制)。Gateway的存在使得OpenClaw能够以单一实例同时管理多个通信渠道,确保了用户身份的全局一致性和会话状态的集中管理。

Channels(通信抽象层)。OpenClawWhatsAppTelegramDiscordSlack、微信、飞书等20余种通讯平台封装为标准化Channel接口。这种设计哲学类似于操作系统中的设备驱动抽象层,使得AI能够7×24小时在不同应用之间跨越执行任务,打破了传统LLM的网页聊天框沙箱限制。

Agents+Tools(智能体与工具层)。OpenClaw支持多Agent架构,多个专业化Agent可在单个Gateway进程中并行运行,每个Agent拥有独立的内存、凭证和工具权限。工具层则通过可插拔的Skill系统进行扩展。

pi-mono引擎。底层基于pi-mono嵌入式Agent引擎,提供ReAct循环、LLM调用、工具执行等基础能力。在pi-mono之上构建了路由、容错、认证管理、Skill系统等生产级能力。

记忆系统:静态文件驱动

OpenClawMarkdown文件为基础记忆载体,通过[SOUL.md](SOUL.md)[AGENTS.md](AGENTS.md)等文件维护身份与规则,高级记忆能力如向量检索、知识图谱需要额外安装插件实现。这种设计的好处是极致可控——用户完全掌握Agent“看到了什么,但代价是记忆能力依赖手动配置与扩展,无法从执行过程里主动提炼经验。

技能系统:生态为王,但隐忧浮现

OpenClaw的技能生态是它最引以为傲的护城河。截至20263月底,公开技能注册库ClawHub已收录超过13,729个社区开发的SkillsClawHub社区累计贡献AgentSkills超过1,100个。Awesome-openclaw-skills精选合集从海量技能中筛选出3000余个高质量技能,覆盖编程开发(1222个)、Web前端(938个)、DevOps408个)等全场景。

但生态繁荣的背后也隐藏着结构性风险。

供应链安全危机ClawHub2026年初爆出大规模供应链攻击——超过1,184个恶意Skills被确认,约每12个套件就有一个带恶意负载。这一事件暴露了开放式插件生态在缺乏有效审查机制时的脆弱性。

有量无质的困境OpenClaw的技能完全依赖人工编写或社区下载,扩展需要手动安装维护,无法自主生成新技能,能力边界由预置技能决定。2026322日的版本升级强行将插件生态从公共npm迁移到官方ClawHub,引发流量暴增导致全线报错,暴露出激进生态策略背后的治理短板。

针对安全问题,蚂蚁集团AI安全实验室与清华大学联合开发了ClawAegis,这是首个面向OpenClaw的全生命周期防御系统,具备五层纵深防御能力,以插件形式部署,无需修改框架代码。

部署与安全:灵活但门槛高

OpenClaw本身不默认提供安全沙盒,权限边界、操作限制需要用户自行配置,可控性更强但上手门槛更高;定时任务需要单独安装对应技能实现。2026版本通过优化一键部署流程降低了部分门槛,新增多Agent协同能力,但安全配置仍高度依赖用户的专业素养。20261月底爆发的“ClawHavoc”安全危机也暴露了赋予AI系统级权限带来的潜在风险。

应用生态:云厂商集体养虾

OpenClaw的爆红迅速引来了大厂的关注与跟进。腾讯云、阿里云、华为云、火山引擎等主流云厂商竞相接入OpenClaw生态。腾讯推出了定制版“QClaw”,阿里发布了AI Agent平台悟空(定位为企业级AI原生工作平台)。微软也在探索将OpenClaw技术应用于Microsoft 365中的在线代理团队。

实际应用场景覆盖跨平台消息管理、文件与系统操作、浏览器自动化与数据抓取、个人日程与任务自动化调度等。Discord社区实时在线人数达1.8万。

4.Hermes Agent:深度优先的进化之矛

核心理念:与你共同成长的搭档

Hermes AgentNous Research2026225日发布,口号是 “the agent that grows with you”——与你共同成长的Agent。它试图解决一个被OpenClaw忽视的根本性问题:当所有人都在讨论Agent能做什么,但没人注意Agent用完之后什么都不留下。Hermes的答案是让Agent记住什么方法有效,从一个用完归零的工具,变成能从失败里学到东西、能记住教训的长期搭档。

技术架构:自进化闭环

Hermes的架构围绕一套完整的学习闭环构建。它将技能的生命周期劈成两截:一截是运行时的静默生成,另一截是离线的硬核进化。

运行时生成:每次任务完成后,Hermes会检查是否满足触发条件——工具调用超过5次、中途出错后自行修复、用户做过纠正、或走了一条不明显但有效的路径。满足任何一条,它就会自动在 ~/.hermes/skills目录里生成一个结构化的Markdown格式Skill文件。下次遇到类似问题时,优先调用已有经验,而不是重新推理。

离线进化Hermes内置了一套离线批量进化算法,还专门拉了一个独立仓库(hermes-agent-self-evolution)。引擎用的是DSPy框架,加上一套叫 GEPAGenetic-Pareto Prompt Evolution的核心算法——出自一篇ICLR 2026 Oral论文,题为《反思性提示词进化可以跑赢强化学习》。GEPA通过读取执行追踪来理解为什么失败,而非仅仅知道失败了,从而提出有针对性的改进。这套进化机制不需要GPU训练,每次优化成本仅约2–10美元,且所有改进均需通过PR人工审查。

记忆系统:三层自动架构

Hermes采用多层原生记忆架构,无需插件、开箱即用:

紧凑持久内存:跨会话保留关键信息;

SQLite存储会话历史:采用FTS5全文检索与LLM摘要进行二次组织,可回溯几周前的对话;

技能过程记忆:记录任务执行路径;

可扩展结构化建模层:记忆自动整理、自动检索,全程零人工维护。

这种记忆不再依赖人工维护,而是由Agent自主整理、更新,更像一种持续演化的认知结构,在不同任务之间建立关联,逐渐形成对用户工作方式的理解。

广泛模型兼容与低门槛部署

Hermes支持200+模型(通过OpenRouter)、400+模型(通过Nous Portal)以及Ollama本地模型,提供6种部署方式(包括5美元VPSDockerServerless等),支持TelegramDiscordSlackWhatsApp、微信、企业微信等16个通信平台的全平台接入,一行命令即可安装运行。

安全与调度:出厂即完备

Hermes默认内置完整安全沙盒机制,包含危险命令审批、用户授权、容器隔离、上下文扫描,安全能力开箱即用,无需额外配置,对普通用户更友好;同时原生内置Cron定时任务,可直接设置周期性任务,不用依赖外部调度组件。

版本迭代与企业级应用

从版本迭代速度看,Hermes的活跃度极高。从2026225日发布v0.1.0,到48日的v0.8.042天内迭代8个大版本,合并了数百个PR242名贡献者参与其中。v0.9.0版本已支持原生微信和企业微信的Callback模式。

值得注意的是,Hermes在被Nous Research打造为Agent框架之前,已在企业场景中积累了大量实战经验。印度外卖巨头Swiggy内部使用的同名工具Hermes V3,是一个GenAI驱动的text-to-SQL助手,通过向量化历史查询嵌入技术,将SQL生成准确率从54%提升至93%,已成为Swiggy内部多个AI副驾驶工具的核心基础设施。

小米大模型MiMo正式接入Hermes Agent框架并限免两周。通过Termux终端模拟器,Hermes甚至可以直接安装在Android手机上。

5.同与不同:功能表的镜像与哲学的分野

将两个框架并排对比,一个有趣的现象浮现出来:它们在功能上一模一样的地方,远比差异多得多。

功能重合面:殊途同归的基建

定时调度、子Agent委派、浏览器自动化、TTS语音合成、Vision视觉能力、图像生成、语音交互——两边全都有。Gateway方面,TelegramDiscordSlackWhatsAppSignal20多个平台的消息集成,两边也毫无悬念地全都有。对着清单一项项打勾就会发现,所谓功能表上的绝对碾压根本不存在。

核心技术对比

维度

OpenClaw

Hermes Agent

核心理念

连接驱动:多通道统一接入

学习驱动:持续自我进化

架构设计

三层解耦(Gateway+Channels+Agents

单体Agent+自进化管道

记忆机制

静态配置([SOUL.md](SOUL.md)[AGENTS.md](AGENTS.md)

三层持久化记忆(SQLite FTS5+摘要)

技能扩展

社区插件/手写Skill

自动生成+自动优化

自我进化

需依赖外部插件实现

原生内置DSPy+GEPA

安全机制

社区提供ClawAegis防御系统

出厂内置危险命令审批、容器隔离

部署方式

本地/云端灵活部署

6种方式(VPS/Docker/Serverless等)

Agent协作

原生支持多Agent并行

单一Agent框架

根本区别:工具箱 vs 搭档

真正的区别不在功能层面,而在设计哲学层面。简单来说,OpenClaw是一个由人主导配置与编排的工具箱,而Hermes Agent则是一个能自主学习、进化并沉淀经验的长期搭档

这一分野具体体现在三个核心维度上:

记忆系统Hermes是原生自动型,全程零人工维护;OpenClaw是手动可控型,依赖SOUL.md等配置文件。

技能机制Hermes具备技能自动生成与自我进化能力,技能库随使用持续变强;OpenClaw的技能完全依赖人工编写或社区下载,能力边界由预置技能决定。这是两者最核心的区别。

安全与调度Hermes追求省心安全,默认内置完整沙盒;OpenClaw追求极致可控,需要用户自行配置权限边界。

一条有趣的收敛曲线

有趣的是,两个框架的演进方向正在相互靠拢。

Hermesv0.7韧性更新里悄悄往回撤了半步——把原本写死在系统里的唯一高级记忆后端降级为与6个第三方服务平起平坐,反而把最原始的纯文件加全文检索顶成了默认兜底方案。一个自称替你决定一切的系统,主动把记忆的选择权交还给了用户。

而另一边的OpenClaw,动作却是截然相反的补课式加强。45日放出类似Claude Auto DreamDreaming做离线记忆整理;410日又砸出Active Memory,直接在主回复前跑一个专门的记忆子Agent,粒度比Hermes固定15轮一次的微调还要细、还要聪明。

这说明,不管是从工具箱出发还是从搭档出发,大家全都在往同一个方向靠拢。Hermes只不过是下注下得最早,也最狠。

许多开发者将Hermes视为OpenClaw的直接替代方案。有开发者表示刚从OpenClaw转移到Hermes,是他做过最明智的选择Hermes官方也明确提供从OpenClaw的完整迁移路径,包括安装向导到数据迁移的全套工具。

6.GitHub的硝烟:两条增长曲线背后的叙事之战

OpenClaw:垂直飙升的龙虾奇迹

OpenClawGitHub星标增长堪称开源史上的现象级事件:

202511月:由Peter Steinberger发布,最初名为Clawdbot,后因商标问题更名为Moltbot,最终定名OpenClaw

202633日:星标数达到248,214,正式超越React24.3万星),成为GitHub上星标数最高的非聚合类软件项目之一

202634日:星标数超过25.5万,大幅领先Linux内核的22万星

20263月(发布后约60天):星标数突破335,000,日均新增约2,792星,增速是次优项目的15

OpenClaw在短短一百天内达到了React用十三年才积累的星标数。其增长曲线近乎垂直,反映了AI Agent领域的集体狂热与注意力经济的全面爆发。它的增长受益于第一波Agent热潮”——AI从聊天框中解放出来,让开发者第一次真正感受到“AI能帮自己做事情

Hermes:后来居上的后浪冲击

Hermes虽然发布时间晚了约三个月,但其增长速度同样令人瞩目:

2026225日:正式公开发布

发布后数周:GitHub星标突破2.2

20263月:整个月持续霸榜GitHub全球热门榜单第一

202648日:发布v0.8.0版本,单日新增6,400+

20264月:累计星标突破66,000Fork数达到8,800

截至2026413日:星标数达到约4.8万(不同统计口径略有差异)

OpenRouter平台上,Hermes Agent进入本周增长最快的应用和Agent榜单,一周内实现了367%的增长。Nous Research API的增长更夸张,达到6402%Hermestoken使用量从20263月下旬开始明显加速,单日使用量连续刷新新高。

Hermes的增长恰好击中了OpenClaw用户长期存在的痛点——Agent“能不能记住能不能变强。社区自发产出的“Hermes橙皮书(从入门到精通的完整教程)也在开发者中广泛传播,进一步降低了上手门槛。

增长对比总结

项目

首次发布

达到里程碑耗时

当前星标

核心增长驱动力

OpenClaw

202511

100天达到24万星

33.5

本地优先、多通道、生态爆发

Hermes

20262

50天达到4.7万星

6.6

自进化、记忆系统、低门槛

OpenClaw的增长受益于第一波Agent热潮”——它将AI从聊天框中解放出来,让开发者第一次真正感受到“AI能帮自己做事情Hermes的增长则受益于第二波Agent热潮”——当开发者发现Agent“做完就忘时,Hermes自我进化给出了更进一步的答案。

7.Agent下一站:从单人匹马千军万马

回到“Agent下一站的命题。Harness Engineering的龙虎斗远未结束,但这场竞争已经为我们勾勒出清晰的未来图景。

行业大势:从模型智能“Agent自主性

根据S&P Global的报告,58%的企业正在积极部署Agent能力。Gartner预测,到2026年底,40%的企业应用将集成任务特定型AI Agent,而2025年这一比例还不足5%。这一数据表明,AI Agent正从少数极客的实验品走向企业级基础设施。

更为重要的是行业关注点的根本性转移。2025年,AI社区讨论的核心问题是哪个模型最聪明;而到了2026年,讨论焦点已转变为“Agent能自主工作多久才会出问题。从一次性智能持久自主性,这一转变是整个AI Agent赛道的核心叙事。

Agent左右互搏:自动化与可控性的再平衡

当前HermesOpenClaw的竞争,本质上是自动化与控制权的此消彼长。Hermes押注的是替用户做决定的全自动路线,OpenClaw坚守的是让人做最终决策的工具路线。然而,两边的演进轨迹已经显示出收敛趋势:Hermes在回撤,OpenClaw在补课。未来优秀的Agent框架很可能兼具两者之长——在容错率高的日常任务中全自动运行,在关键决策处主动征求用户意见。

从单Agent到多Agent系统:自动化从单人匹马千军万马

但更宏大的变化正在发生。Gartner发现,企业对多智能体系统的咨询量在2024Q12025Q2期间激增了1445%Databricks的报告显示,多Agent工作流的使用量在20256月至10月间增长了327%

北京智源研究院发布的《2026十大AI技术趋势》明确指出:多智能体系统将决定应用上限,Agent时代的“TCP/IP”初具雏形。随着MCPA2A等通信协议趋于标准化,智能体间拥有了通用语言,多智能体系统将突破单体智能天花板。

可预见的智能体协作经济图景体现为三种形态:一是企业调度Agent按需采购AI服务(已发生);二是Agent之间的资源交换与任务拍卖(近期可见);三是A2A合约与信任评级(中期探索)。未来很可能出现通用协调者+专业执行者的组合——一个智能体负责理解人的目标和统筹流程,另外一些智能体分别处理搜索、写作、编程等专门任务。

OpenClawHermes的各自演进方向

OpenClaw的未来:

企业级安全与治理:随着ClawAegis等安全框架成熟,从极客玩具演进为企业级基础设施

Agent协作深化Agent之间的通信协议、任务协调、冲突解决将更加重要;

Token经济与商业化:云厂商竞相接入本质是在争夺Token流向控制权,托管服务、技能市场、企业版SaaS等商业模式将加速落地。

Hermes的未来:

自进化能力持续深化:五阶段进化路线图从Phase 1(技能文件优化)逐步扩展到Phase 5(全栈自主优化);

记忆系统升级:个人记忆扩展到团队记忆,实现跨用户的经验共享;

生态与工具链完善:通过MCP协议集成补齐工具生态广度短板。

技术人的下一站:从码农“AI指挥官

在这一趋势下,技术人的角色正在发生根本性转变。正如OpenAI的实验所揭示的,程序员不再是熬夜写Bug再熬夜修Bug码农,而是从执行者变为驾驭者。技术人的下一站将是成为“AI Agent指挥官“AI调度官

Harness Engineering的方法论体系也将随之升级:不仅要约束单个Agent,还要协调多个Agent之间的通信协议、任务分配、冲突解决和信用机制。业界已形成共识,让AI Agent真正可用,需要构建包含环境设计、意图规范、反馈循环、可观测性工具、架构约束、上下文工程在内的完整Harness体系。

8结语

Harness Engineering的兴起,标志着AI Agent实验室玩具走向生产级工具的关键转折。OpenClawHermes的龙虎斗,本质上是在同一方法论框架下的两条不同实践路径:一条先做广度再补深度,一条先做深度再补广度

OpenClaw证明了“AI Agent能做什么”——它打破了聊天框的限制,让AI真正开始动手Hermes则回答了“AI Agent应该成为什么”——一个会学习、会成长、会记住你的搭档,而非一个用完即弃的工具。

正如一位开发者在社区中所言:

“OpenClaw让我第一次觉得AI真的在帮我做事,而Hermes让我觉得AI真的在理解我。

但无论路径如何,最终的目标是一致的:将不可控的大模型装进一个可控的工程框架里,让AI一次性的聪明变成持续可靠的生产力

而对于Agent的下一站,答案已经逐渐清晰:单Agent的自进化能力将与多Agent的协作网络交织共振,形成每个Agent都能自主成长、多个Agent能协同作战的新格局。技术人的角色也将从写代码的人进化为驾驭Agent系统的人”——这或许才是Harness Engineering这一名称最深层的隐喻。