Hermes与OpenClaw,Harness Engineering的爱马仕与龙虾:谁是Agent下一站?
2026年的AI Agent领域,正在经历一场深刻的价值重估。过去两年,行业的核心叙事始终围绕着“哪个模型更聪明”:GPT-4、Claude Opus、Gemini……每一次模型升级都伴随着基准测试分数的刷新和公众的惊叹。但到了2026年初,一个根本性的认知转变已经完成:大模型能力正在逐渐趋同,未来的技术壁垒正在从模型本身转向 Harness Engineering。

引言:从“比谁聪明”到“比谁听话”——Harness Engineering的时代命题
Harness Engineering(驾驭工程/约束工程)的核心要义,是用一套工程化的“壳”将不可控的大模型约束为可控、可靠的生产力工具。LangChain在2026年3月发布的实证报告中给出了一个极具说服力的数据:仅仅给同一个大语言模型换上一套更精巧的Harness架构,它在Terminal Bench 2.0上的通过率就直接从52.8%拉升到66.5%——底层模型权重一个字节都没改,排名却从三十名开外狂飙到前五。
正是在这一方法论框架下,两大开源AI Agent框架——OpenClaw与Hermes Agent——展开了2026年最引人注目的“龙虎斗”。一个代表了Harness Engineering中“广度连接”与“生态驱动”的极致追求,另一个则代表了“深度进化”与“自动成长”的激进探索。两者的交锋不仅关乎谁将成为开源Agent的“王者”,更折射出整个行业对“AI Agent到底该长什么样”这一根本问题的不同回答。
本文将先从Harness Engineering的方法论框架切入,深入剖析OpenClaw与Hermes的技术架构、生态现状与增长轨迹,最后论证Agent下一站的演进方向——从单Agent的“左右互搏”到多Agent系统的“千军万马”。
2.Harness Engineering:2026年AI Agent的元方法论
从Prompt到Context再到Harness:三层演进
2026年业界已形成清晰的共识:AI Agent工程经历了三层演进。
•2023年重“Prompt”:如何更好地向模型表达需求;
•2025年重“Context”:模型能“看到”什么信息环境;
•2026年跃升至“Harness”:构建系统级的约束、验证与执行框架。
三者非替代而是分层:Prompt优化表达,Context管理信息环境,Harness构建可信执行系统。
Mitchell Hashimoto对Harness Engineering核心循环的总结堪称精辟:
“Harness Engineering的理念是每当发现Agent犯了一个错误,就投入时间设计一个方案,让它不再犯同样的错。”
这恰恰道出了OpenClaw与Hermes在产品哲学上的根本分野——前者将纠错的责任交给了人,后者试图将纠错的能力内化于Agent本身。
Harness的三层结构
从架构上看,Harness Engineering围绕AI Agent运行构建了一套完整的工程系统,包含三层结构:
•执行层(Agent Harness):模型+工具调用+任务拆解,负责“做事”;
•评估层(Evaluation Harness):自动测试、评分、结果比对,负责“判断做得对不对”;
•控制层(Control Harness):权限边界、行为约束、合规审查,负责“划定边界”。
如果将大模型比作一匹蓄势待发的烈马,Harness就是人类牵引、驾驭这匹烈马的缰绳。真正稀缺的能力,不在模型里面,在模型外面——如何找到一副趁手的缰绳,以及驾驶者心中清晰准确的目的地。OpenAI的实验也验证了这一判断:在“驾驭工程”工作流下,3人指挥AI在5个月内造出百万行代码,程序员从“执行者”变为“驾驭者”。
3.OpenClaw:广度优先的“生态之王”
核心理念:连接一切的工具箱
OpenClaw由奥地利独立开发者Peter Steinberger于2025年11月推出,定位为“完全开源且本地运行的AI Agent框架”。其核心理念是将AI从云端聊天框彻底拉出来,接入到实际的工作、学习和生活中,真正执行任务。它强调人在中心、规则可控,通过成熟的技能生态与多平台接入能力,实现本地设备自动化与跨渠道交互,更像一套可高度定制的AI执行系统。
技术架构:三层解耦
OpenClaw的技术架构呈现出清晰的分层设计,被誉为“AI操作系统”的雏形。
Gateway(调度中枢)。Gateway是OpenClaw架构的核心组件,本质上是一个事件驱动的消息总线。它负责连接管理层(通过WebSocket维护与各Channel的长连接)、协议转换层(将异构聊天协议统一转换为内部事件流)以及安全策略层(实现设备配对与访问控制)。Gateway的存在使得OpenClaw能够以单一实例同时管理多个通信渠道,确保了用户身份的全局一致性和会话状态的集中管理。
Channels(通信抽象层)。OpenClaw将WhatsApp、Telegram、Discord、Slack、微信、飞书等20余种通讯平台封装为标准化Channel接口。这种设计哲学类似于操作系统中的设备驱动抽象层,使得AI能够7×24小时在不同应用之间跨越执行任务,打破了传统LLM的网页聊天框沙箱限制。
Agents+Tools(智能体与工具层)。OpenClaw支持多Agent架构,多个专业化Agent可在单个Gateway进程中并行运行,每个Agent拥有独立的内存、凭证和工具权限。工具层则通过可插拔的Skill系统进行扩展。
pi-mono引擎。底层基于pi-mono嵌入式Agent引擎,提供ReAct循环、LLM调用、工具执行等基础能力。在pi-mono之上构建了路由、容错、认证管理、Skill系统等生产级能力。
记忆系统:静态文件驱动
OpenClaw以Markdown文件为基础记忆载体,通过[SOUL.md](SOUL.md)、[AGENTS.md](AGENTS.md)等文件维护身份与规则,高级记忆能力如向量检索、知识图谱需要额外安装插件实现。这种设计的好处是极致可控——用户完全掌握Agent“看到”了什么,但代价是记忆能力依赖手动配置与扩展,无法从执行过程里主动提炼经验。
技能系统:生态为王,但隐忧浮现
OpenClaw的技能生态是它最引以为傲的护城河。截至2026年3月底,公开技能注册库ClawHub已收录超过13,729个社区开发的Skills,ClawHub社区累计贡献AgentSkills超过1,100个。Awesome-openclaw-skills精选合集从海量技能中筛选出3000余个高质量技能,覆盖编程开发(1222个)、Web前端(938个)、DevOps(408个)等全场景。
但生态繁荣的背后也隐藏着结构性风险。
•供应链安全危机:ClawHub在2026年初爆出大规模供应链攻击——超过1,184个恶意Skills被确认,约每12个套件就有一个带恶意负载。这一事件暴露了开放式插件生态在缺乏有效审查机制时的脆弱性。
•“有量无质”的困境:OpenClaw的技能完全依赖人工编写或社区下载,扩展需要手动安装维护,无法自主生成新技能,能力边界由预置技能决定。2026年3月22日的版本升级强行将插件生态从公共npm迁移到官方ClawHub,引发流量暴增导致全线报错,暴露出“激进生态策略”背后的治理短板。
针对安全问题,蚂蚁集团AI安全实验室与清华大学联合开发了ClawAegis,这是首个面向OpenClaw的全生命周期防御系统,具备五层纵深防御能力,以插件形式部署,无需修改框架代码。
部署与安全:灵活但门槛高
OpenClaw本身不默认提供安全沙盒,权限边界、操作限制需要用户自行配置,可控性更强但上手门槛更高;定时任务需要单独安装对应技能实现。2026版本通过优化一键部署流程降低了部分门槛,新增多Agent协同能力,但安全配置仍高度依赖用户的专业素养。2026年1月底爆发的“ClawHavoc”安全危机也暴露了赋予AI系统级权限带来的潜在风险。
应用生态:云厂商集体“养虾”
OpenClaw的爆红迅速引来了大厂的关注与跟进。腾讯云、阿里云、华为云、火山引擎等主流云厂商竞相接入OpenClaw生态。腾讯推出了定制版“QClaw”,阿里发布了AI Agent平台“悟空”(定位为企业级AI原生工作平台)。微软也在探索将OpenClaw技术应用于Microsoft 365中的在线代理团队。
实际应用场景覆盖跨平台消息管理、文件与系统操作、浏览器自动化与数据抓取、个人日程与任务自动化调度等。Discord社区实时在线人数达1.8万。
4.Hermes Agent:深度优先的“进化之矛”
核心理念:与你共同成长的搭档
Hermes Agent由Nous Research于2026年2月25日发布,口号是 “the agent that grows with you”——与你共同成长的Agent。它试图解决一个被OpenClaw忽视的根本性问题:当所有人都在讨论Agent能做什么,但没人注意Agent用完之后什么都不留下。Hermes的答案是让Agent记住“什么方法有效”,从一个用完归零的工具,变成能从失败里学到东西、能记住教训的长期搭档。
技术架构:自进化闭环
Hermes的架构围绕一套完整的“学习闭环”构建。它将技能的生命周期劈成两截:一截是运行时的静默生成,另一截是离线的硬核进化。
•运行时生成:每次任务完成后,Hermes会检查是否满足触发条件——工具调用超过5次、中途出错后自行修复、用户做过纠正、或走了一条不明显但有效的路径。满足任何一条,它就会自动在 ~/.hermes/skills目录里生成一个结构化的Markdown格式Skill文件。下次遇到类似问题时,优先调用已有经验,而不是重新推理。
•离线进化:Hermes内置了一套离线批量进化算法,还专门拉了一个独立仓库(hermes-agent-self-evolution)。引擎用的是DSPy框架,加上一套叫 GEPA(Genetic-Pareto Prompt Evolution)的核心算法——出自一篇ICLR 2026 Oral论文,题为《反思性提示词进化可以跑赢强化学习》。GEPA通过读取执行追踪来理解“为什么失败”,而非仅仅知道“失败了”,从而提出有针对性的改进。这套进化机制不需要GPU训练,每次优化成本仅约2–10美元,且所有改进均需通过PR人工审查。
记忆系统:三层自动架构
Hermes采用多层原生记忆架构,无需插件、开箱即用:
•紧凑持久内存:跨会话保留关键信息;
•SQLite存储会话历史:采用FTS5全文检索与LLM摘要进行二次组织,可回溯几周前的对话;
•技能过程记忆:记录任务执行路径;
•可扩展结构化建模层:记忆自动整理、自动检索,全程零人工维护。
这种记忆不再依赖人工维护,而是由Agent自主整理、更新,更像一种持续演化的认知结构,在不同任务之间建立关联,逐渐形成对用户工作方式的理解。
广泛模型兼容与低门槛部署
Hermes支持200+模型(通过OpenRouter)、400+模型(通过Nous Portal)以及Ollama本地模型,提供6种部署方式(包括5美元VPS、Docker、Serverless等),支持Telegram、Discord、Slack、WhatsApp、微信、企业微信等16个通信平台的全平台接入,一行命令即可安装运行。
安全与调度:出厂即完备
Hermes默认内置完整安全沙盒机制,包含危险命令审批、用户授权、容器隔离、上下文扫描,安全能力开箱即用,无需额外配置,对普通用户更友好;同时原生内置Cron定时任务,可直接设置周期性任务,不用依赖外部调度组件。
版本迭代与企业级应用
从版本迭代速度看,Hermes的活跃度极高。从2026年2月25日发布v0.1.0,到4月8日的v0.8.0,42天内迭代8个大版本,合并了数百个PR,242名贡献者参与其中。v0.9.0版本已支持原生微信和企业微信的Callback模式。
值得注意的是,Hermes在被Nous Research打造为Agent框架之前,已在企业场景中积累了大量实战经验。印度外卖巨头Swiggy内部使用的同名工具Hermes V3,是一个GenAI驱动的text-to-SQL助手,通过向量化历史查询嵌入技术,将SQL生成准确率从54%提升至93%,已成为Swiggy内部多个AI副驾驶工具的核心基础设施。
小米大模型MiMo正式接入Hermes Agent框架并限免两周。通过Termux终端模拟器,Hermes甚至可以直接安装在Android手机上。
5.同与不同:功能表的镜像与哲学的分野
将两个框架并排对比,一个有趣的现象浮现出来:它们在功能上一模一样的地方,远比差异多得多。
功能重合面:殊途同归的基建
定时调度、子Agent委派、浏览器自动化、TTS语音合成、Vision视觉能力、图像生成、语音交互——两边全都有。Gateway方面,Telegram、Discord、Slack、WhatsApp、Signal等20多个平台的消息集成,两边也毫无悬念地全都有。对着清单一项项打勾就会发现,所谓功能表上的“绝对碾压”根本不存在。
核心技术对比
|
维度 |
OpenClaw |
Hermes Agent |
|
核心理念 |
连接驱动:多通道统一接入 |
学习驱动:持续自我进化 |
|
架构设计 |
三层解耦(Gateway+Channels+Agents) |
单体Agent+自进化管道 |
|
记忆机制 |
静态配置([SOUL.md](SOUL.md)、[AGENTS.md](AGENTS.md)) |
三层持久化记忆(SQLite FTS5+摘要) |
|
技能扩展 |
社区插件/手写Skill |
自动生成+自动优化 |
|
自我进化 |
需依赖外部插件实现 |
原生内置DSPy+GEPA |
|
安全机制 |
社区提供ClawAegis防御系统 |
出厂内置危险命令审批、容器隔离 |
|
部署方式 |
本地/云端灵活部署 |
6种方式(VPS/Docker/Serverless等) |
|
多Agent协作 |
原生支持多Agent并行 |
单一Agent框架 |
根本区别:工具箱 vs 搭档
真正的区别不在功能层面,而在设计哲学层面。简单来说,OpenClaw是一个由人主导配置与编排的“工具箱”,而Hermes Agent则是一个能自主学习、进化并沉淀经验的“长期搭档”。
这一分野具体体现在三个核心维度上:
•记忆系统:Hermes是原生自动型,全程零人工维护;OpenClaw是手动可控型,依赖SOUL.md等配置文件。
•技能机制:Hermes具备技能自动生成与自我进化能力,技能库随使用持续变强;OpenClaw的技能完全依赖人工编写或社区下载,能力边界由预置技能决定。这是两者最核心的区别。
•安全与调度:Hermes追求省心安全,默认内置完整沙盒;OpenClaw追求极致可控,需要用户自行配置权限边界。
一条有趣的收敛曲线
有趣的是,两个框架的演进方向正在相互靠拢。
•Hermes在v0.7韧性更新里悄悄往回撤了半步——把原本写死在系统里的唯一高级记忆后端降级为与6个第三方服务平起平坐,反而把最原始的纯文件加全文检索顶成了默认兜底方案。一个自称替你决定一切的系统,主动把记忆的选择权交还给了用户。
•而另一边的OpenClaw,动作却是截然相反的补课式加强。4月5日放出类似Claude Auto Dream的Dreaming做离线记忆整理;4月10日又砸出Active Memory,直接在主回复前跑一个专门的记忆子Agent,粒度比Hermes固定15轮一次的微调还要细、还要聪明。
这说明,不管是从“工具箱”出发还是从“搭档”出发,大家全都在往同一个方向靠拢。Hermes只不过是下注下得最早,也最狠。
许多开发者将Hermes视为OpenClaw的直接替代方案。有开发者表示“刚从OpenClaw转移到Hermes,是他做过最明智的选择”。Hermes官方也明确提供从OpenClaw的完整迁移路径,包括安装向导到数据迁移的全套工具。
6.GitHub的硝烟:两条增长曲线背后的叙事之战
OpenClaw:垂直飙升的“龙虾奇迹”
OpenClaw的GitHub星标增长堪称开源史上的现象级事件:
•2025年11月:由Peter Steinberger发布,最初名为Clawdbot,后因商标问题更名为Moltbot,最终定名OpenClaw
•2026年3月3日:星标数达到248,214,正式超越React(24.3万星),成为GitHub上星标数最高的非聚合类软件项目之一
•2026年3月4日:星标数超过25.5万,大幅领先Linux内核的22万星
•2026年3月(发布后约60天):星标数突破335,000,日均新增约2,792星,增速是次优项目的15倍
OpenClaw在短短一百天内达到了React用十三年才积累的星标数。其增长曲线近乎垂直,反映了AI Agent领域的集体狂热与注意力经济的全面爆发。它的增长受益于“第一波Agent热潮”——将AI从聊天框中解放出来,让开发者第一次真正感受到“AI能帮自己做事情”。
Hermes:后来居上的“后浪冲击”
Hermes虽然发布时间晚了约三个月,但其增长速度同样令人瞩目:
•2026年2月25日:正式公开发布
•发布后数周:GitHub星标突破2.2万
•2026年3月:整个月持续霸榜GitHub全球热门榜单第一
•2026年4月8日:发布v0.8.0版本,单日新增6,400+星
•2026年4月:累计星标突破66,000,Fork数达到8,800
•截至2026年4月13日:星标数达到约4.8万(不同统计口径略有差异)
在OpenRouter平台上,Hermes Agent进入本周增长最快的应用和Agent榜单,一周内实现了367%的增长。Nous Research API的增长更夸张,达到6402%。Hermes的token使用量从2026年3月下旬开始明显加速,单日使用量连续刷新新高。
Hermes的增长恰好击中了OpenClaw用户长期存在的痛点——Agent“能不能记住”和“能不能变强”。社区自发产出的“Hermes橙皮书”(从入门到精通的完整教程)也在开发者中广泛传播,进一步降低了上手门槛。
增长对比总结
|
项目 |
首次发布 |
达到里程碑耗时 |
当前星标 |
核心增长驱动力 |
|
OpenClaw |
2025年11月 |
约100天达到24万星 |
约33.5万 |
本地优先、多通道、生态爆发 |
|
Hermes |
2026年2月 |
约50天达到4.7万星 |
约6.6万 |
自进化、记忆系统、低门槛 |
OpenClaw的增长受益于“第一波Agent热潮”——它将AI从聊天框中解放出来,让开发者第一次真正感受到“AI能帮自己做事情”。Hermes的增长则受益于“第二波Agent热潮”——当开发者发现Agent“做完就忘”时,Hermes用“自我进化”给出了更进一步的答案。
7.Agent下一站:从“单人匹马”到“千军万马”
回到“Agent下一站”的命题。Harness Engineering的龙虎斗远未结束,但这场竞争已经为我们勾勒出清晰的未来图景。
行业大势:从“模型智能”到“Agent自主性”
根据S&P Global的报告,58%的企业正在积极部署Agent能力。Gartner预测,到2026年底,40%的企业应用将集成任务特定型AI Agent,而2025年这一比例还不足5%。这一数据表明,AI Agent正从少数极客的实验品走向企业级基础设施。
更为重要的是行业关注点的根本性转移。2025年,AI社区讨论的核心问题是“哪个模型最聪明”;而到了2026年,讨论焦点已转变为“Agent能自主工作多久才会出问题”。从“一次性智能”到“持久自主性”,这一转变是整个AI Agent赛道的核心叙事。
单Agent的“左右互搏”:自动化与可控性的再平衡
当前Hermes与OpenClaw的竞争,本质上是自动化与控制权的此消彼长。Hermes押注的是“替用户做决定”的全自动路线,OpenClaw坚守的是“让人做最终决策”的工具路线。然而,两边的演进轨迹已经显示出收敛趋势:Hermes在回撤,OpenClaw在补课。未来优秀的Agent框架很可能兼具两者之长——在容错率高的日常任务中全自动运行,在关键决策处主动征求用户意见。
从单Agent到多Agent系统:自动化从“单人匹马”到“千军万马”
但更宏大的变化正在发生。Gartner发现,企业对多智能体系统的咨询量在2024年Q1至2025年Q2期间激增了1445%。Databricks的报告显示,多Agent工作流的使用量在2025年6月至10月间增长了327%。
北京智源研究院发布的《2026十大AI技术趋势》明确指出:多智能体系统将决定应用上限,Agent时代的“TCP/IP”初具雏形。随着MCP、A2A等通信协议趋于标准化,智能体间拥有了通用“语言”,多智能体系统将突破单体智能天花板。
可预见的“智能体协作经济”图景体现为三种形态:一是企业调度Agent按需采购AI服务(已发生);二是Agent之间的资源交换与任务拍卖(近期可见);三是A2A合约与信任评级(中期探索)。未来很可能出现通用协调者+专业执行者的组合——一个智能体负责理解人的目标和统筹流程,另外一些智能体分别处理搜索、写作、编程等专门任务。
OpenClaw与Hermes的各自演进方向
OpenClaw的未来:
•企业级安全与治理:随着ClawAegis等安全框架成熟,从“极客玩具”演进为“企业级基础设施”;
•多Agent协作深化:Agent之间的通信协议、任务协调、冲突解决将更加重要;
•Token经济与商业化:云厂商竞相接入本质是在争夺Token流向控制权,托管服务、技能市场、企业版SaaS等商业模式将加速落地。
Hermes的未来:
•自进化能力持续深化:五阶段进化路线图从Phase 1(技能文件优化)逐步扩展到Phase 5(全栈自主优化);
•记忆系统升级:从“个人记忆”扩展到“团队记忆”,实现跨用户的经验共享;
•生态与工具链完善:通过MCP协议集成补齐工具生态广度短板。
技术人的下一站:从“码农”到“AI指挥官”
在这一趋势下,技术人的角色正在发生根本性转变。正如OpenAI的实验所揭示的,程序员不再是熬夜写Bug再熬夜修Bug的“码农”,而是从“执行者”变为“驾驭者”。技术人的下一站将是成为“AI Agent指挥官”与“AI调度官”。
Harness Engineering的方法论体系也将随之升级:不仅要约束单个Agent,还要协调多个Agent之间的通信协议、任务分配、冲突解决和信用机制。业界已形成共识,让AI Agent真正可用,需要构建包含环境设计、意图规范、反馈循环、可观测性工具、架构约束、上下文工程在内的完整Harness体系。
8结语
Harness Engineering的兴起,标志着AI Agent从“实验室玩具”走向“生产级工具”的关键转折。OpenClaw与Hermes的龙虎斗,本质上是在同一方法论框架下的两条不同实践路径:一条先做“广度”再补“深度”,一条先做“深度”再补“广度”。
OpenClaw证明了“AI Agent能做什么”——它打破了聊天框的限制,让AI真正开始“动手”;Hermes则回答了“AI Agent应该成为什么”——一个会学习、会成长、会记住你的搭档,而非一个用完即弃的工具。
正如一位开发者在社区中所言:
“OpenClaw让我第一次觉得AI真的在帮我做事,而Hermes让我觉得AI真的在理解我。”
但无论路径如何,最终的目标是一致的:将不可控的大模型装进一个可控的工程框架里,让AI从“一次性的聪明”变成“持续可靠的生产力”。
而对于Agent的下一站,答案已经逐渐清晰:单Agent的自进化能力将与多Agent的协作网络交织共振,形成“每个Agent都能自主成长、多个Agent能协同作战”的新格局。技术人的角色也将从“写代码的人”进化为“驾驭Agent系统的人”——这或许才是Harness Engineering这一名称最深层的隐喻。
夜雨聆风