OpenClaw 爆火,Hermes 追击,谁才是未来?

当模型能力撞上阶段性天花板，拼的就不再是谁更聪明。拼的是谁的架构更稳，能让一个没那么神的大模型，也能把活干完，而且干得安全、可审计、可复盘。

2026 年开年，AI Agent 这条线是真的热。

一边是「快思考」的对话式 AI，还在卷回答质量和情绪价值。

另一边是「慢思考」的行动式智能体，开始接管现实世界的任务链路，查资料，写报告，跑脚本，拉工单，发消息，顺手把锅也背了。

然后两个项目接连刷屏。一个叫 OpenClaw，几乎是以开挂的速度登顶 GitHub，把 Local-First 这套叙事推到高潮。没过多久，Hermes Agent 后来居上，搞出了一个更激进的命题——自我进化。

我当时脑子里冒出来一个很现实的问题：

当 AI 从「大脑」开始长出「手脚」，它要真正在企业里跑起来，靠的到底是什么？不是 Demo 里的那句 Prompt。是那层看起来枯燥、但决定生死的东西——Harness Engineering。

这篇文章我想干两件事：

第一，把 OpenClaw 和 Hermes Agent 拆开看看，它们到底各自赢在什么地方。
第二，把话题拉回企业落地，给你一个能拿去开会用的评估 Harness Engineering。

我先用一个四层视角，把它们拆开

很多人聊 Agent 的 Harness Engineering，聊着聊着就变成「这个支持多少工具」「那个能不能并发」「谁的 Planner 更聪明」。听着很热闹，但抓不住主线。

我更喜欢用一个四层视角，从表象一路剥到基因层：

L1：长什么样，你怎么用它
L2：核心能力是什么，怎么闭环把活干完
L3：生态怎么长，怎么跟外部世界交换价值
L4：底层哲学是什么，决定它未来往哪进化

顺着这个顺序，我们先从 OpenClaw 开始。

OpenClaw：表面是爆火，底色是工程化

OpenClaw 的爆火，说真的，不是因为模型突然变强了。它赢在工程化，而且赢得非常「务实」。

它精准戳中了开发者和技术极客最在意的那件事——

我能不能把云端 AI 的能力，安全、可控地拽回到自己的设备里。我能不能对我的数据，我的环境，我的权限，拥有主权。

L1：像个无处不在的超级入口

OpenClaw 最直观的感受就是「无处不在」。它不急着做一个独立 App，它更像一个多渠道网关，把自己塞进你已经在用的工作流里。Slack，Telegram，WhatsApp，甚至飞书和企业微信。

你不需要换习惯，只需要在熟悉的聊天窗口里发一句话，一个常驻在你电脑或服务器上的 AI 助理就被叫醒了。这种设计的狠点在于，它把门槛压到最低。你不需要学新产品，你只需要会发消息。

L2：本地常驻的数字管家

更关键的是它的运行形态。OpenClaw 不是那种执行完就退出的 CLI 小工具，它更像一个本地常驻的守护进程，长生命周期地跑着。

它还有个心跳调度机制。没被你喊，它也能按规则自己触发任务，比如每小时检查一次邮箱，每天九点发一份晨报。这一下子就从被动响应，变成主动担责。

你会发现，很多自动化工作流之所以跑不起来，不是因为模型不够聪明，而是因为没人把「长期在线」「定时触发」「状态保持」这套脏活累活接住。OpenClaw 接住了。

L3：一个激进但透明的文件化生态

OpenClaw 还有个让我很喜欢的设计——它几乎不依赖数据库。记忆，技能，会话历史，很多东西都用 Markdown，YAML 这类纯文本格式直接落到本地文件系统。

这会带来一种很直接也很稀缺的体验：你能看见它在记什么；你能用 Git 给它的心智做版本控制；你能用任何文本编辑器把它拽回正轨。这不是情怀，这是可控性。

另外它还有一个技能中心 ClawHub，像个 App Store，社区能贡献即插即用的能力插件。

L4：一种冲突美学——自治行动力 vs 安全边界

OpenClaw 的底层哲学很明确：它默认大模型是不可信的，随时可能被 Prompt 注入。

所以它一边给 Agent 很强的本地执行能力，跑 Shell，读写文件；一边又用工程化手段把护栏做得很硬——动态密钥注入，细粒度文件权限控制，人机审批。

尤其是人机审批，对发送邮件、执行高危命令这类操作，直接中断，推送一个 Approve 等你点。坦率的讲，这套东西一点都不浪漫。但你真要上线，它就是救命的。

Hermes Agent：更野心的一点在于，它想让 Agent 学会成长

如果说 OpenClaw 解决的是怎么安全地干活，Hermes Agent 则在回答一个更难的问题——

Agent 能不能从干活里学到东西？能不能越用越能干？

L1：Serverless 的统一助理

Hermes 也有多平台网关，可以接入各类消息应用。但它的部署哲学更偏 Serverless。跟 Daytona，Modal 这类平台集成，闲的时候休眠省钱，来消息立刻唤醒。既能 7x24 在线，又相对成本友好。更像企业里那种常驻数字员工。

L2：内置闭环的学习机器

Hermes 最狠的是它的闭环学习系统。它不满足于把对话历史存起来，它想把任务经验提炼成可复用的程序性记忆。大概是四个机制：

周期性自省
：定期回顾最近做了什么，哪些值得记
自动技能创建
：成功完成一个复杂任务后，把路径提炼成技能文件
技能自我优化
：下次用技能时发现更优路径，自动 patch
再配合 SQLite 的 FTS5 全文检索，先高效检索，再摘要注入上下文

这套组合拳的意思很明确：它在把一次性经验，沉淀成可复用资产。

L3：数据飞轮，反哺模型训练

Hermes 的生态野心还不止技能共享。它背后是 Nous Research。Agent 在真实任务中产生的轨迹，工具调用日志，失败与恢复路径，都被结构化记录。这些数据还能反哺模型微调，形成数据生成 → 模型优化 → 更强 Agent 的反馈闭环。

开源 Harness Engineering 里能把这件事讲顺的，确实不多。

L4：记忆分层，技能标准化

Hermes 认识到一个关键事实：不同类型的记忆，不该放在同一个篮子里。提示记忆，情景记忆，程序性记忆，语义记忆，各有各的存储和检索策略。它把这四层分得很清楚。

而且技能还遵循 agentskills.io 这类开放标准。这意味着技能可能不只在 Hermes 里复用，未来还有跨 Harness Engineering 迁移的空间。

下一代通用 Agent 的 Harness Engineering 会往哪走

OpenClaw 和 Hermes 其实代表了两股力量：一股是工程务实，把护栏和可控性做到极致；一股是认知野心，让 Agent 有成长性，形成闭环飞轮。我是真觉得下一代 Harness Engineering 很可能会走向融合。

1. 部署形态：Local-First vs Server-Persistent

OpenClaw 的本地主权让人安心，但依赖个人设备稳定。Hermes 的云端形态高可用，但数据托管在云上。更可能的未来是混合：云端有个协调大脑，负责调度、重计算、持久化；边缘侧有执行节点，负责跟本地环境安全交互。

2. 工具调用：从模型驱动走向确定性编排

今天很多 Agent 的工具调用太依赖模型临场发挥。灵活是灵活，但不确定性、幻觉、Token 成本也跟着上来。更像的形态是：高频固定流程沉淀成确定性脚本；LLM 更像总指挥，只在理解意图、复杂规划、处理未知异常时介入。

3. 记忆机制：核心是程序性记忆的沉淀

把所有历史塞进上下文或向量库，很快就会被成本和噪声打爆。分层记忆才是方向。而最关键的是程序性记忆——技能。能不能把成功路径提炼出来，版本化，优化，复用。这决定 Agent 有没有成长性。

4. 安全治理：从审批走向审计与归因

人机审批有效，但在企业高并发场景容易变瓶颈。企业更需要的是审计链。每次决策，每次工具调用，都要可回溯，可归因。出了问题能清楚复盘，是谁，在什么时候，基于什么信息，做错了哪一步。

5. 协作模式：从单体走向多主体编排

单个 Agent 能力有限。未来会原生支持多主体协作。一个中枢大脑，动态创建、组合、调度不同职能的子代理。分析的，沟通的，执行的。像一个团队一样干活。

企业级落地的入场券清单

当 Agent 从个人玩具走向企业生产工具，浪漫极客主义就得让位给工程纪律。下面这张表，我建议你直接拿去评审会上用：

维度	必要条件	核心解释
上下文管理	Session / Channel / User 三维隔离与继承	必须区分在哪个渠道的哪个会话里跟哪个用户交互
工具调用	稳定性、幂等性与错误恢复	外部 API 调用要可重试，写操作要幂等
记忆机制	短期 / 情景 / 程序性 / 语义四层分离	不同记忆不同策略，核心是技能的版本化
安全边界	最小权限，人机审批，审计与回溯	高风险操作可配置审批流，动作记录成日志
工程化	部署形态，可观测性，SLO/SLA，成本风控	日志指标链路追踪齐全，核心任务有 SLO
生态扩展	MCP / 插件 / 技能标准化与隔离	扩展接口标准化，插件隔离在沙箱里

我给你一个量化指标：Agent 生产力指数

光聊功能没用。企业最后一定会问：投入多少，回报多少，风险多少。

所以我做了一个复合指标，Agent 生产力指数。

API = (任务闭环率 × 工具稳健度 × 记忆有效性) / (安全与运维成本)

任务闭环率
：看自主完成端到端任务的比例
工具稳健度
：看工具调用成功率和可恢复性
记忆有效性
：看调用技能节省了多少步骤和时间
安全与运维成本
：负向指标，人力，算力，审计开销

你会发现，这个公式其实在逼你承认一件事：

没有安全和运维的成本控制，所谓生产力就是幻觉。

结论：没有最佳，只有最适

通用 AI Agent 的最佳 Harness Engineering 是什么？

我自己的答案是：没有一个放之四海而皆准的最佳。

OpenClaw 用工程务实主义，把本地主权和安全护栏做到了极致。Hermes 用认知野心，把闭环学习和分层记忆这条路先趟出来了。

你选哪个，取决于场景，组织规模，以及你对安全、成本、控制权的权重排序。

但不管怎么选，它们都在指向同一个未来：

AI Agent 的战场，正在从模型参数的军备竞赛，转向以任务闭环、持续学习和工程卓越为核心的 Harness Engineering 之争。

如果你正准备在公司里推 Agent，我的建议只有一句：

别再幻想超级智能。卷起袖子，把 Agent搭起来，跑起来，审计起来，复盘起来。

以上，既然看到这里了，如果觉得不错，随手点个关注、在看、转发三连吧～如果想第一时间收到推送，也可以给我个星标⭐谢谢你看我的文章，我们下次再见。