当模型能力撞上阶段性天花板,拼的就不再是谁更聪明。拼的是谁的架构更稳,能让一个没那么神的大模型,也能把活干完,而且干得安全、可审计、可复盘。
2026 年开年,AI Agent 这条线是真的热。
一边是「快思考」的对话式 AI,还在卷回答质量和情绪价值。
另一边是「慢思考」的行动式智能体,开始接管现实世界的任务链路,查资料,写报告,跑脚本,拉工单,发消息,顺手把锅也背了。
然后两个项目接连刷屏。一个叫 OpenClaw,几乎是以开挂的速度登顶 GitHub,把 Local-First 这套叙事推到高潮。没过多久,Hermes Agent 后来居上,搞出了一个更激进的命题——自我进化。
我当时脑子里冒出来一个很现实的问题:
当 AI 从「大脑」开始长出「手脚」,它要真正在企业里跑起来,靠的到底是什么?不是 Demo 里的那句 Prompt。是那层看起来枯燥、但决定生死的东西——Harness Engineering。
这篇文章我想干两件事:
第一,把 OpenClaw 和 Hermes Agent 拆开看看,它们到底各自赢在什么地方。 第二,把话题拉回企业落地,给你一个能拿去开会用的评估 Harness Engineering。
我先用一个四层视角,把它们拆开

很多人聊 Agent 的 Harness Engineering,聊着聊着就变成「这个支持多少工具」「那个能不能并发」「谁的 Planner 更聪明」。听着很热闹,但抓不住主线。
我更喜欢用一个四层视角,从表象一路剥到基因层:
- L1:长什么样,你怎么用它
- L2:核心能力是什么,怎么闭环把活干完
- L3:生态怎么长,怎么跟外部世界交换价值
- L4:底层哲学是什么,决定它未来往哪进化
顺着这个顺序,我们先从 OpenClaw 开始。
OpenClaw:表面是爆火,底色是工程化

OpenClaw 的爆火,说真的,不是因为模型突然变强了。它赢在工程化,而且赢得非常「务实」。
它精准戳中了开发者和技术极客最在意的那件事——
我能不能把云端 AI 的能力,安全、可控地拽回到自己的设备里。我能不能对我的数据,我的环境,我的权限,拥有主权。
L1:像个无处不在的超级入口
OpenClaw 最直观的感受就是「无处不在」。它不急着做一个独立 App,它更像一个多渠道网关,把自己塞进你已经在用的工作流里。Slack,Telegram,WhatsApp,甚至飞书和企业微信。
你不需要换习惯,只需要在熟悉的聊天窗口里发一句话,一个常驻在你电脑或服务器上的 AI 助理就被叫醒了。这种设计的狠点在于,它把门槛压到最低。你不需要学新产品,你只需要会发消息。
L2:本地常驻的数字管家
更关键的是它的运行形态。OpenClaw 不是那种执行完就退出的 CLI 小工具,它更像一个本地常驻的守护进程,长生命周期地跑着。
它还有个心跳调度机制。没被你喊,它也能按规则自己触发任务,比如每小时检查一次邮箱,每天九点发一份晨报。这一下子就从被动响应,变成主动担责。
你会发现,很多自动化工作流之所以跑不起来,不是因为模型不够聪明,而是因为没人把「长期在线」「定时触发」「状态保持」这套脏活累活接住。OpenClaw 接住了。
L3:一个激进但透明的文件化生态
OpenClaw 还有个让我很喜欢的设计——它几乎不依赖数据库。记忆,技能,会话历史,很多东西都用 Markdown,YAML 这类纯文本格式直接落到本地文件系统。
这会带来一种很直接也很稀缺的体验:你能看见它在记什么;你能用 Git 给它的心智做版本控制;你能用任何文本编辑器把它拽回正轨。这不是情怀,这是可控性。
另外它还有一个技能中心 ClawHub,像个 App Store,社区能贡献即插即用的能力插件。
L4:一种冲突美学——自治行动力 vs 安全边界
OpenClaw 的底层哲学很明确:它默认大模型是不可信的,随时可能被 Prompt 注入。
所以它一边给 Agent 很强的本地执行能力,跑 Shell,读写文件;一边又用工程化手段把护栏做得很硬——动态密钥注入,细粒度文件权限控制,人机审批。
尤其是人机审批,对发送邮件、执行高危命令这类操作,直接中断,推送一个 Approve 等你点。坦率的讲,这套东西一点都不浪漫。但你真要上线,它就是救命的。
Hermes Agent:更野心的一点在于,它想让 Agent 学会成长
如果说 OpenClaw 解决的是怎么安全地干活,Hermes Agent 则在回答一个更难的问题——
Agent 能不能从干活里学到东西?能不能越用越能干?
L1:Serverless 的统一助理
Hermes 也有多平台网关,可以接入各类消息应用。但它的部署哲学更偏 Serverless。跟 Daytona,Modal 这类平台集成,闲的时候休眠省钱,来消息立刻唤醒。既能 7x24 在线,又相对成本友好。更像企业里那种常驻数字员工。
L2:内置闭环的学习机器
Hermes 最狠的是它的闭环学习系统。它不满足于把对话历史存起来,它想把任务经验提炼成可复用的程序性记忆。大概是四个机制:
- 周期性自省
:定期回顾最近做了什么,哪些值得记 - 自动技能创建
:成功完成一个复杂任务后,把路径提炼成技能文件 - 技能自我优化
:下次用技能时发现更优路径,自动 patch 再配合 SQLite 的 FTS5 全文检索,先高效检索,再摘要注入上下文
这套组合拳的意思很明确:它在把一次性经验,沉淀成可复用资产。
L3:数据飞轮,反哺模型训练
Hermes 的生态野心还不止技能共享。它背后是 Nous Research。Agent 在真实任务中产生的轨迹,工具调用日志,失败与恢复路径,都被结构化记录。这些数据还能反哺模型微调,形成数据生成 → 模型优化 → 更强 Agent 的反馈闭环。
开源 Harness Engineering 里能把这件事讲顺的,确实不多。
L4:记忆分层,技能标准化
Hermes 认识到一个关键事实:不同类型的记忆,不该放在同一个篮子里。提示记忆,情景记忆,程序性记忆,语义记忆,各有各的存储和检索策略。它把这四层分得很清楚。
而且技能还遵循 agentskills.io 这类开放标准。这意味着技能可能不只在 Hermes 里复用,未来还有跨 Harness Engineering 迁移的空间。
下一代通用 Agent 的 Harness Engineering 会往哪走
OpenClaw 和 Hermes 其实代表了两股力量:一股是工程务实,把护栏和可控性做到极致;一股是认知野心,让 Agent 有成长性,形成闭环飞轮。我是真觉得下一代 Harness Engineering 很可能会走向融合。
1. 部署形态:Local-First vs Server-Persistent
OpenClaw 的本地主权让人安心,但依赖个人设备稳定。Hermes 的云端形态高可用,但数据托管在云上。更可能的未来是混合:云端有个协调大脑,负责调度、重计算、持久化;边缘侧有执行节点,负责跟本地环境安全交互。
2. 工具调用:从模型驱动走向确定性编排
今天很多 Agent 的工具调用太依赖模型临场发挥。灵活是灵活,但不确定性、幻觉、Token 成本也跟着上来。更像的形态是:高频固定流程沉淀成确定性脚本;LLM 更像总指挥,只在理解意图、复杂规划、处理未知异常时介入。
3. 记忆机制:核心是程序性记忆的沉淀
把所有历史塞进上下文或向量库,很快就会被成本和噪声打爆。分层记忆才是方向。而最关键的是程序性记忆——技能。能不能把成功路径提炼出来,版本化,优化,复用。这决定 Agent 有没有成长性。
4. 安全治理:从审批走向审计与归因
人机审批有效,但在企业高并发场景容易变瓶颈。企业更需要的是审计链。每次决策,每次工具调用,都要可回溯,可归因。出了问题能清楚复盘,是谁,在什么时候,基于什么信息,做错了哪一步。
5. 协作模式:从单体走向多主体编排
单个 Agent 能力有限。未来会原生支持多主体协作。一个中枢大脑,动态创建、组合、调度不同职能的子代理。分析的,沟通的,执行的。像一个团队一样干活。
企业级落地的入场券清单
当 Agent 从个人玩具走向企业生产工具,浪漫极客主义就得让位给工程纪律。下面这张表,我建议你直接拿去评审会上用:
| 上下文管理 | ||
| 工具调用 | ||
| 记忆机制 | ||
| 安全边界 | ||
| 工程化 | ||
| 生态扩展 |
我给你一个量化指标:Agent 生产力指数
光聊功能没用。企业最后一定会问:投入多少,回报多少,风险多少。
所以我做了一个复合指标,Agent 生产力指数。
API = (任务闭环率 × 工具稳健度 × 记忆有效性) / (安全与运维成本)
- 任务闭环率
:看自主完成端到端任务的比例 - 工具稳健度
:看工具调用成功率和可恢复性 - 记忆有效性
:看调用技能节省了多少步骤和时间 - 安全与运维成本
:负向指标,人力,算力,审计开销
你会发现,这个公式其实在逼你承认一件事:
没有安全和运维的成本控制,所谓生产力就是幻觉。
结论:没有最佳,只有最适
通用 AI Agent 的最佳 Harness Engineering 是什么?
我自己的答案是:没有一个放之四海而皆准的最佳。
OpenClaw 用工程务实主义,把本地主权和安全护栏做到了极致。Hermes 用认知野心,把闭环学习和分层记忆这条路先趟出来了。
你选哪个,取决于场景,组织规模,以及你对安全、成本、控制权的权重排序。
但不管怎么选,它们都在指向同一个未来:
AI Agent 的战场,正在从模型参数的军备竞赛,转向以任务闭环、持续学习和工程卓越为核心的 Harness Engineering 之争。
如果你正准备在公司里推 Agent,我的建议只有一句:
别再幻想超级智能。卷起袖子,把 Agent搭起来,跑起来,审计起来,复盘起来。
以上,既然看到这里了,如果觉得不错,随手点个关注、在看、转发三连吧~如果想第一时间收到推送,也可以给我个星标⭐谢谢你看我的文章,我们下次再见。
夜雨聆风