OpenClaw vs Hermes | 一文了解AI 工程范式迁移:从 Prompt、Context 到开源Harness

前言

三件最近发生的事，放在一起看，其实在讲同一个故事。OpenClaw，一个奥地利程序员独自写出来的开源 AI Agent 框架，在中国爆火到人们排队去腾讯总部装它，GitHub 星标超过 35.6 万。Claude Code，Anthropic 的旗舰编程 Agent，在 3 月 31 日凌晨因一个 .npmignore 的小失误，把 51 万行 TypeScript 源码暴露在了公网，几小时内被 fork 上万次。Hermes Agent，Nous Research 悄悄在二月发布的框架，两个月内涨到 71.9k stars，社区开始大规模从 OpenClaw 迁移。

这不是三条科技新闻。这是同一场底层范式迁移的三个截面——我们和 AI 协作的方式，正在经历一轮根本性的重构。

理解这场重构，需要从头讲起。

PART 1

Prompt Engineering

最早和 AI 打交道，本质上是在解一道语文题：怎么说，才能让它听懂？

这个阶段涌现出了大量技巧。Few-shot learning，给几个例子让模型学会套路。Chain-of-Thought，要求模型一步步推导而不是直接跳结论。角色扮演，把模型扮成某个专家来激活特定的"模式"。XML 结构化输出，用标签约束格式让结果可被程序解析。有人专门研究哪些词放在句首最能激活模型注意力，哪种语气能让它更"认真"，甚至有人写出了 Prompt Engineering 的完整方法论。

这些东西是真的有用的。一个写得好的 Prompt，和一个随手打的问题，得到的答案质量差距可以非常大。

但它有一道无法逾越的天花板：出了这个对话框，AI 什么都不知道，也什么都不记得。

你在跟一个每天早上都会失忆的天才顾问打交道。他能力超群，但昨天聊过的项目背景、你们建立的工作默契、上次他理解的你的偏好——一概清零。你可以把 Prompt 写得无比精准，但他接收到的，依然只是这一刻这一句话。

当你的需求是"帮我回答一个问题"，这没问题。但当你的需求变成"帮我完成一个项目"，Prompt Engineering 就不够用了。

PART 2

Context Engineering

2025 年中，Andrej Karpathy 说了一句话，在 AI 工程师圈子里传开了：

"Context engineering is the most important skill."

Shopify CEO Tobi Lütke 随后跟上： "Context engineering is the new skill."

这句话的意思，不是说 Prompt 不重要了，而是说思考的粒度变了。不是"这句话怎么说"，而是"在这次推理发生时，模型能看到什么"。

上下文窗口是一块寸土寸金的 RAM。你需要工程化地管理它：哪些信息要常驻，哪些按需加载，哪些压缩存储，哪些永远不需要被读进来。这是一个系统设计问题，不再只是一个语言技巧问题。

Context Engineering 的核心实践包括：用CLAUDE.md/AGENTS.md 给 Agent 一份"开工前必读"，写清楚项目结构、规范和禁区；用 RAG（检索增强生成）从知识库里动态拉取相关片段，而不是把整本手册塞进去；对静态指令和动态上下文做切割，让 prompt cache（提示词缓存）真正生效，避免每次重新计费；设计记忆系统，让信息在会话之间流转而不是每次从头开始。

Claude Code 泄露：意外的公开课

3 月 31 日那次泄露，在安全圈引发了很多讨论，但对工程师群体来说，它更像是一堂意外的公开课。51 万行代码里，最值得研究的不是功能列表，而是 Anthropic 工程师们实际上是怎么做 Context Engineering 的。

其中最精妙的是三层记忆系统：

MEMORY.md 不存数据，只存指针——每条记录大约 150 个字符，告诉 Agent"关于这件事的详细信息在哪里"，而不是把详细信息本身塞进常驻上下文。真实的项目知识住在独立的 Topic Files里，只在需要时加载。原始的对话记录从不被整段重读，只在需要查找特定信息时做 grep（Unix 系统里的文本精准搜索命令，这里借指关键词匹配而非全文扫描）式检索。这个设计背后的核心洞察是：上下文窗口里的每一个 token（模型处理的最小文本单元）都是稀缺资源，应该放路标，不应该放地图集。

Context Engineering 是一个真正的范式升级。它把思考的对象从"一句话"变成了"一个信息架构"。但它依然有盲区：信息给对了，Agent 还是会跑偏。跑了五十步之后行为退化怎么办？模型评估自己的输出时有没有可靠性？多个 Agent 并行执行时上下文互相污染怎么处理？这些不是信息问题，而是系统问题。

PART 3

Harness Engineering

"Harness"这个词来自马具——马勒、缰绳、马鞍，那整套让骑手能驾驭马的装备。这个比喻非常精准：不是替代马的力量，而是把它引向正确方向。

2026 年 2 月，两件事几乎同时发生。HashiCorp 联合创始人 Mitchell Hashimoto 在博客里使用了"harness engineering"这个术语来描述他的工程实践。几天后，OpenAI Codex 团队发布了一份实验报告：从 2025 年 8 月到 2026 年 1 月，5 个月时间，团队从 3 人扩展到 7 人，合并了约 1500 个 PR（Pull Request，代码合并请求），写了近 100 万行代码——其中人工编写的行数是零。

但这个结果不是一开始就实现的。报告里说得很清楚：早期生产力很低，不是模型不行，是harness 没建好。每次改进 harness，生产力就跳一个台阶。 Harness 才是产品，模型只是引擎。

Harness 的四根支柱里，具体来说：

约束是架构层面的硬规则——依赖方向、文件边界、禁止操作，不是建议，是 CI（持续集成，Continuous Integration）流水线强制执行的。代码写错了方向，pipeline 直接拦截，不让合并。

信息就是前一章讲的 Context Engineering 的全部成果，在这里作为 harness 的一个组成部分，负责确保 Agent 在任何时刻都能拿到它需要的信息，且只拿它需要的信息。

验证这根支柱格外值得强调。Anthropic 的研究表明，模型不能可靠地评估自己的输出——这个发现影响深远。你不能让 Agent 既是运动员又是裁判。解决方案是 GAN 式（生成对抗网络，Generative Adversarial Network，借用它"生成者与判别者相互独立"的思路）的双 Agent 架构：一个 Generator（生成器）负责产出，一个独立的 Evaluator（评估器）负责裁判。这不只是防错机制，它从根本上改变了 Agent 系统的可靠性上限。

纠错是当事情出错时真正发生的那层逻辑。不是简单的重试，而是能理解失败原因、修正执行路径、写回经验的闭环机制。

一个具体的数字说明 harness 的价值：LangChain 的 coding agent，模型一行没换，只改了 harness 里的编辑格式——引入了一种基于行哈希（hash）的引用方式，让模型不需要精确复现原文就能修改代码——Terminal Bench 2.0 得分从 52.8% 直接跳到 66.5%，排名从 Top 30 进了 Top 5。改变的不是智能，是工具。

PART 4

OpenClaw:把Harness变成文件系统

OpenClaw 最大的贡献，不是功能，而是把抽象的 harness 概念具象成了人人可以打开、读懂、修改的文件。

SOUL.md 定义 Agent 的人格和行为准则，是 Harness 里"约束"支柱的人格化表达。SKILL.md 是按需加载的领域能力，技能即文件，社区可以自由贡献和扩展。MEMORY.md 存储可审计的持久记忆——你可以随时打开这个文件，看到你的 Agent 到底"知道"什么。

这种透明度在工程上是一把双刃剑：它让 harness 从工程师的专属领域变成了开源生态，但也使攻击面变得更大——一封精心构造的邮件就可能通过 Agent 读取内容的方式注入恶意指令，也就是所谓的 prompt injection（提示词注入攻击）。这也是 OpenClaw 安全事件频发的根本原因之一。

PART 5

Hermes:让 Harness自己进化

如果说 OpenClaw 解决的是"Harness 怎么构建"，Hermes 解决的是"Harness怎么变好"。

Hermes 的核心是 Atropos RL（强化学习，Reinforcement Learning）框架——这是 Nous Research 内部用来训练更好的工具调用模型的强化学习框架，被直接集成进了 Agent 运行时。每次成功的任务执行，交互模式被强化；失败的路径，被记录修正。更重要的是，完成一类任务之后，Hermes 会自动将成功的执行模式提炼成可复用的 Skill 文档，下次遇到同类任务时自动调用。

这带来了一个 OpenClaw 无法实现的复利效应：Harness 不再只是被搭建的，它在被使用的过程中持续变好。 知识在系统里沉淀，不再只存在于用户的脑子里。

两个月内从零到 71.9k stars、大量用户从 OpenClaw 迁移过来还有一个直接理由：安全性。OpenClaw 累积了多个已知 CVE（通用漏洞披露，Common Vulnerabilities and Exposures），其中 CVE-2026-25253 的CVSS（通用漏洞评分系统，Common Vulnerability Scoring System）评分高达 8.8；Hermes 到目前为止Agent CVE 数量为零。这不是巧合，而是架构设计时就把安全边界作为一等公民的结果。

PART 6

尾声：一张演化图

这三次演化不是相互替代的关系。每一代都包含上一代，并在此基础上把视野扩展了一个层次。Prompt Engineering 没有消失，它成了 Context Engineering 的基础组件；Context Engineering 没有消失，它成了 Harness 的信息支柱。每一次升级，都是在上一层的天花板上凿开一个新的维度。

还有一个值得记住的事实：Meta 在2025 年底以约 20 亿美元收购了 Manus。买的不是模型——Manus 用的是 Anthropic、OpenAI 的基础模型。买的是它第五次重写的 harness。在模型能力日益趋同的今天，系统设计才是真正的护城河。

回头看这三年，有一条隐藏的主线：我们对 AI 的控制粒度，在持续下沉。 Prompt Engineering 时代，我们控制的是语言——一句话怎么写。Context Engineering 时代，我们控制的是信息——让模型看什么、不看什么。Harness Engineering 时代，我们控制的是环境——把整个运行时做成一个工程对象来设计和迭代。每一次下沉，都意味着更大的杠杆，也意味着更高的工程复杂度门槛。

这也是为什么这三件事——OpenClaw 爆火、Claude Code 泄露、Hermes 崛起——放在同一个时间窗口里看，会觉得如此密集。这不是巧合，这是一个行业在同一时刻集体跨过某个阈值的信号。OpenClaw 让 Harness 从论文走进了 GitHub。Claude Code 的泄露让工程师第一次看清楚了顶级 Harness 的内部截面。Hermes 让 Harness 本身也成为一个可以学习、可以进化的系统。