AI 开发新范式:为什么大厂都在拼 Harness Engineering?

2026 年上半年，AI 工程圈里升温速度最快的概念是什么？

先说结论：如果你现在还停留在研究“怎么写出一条完美的 Prompt”来驱动 Agent，那你可能已经掉队了。

从 2025 年底到 2026 年初，Anthropic、OpenAI、Google DeepMind 等头部大厂几乎同时公开了一个残酷的真相：决定 Agent 能不能上生产线的，根本不是你给模型喂了什么 Prompt，甚至不是你选了什么大模型，而是你给模型搭了一套什么样的运行系统。

这套系统，就是今天我们要硬核拆解的主角——Harness Engineering。

到底什么是 Harness Engineering？

先说这个词本身。Harness 的原始含义是马具、缰绳、马鞍——也就是一整套控制马匹的装备。

这个隐喻非常精准。模型就像是一匹马，强大、快速，但它自己不知道该往哪跑。Harness 就是要把这匹马的原始能力导向有用的工作。

翻译成技术语言：Harness Engineering 不是在教模型“怎么回答”，而是在设计模型“怎么工作”。

它处理的全部是模型外部那一整层极度工程化的东西：任务怎么拆解？上下文怎么管理？拥有什么权限？状态怎么交接？做完了怎么验证？失败了怎么恢复？什么时候该把控制权交回给人类？

这不是一条 Prompt 能搞定的事，这是一个完整的系统设计问题。

早在 2025 年 11 月，Anthropic 就把 Claude Agent SDK 定义为通用型 Agent Harness；随后，HashiCorp 联合创始人 Mitchell Hashimoto 撰文点出其价值；紧接着，OpenAI 官方博客正式将“Harness Engineering”这个术语推向台前。

从 Prompt 到 Harness：AI 开发的三年大迭代

很多人会问，它跟我们熟知的 Prompt Engineering、Context Engineering 是什么关系？这三者其实形成了一条非常清晰的演进链条。

第一层：Prompt Engineering（2022-2024 年的主导）关注的是“问什么”。你怎么措辞，怎么给少样本示例，要不要用思维链。这本质上是单轮的文本层面的优化。

第二层：Context Engineering（2025 年的主导）核心解决的是“让模型看到什么”。如果把大语言模型看成 CPU，上下文窗口就是内存。RAG、工具定义、对话历史管理，这些动态组装模型输入的技术，都是在操作系统层面管理这块“工作内存”。

第三层：Harness Engineering（2026 年爆发）它不仅管模型看到什么，还管模型能用什么工具，必须通过什么验证，产生什么日志，失败了怎么重试。

用一个绝佳的比喻来说：Prompt 是命令“右转”；Context 是给模型一张地图，让它理解“右转”是什么意思；而 Harness 是整辆车——方向盘、刹车、车道边界、警示灯，以及确保车门不会在高速公路上脱落的所有工程设计。

Anthropic 甚至直接断言：Prompt 和 Harness 都能提升效果，但前沿 Agent 的性能关键，正越来越落在 Harness 设计上。

顶级大厂的硬核实践：他们踩出了什么坑？

为什么 Harness 突然在这个时间点爆发？因为当模型能力抬高、趋于同质化后，常序任务暴露了裸模型的系统性缺陷。哪怕是多步 Agent 任务中每一步都有 95% 的成功率，串联 20 步之后，端到端的成功率也会暴跌到 36%。

怎么破局？来看看最顶级的玩家是怎么做 Harness 的。

1. Anthropic & Google：别指望模型能自我批评

Anthropic 的 Harness 方案经历过明显演进。早期他们用双 Agent 架构，后来演进到了经典的 3-Agent 架构：Planner（扩展需求）、Generator（负责实现）、Evaluator（负责验证和打分）。

里面最有意思的洞察是“评估器分离”。他们发现，当让模型评估自己的工作时，它会极度自信地表扬自己的半成品。这不是模型的问题，这是自评估的系统性缺陷。结论很简单：工程化一个独立的、严格的评估器 Agent，远比教会生成器自我批评要容易得多。

巧合的是，Google DeepMind 针对数学研究的 Agent（AlphaGeometry 相关项目）也采用了几乎一样的三组件架构：Generator、Verifier、Reviser。两家公司独立走到同一个设计模式上，说明“生成-评估分离”正在成为 Harness 设计的行业共识。

2. Vercel：做减法，Agent 反而更聪明

Vercel 提供了一个完全反直觉的经验。最初，他们给 Agent 配备了异常豪华的工具库：搜索、代码、文件、API 工具全都有。结果 Agent 变得极度困惑，不停地进行冗余调用。

后来他们做了一件看似倒退的事：移除了 80% 的工具。

结果？Agent 的步骤更少、Token 消耗更低、响应更快，成功率反而飙升。这揭示了一个核心原则：**在运行时环境中，约束 Agent 的解决空间，反而能极大提升它的表现。**这与传统软件开发里“给工程师更多自由度”的理念完全相反。

3. OpenAI & Stripe：代码库本身就是 Harness

Stripe 的 Agent 运行在与人类工程师完全相同的预热开发环境里。而 OpenAI 的 Codex 团队更是给出了震撼的数字：一个几人的工程团队，用 Codex 在 5 个月内生成了百万行生产级代码，合并了 1500 个 PR。

这背后的三大支柱是：持续增强的 Context、确定的架构约束（Linter 和结构测试），以及“垃圾回收”（定期运行后台 Agent 扫描文档不一致，对抗系统熵增）。

抄作业：成熟 Harness 的 6 大核心模块

综合这些头部公司的血泪经验，一个成熟的 Harness 系统到底该长什么样？可以归纳为 6 大模块：

上下文工程与知识管理：
不仅是读懂 Prompt，而是动态注入日志、指标，甚至是利用子 Agent 做上下文防火墙进行隔离。
工具编排与权限设计：
精心策划的最小可用工具集，沙箱隔离与文件系统访问管理。
验证机制与硬约束：
这是 Harness 区别于简单脚手架的灵魂。包括 Linter、结构测试等不依赖 LLM 的“死规矩”，以及独立的评估 Agent。
状态管理与记忆持续性：
用外部制品（如进度追踪文件、结构化清单、Git 增量提交）解决跨 Session 的状态丢失问题。
可观测性与反馈闭环：
执行追踪、异常检测，并把生产中的失败追溯到 Harness 的缺陷以持续改进。
人类接管与生命周期管理：
要删库？要扣费？要发邮件？在这些关键决策点，必须强制挂起，让人类确认。

隐秘的角落：Harness 的风险与局限

当然，任何银弹都有反噬的风险。

首先是过度工程化。Anthropic 发现，换用更强的大模型后，模型自身的上下文焦虑行为消失了，原来 Harness 里精心设计的“上下文重置机制”瞬间变成了累赘。Harness 必须是可撕裂的，不能成为阻碍模型自身能力发挥的包袱。

其次，**Harness 不只是性能放大器，也可能是风险放大器。**在多 Agent 并发运行时，错误方案的污染概率也随之上升。

最后，目前关于 Harness 成功的案例，大多来自 AI 巨头自家的工具战报。对于普通工程团队而言，这里的“可复现性”依然需要打个问号。

结语：下一步怎么走？

Harness Engineering 到底会成为 AI 时代的 DevOps，还是仅仅是一个过渡概念？没人能给出确定答案。

但如果你或你的团队正在做 Agent 开发，最务实的行动路径是：

今天就能做：
在项目根目录创建一个 agent.md。每次 Agent 犯了重复性错误，就加一条规则。
中期投入：
构建确定性的验证层（Linter、Pre-commit Hooks）和基本的可观测性。
长期规划：
设计模块化的 Harness 架构，准备好在下一代大模型发布时平滑迁移。

正如 OpenAI 工程师所说：“Agent 不难，Harness 才难。”

关键词：AI Agent, Prompt Engineering, Anthropic, 大模型开发, 智能体系统