乐于分享
好东西不私藏

为什么你的 AI 编程助手总差一口气?因为你缺了 Harness

为什么你的 AI 编程助手总差一口气?因为你缺了 Harness

Harness
AI编程
Agent

有个数据很扎心:

“我花了三个月调 Prompt,模型回答质量提升了 20%。然后花了两周搭 Harness,整体任务完成率从 35% 飙到了 82%。”

评论区四个字总结:方向错了

过去两年,整个行业都在追逐更大的模型、更强的推理能力。但真实情况是:裸模型就像被关在密闭房间里的天才——看不见外面世界、记不住对话、说了话没人执行。

模型是引擎,但引擎本身不是车。


一句话公式

Agent = Model + Harness

Model 提供智能,Harness 让智能变得有用

如果你不是模型本身,那你就是 Harness 的一部分。你写的每一行 System Prompt、搭的每一个 MCP 工具链、设计的每一套工作流,都是在构建 Harness。

模型决定下限,Harness 决定上限。 这就是为什么同样的 Claude 或 GPT-4,在不同人手里效果天差地别。


裸模型四大硬伤

在使用 AI 编程工具时,你可能遇到过这些痛点:

关闭窗口后 AI 全忘了 → 无法维持跨会话状态

能写代码但不能跑代码,不知道对不对 → 无法自我验证

给出过时的 API 用法或编造答案 → 无法获取实时知识

做不了复杂的多文件工程任务 → 缺少环境操控能力

这四个硬伤,模型自身解决不了,必须靠 Harness 来补。


Harness 的六大组件

① 文件系统 —— 最基础的原语

这是 Agent 的”外部大脑”,也是突破上下文窗口限制的唯一途径。没有文件系统的 Agent,每次对话都从零开始。有了文件系统,它可以:

存储中间产物:复杂任务的草稿、半成品、决策记录持久化保存

多 Agent 协作:A 写入结果到文件 → B 读取并继续处理

试错回滚:结合 Git,每步操作都可追溯、可撤销

你在 TRAE 或 Cursor 里打开一个项目目录,本质上就是在给 AI 编程助手提供文件系统。项目结构越规范,AI 越好用。

② Bash + 沙箱 —— 从”说”到”做”

这是最关键的一个质变点。没有 Bash 能力的 AI 是”提建议的顾问”,有了才是”动手做的工程师”。优秀程序员的核心工作方式是:

写代码 → 跑起来看结果 → 发现问题 → 修改 → 再跑一遍

这个自我验证循环,是代码质量提升的关键。具备这个循环的 Agent,比”一次性生成然后让你自己检查”的方式,完成率高出 40%-60%

但给 AI 执行权限必须加安全护栏:

资源限制 — CPU/内存设上限,防死循环

网络隔离 — 默认禁止外部访问或仅白名单

文件隔离 — 仅访问工作目录,不碰系统文件

超时机制 — 运行超阈值自动终止

③ 记忆(AGENTS.md)—— 不改权重也能让 AI 更聪明

核心理念:上下文注入 = 不改权重也能给模型加知识

工作机制很简单——在项目根目录建一个 AGENTS.md,把有价值的信息写进去:

技术栈和版本约束

项目特有的编码规范

已知陷阱和踩过的坑

关键的架构决策(ADR)

对比微调:成本几乎为零、即时生效、无风险、不需要 ML 知识。这就是给 AI 编程助手的一份”入职手册”,写完就生效。

④ Web Search + MCP —— 突破知识的”时间牢笼”

模型的知识有截止日期。MCP 通过标准化接口让 AI 接入任何外部工具。实战场景——修复生产 Bug

MCP 连接监控系统 → 获取错误日志和堆栈

MCP 连接代码仓库 → 查看相关代码和变更历史

Web Search 搜索报错信息 → 查找社区解决方案

综合所有信息 → 生成修复方案提交 PR

⑤ 上下文工程 —— 对抗”熵增”

上下文会腐烂。对话越来越长,重要信息被淹没、新旧信息冲突、Token 被历史占满。解决四招:

压缩 — 定期把历史对话摘要化

卸载 — 大段输出存到文件,上下文只留摘要+引用

渐进加载 — 按任务阶段动态加载相关知识

分层结构 — 核心层始终保留 / 工作层按需更新 / 历史层逐渐压缩

⑥ 编排 + Hooks —— 单兵作战变集团军

复杂任务需要拆解、调度、并行执行。而 Hooks 在每个环节插入确定性校验——写完自动 Lint、截断自动续接、格式不符自动修正、敏感操作前强制确认。

概率性生成 + 确定性校验 = 最有效的质量保障策略。


你的 Harness 打几分?

下次觉得 AI 助手不给力的时候,别急着怪模型不够强。先对照这张清单查一下:

[ ] 文件系统:项目结构清晰吗?AI 能找到它需要的上下文吗?

[ ] 执行能力:AI 能自己跑代码看结果吗?还是只能输出文本?

[ ] 记忆机制:有 AGENTS.md 吗?AI 知道项目的规范和坑吗?

[ ] 工具链:配了哪些 MCP Server?能获取实时信息吗?

[ ] 上下文管理:长对话后质量下降了吗?有没有压缩策略?

[ ] 编排与兜底:复杂任务能拆解执行吗?有自动检查机制吗?


模型大家都在用同一套,真正的差异化在 Harness 层。

花时间打磨 Harness,比追逐下一个大模型,回报率更高。


觉得有用,转发给你身边用 AI 编程的同事——这个真的能省很多时间。

——VibeCoding大爆炸,持续分享 AI 编程的真实经验