乐于分享
好东西不私藏

我们怎么"学会用好 AI"?

我们怎么"学会用好 AI"?

前段时间 ,OpenAI 的一篇博文让技术圈沉默了几秒。
一组数据写在那里:3 个工程师,5 个月,100 万行生产级代码——零行是人手写的。
完成同等体量的工作,市面上至少需要 30 人的工程团队,光人力成本一年就是几百万。这 3 个人,省掉了 27 个人的工资,还把交付周期砍掉了 80%。
这 3 个人没用什么秘密模型。他们用的 AI,你我都能用。
那他们做对了什么?
答案只有一句话:他们不写代码,他们设计让 Agent 写代码的环境。
这个方法有个正式的名字,叫 Harness Engineering
你大概有过这种体验
问它一个问题它可以头头是道,让它写一个函数几秒钟就搞定。
但如果你想让 Agent 做更复杂的事情,比如独立完成一个完整功能,或者一步到位生成一份高品质内容……
做出来的东西似是而非——结构混乱,细节悬空,关键环节缺失。
这是 AI 能力不行吗?
不是。OpenAI 那 3 个人用的是同款模型。Stripe 用同款 Claude,每周自动完成 1,300 多个代码合并。模型是一样的,差别在于会不会用。
三个时代,我们怎么”学会用好 AI”
回头看过去两年,人们学会使用 AI 的过程,经历了三个阶段。
▍2024 年:提示工程时代
大家发现问法很重要。把问题措辞得好,回答质量明显更高。整个互动是”一问一答”的模式,我们在乎的是那一次回复的质量。
▍2025 年:上下文工程时代
光靠一次好提示不够了。在 Agent 运行前先给它”喂”相关资料和背景信息,质量明显提升。这个阶段能搞定大纲策划、知识问答、头脑风暞……但要独立完成一个完整的高品质任务?还是做不到。
▍2026 年:Harness Engineering 时代
工程师们不约而同发现了同一件事——给 Agent 创建一个适合运行的环境,比优化单次提示或者喂更多资料,更能让它完成复杂任务。
这个”环境”包括:告诉 Agent 这是什么项目、在哪些地方不许犯错、每一步做完之后怎么验证结果、多个 Agent 怎么互相检查。
这就是 Harness Engineering。
有一个类比很好理解这层关系:
计算机组件
AI 对应的概念
CPU
AI 模型本身(如 Claude、GPT)
RAM(内存)
上下文窗口——AI 每次能”看到”的内容
操作系统 ★
Harness——管理 AI 的运行环境
应用程序
Agent 执行的具体任务
没有操作系统,CPU 也能算——但你没法在裸机上跑任何稳定的应用。Harness 之于 AI Agent,就是操作系统之于 CPU。
四根支柱,撑起”生产级 Agent”
Harness Engineering 的核心,可以提炼为四根支柱。每一根都对应一个你真实遇到过的问题。
支柱一:给 Agent 一张”项目地图”
每次开启新的 AI 会话,都得重新解释一遍”我这个项目用的是什么技术、哪些文件不能动、测试怎么跑”?
Harness Engineering 的解法是:把这些信息写成一份配置文件,放在项目目录下,Agent 每次启动自动读取。
在 Anthropic 体系里叫 CLAUDE.md,在 OpenAI 体系里叫 AGENTS.md。你可以理解为”写给 AI 看的项目说明书”。
OpenAI 的实践教训:超过 100 行反而让 Agent 迷失,不知道哪条和当前任务有关。正确做法是 100 行以内的导航地图,指向详细文档的存放位置,Agent 按需跳转查阅。
更重要的是,这份文件不是一次性写完就束之高阁的。Harness Engineering 命名者 Mitchell Hashimoto(HashiCorp 联合创始人)分享过一条经验——他的配置文件里,”每一行规则都对应过去一个真实的 Agent 犯错”。
Agent 犯错 → 分析原因 → 写成规则 → 加入配置文件 → 下次永不再犯
这是一种越用越聪明的增量式积累
支柱二:用规则约束 Agent,而不是靠它”自觉”
很多人在配置文件里写”不要执行删除整个文件夹的命令”——有用,但效果是”建议”级别的。Agent 大概率会遵守,但”大概率”在安全性面前是不够的。
Harness Engineering 的解法叫 Hooks(钩子):在 Agent 执行某个操作的前后,自动触发一段检查程序。通过就放行,不通过就直接拦截——Agent 没有”忽略”的余地。
CLAUDE.md 是建议,Hooks 是法律。 这句话是 Harness Engineering 里流传最广的一句话。
更有意思的是,高级的 Hooks 可以调用另一个 AI 来做检查——用 AI 约束 AI。普通关键词检查发现不了”看起来正常但实际上会造成数据泄露的日志语句”,但专门做安全审查的 AI 可以从语义层面识别这类风险。
还有一个反直觉的结论:越多约束,Agent 反而做得越好。 明确限定技术栈、命名规范、调用路径,Agent 在这个收窄的范围内反而更容易找到正确答案。约束不是限制创造力,而是把创造力引到有价值的方向。
支柱三:让 Agent 知道”做得对不对”
Agent 在黑暗中工作是危险的。它不知道这一步做得对不对、下一步该怎么调整。
Harness Engineering 的解法是设计反馈循环——每个阶段的产出,都要有验证机制。
可以很简单:代码写完自动跑测试、文件修改后自动做格式检查。也可以很复杂:专门部署一个独立的”评审 Agent”,从批评者的角度对产出发起质疑,推动迭代改进。
Anthropic 用受 GAN(生成对抗网络——让两个模型互相博弈来提升质量的技术)启发的三 Agent 架构开发了一款小游戏,结果如下:
单 Agent
完整 Harness
耗时
20 分钟
6 小时
成本
约 $9
约 $200
结果
外观精美,不可玩
物理引擎正常、关卡可玩,真实产品
时间和成本高了一个量级,但产出从 demo 变成了产品。
支柱四:主动清理 Agent 制造的”技术债”
Agent 写的代码多了,代码库会越来越乱——临时的变量名、重复的函数、被遗弃的试验性代码。这叫技术债(可以理解为:为了赶进度埋下的”以后再清理”的混乱,积累越多越难维护)。
OpenAI 的解法是:让 Agent 定期充当”清洁工”,专门扫描代码库里的低质量产出,按照预先设定的质量标准自动清理。更精妙的是,他们把团队的”代码品味”编码成了自动检查规则,每一次 Agent 提交代码都会被自动校验。
品味捕获一次,强制执行无限次。
这个,你能学吗?
很多人看到这里会问:这是不是只有大厂工程师才玩得转的东西?
不是。
从最小可行的 Harness 开始,你只需要做两件事:
① 建一个 CLAUDE.md 文件 写上”这个项目是做什么的、用什么技术、哪些文件不能动、怎么跑测试”——5 分钟的投入,能避免 90% 的低级重复错误。
② 遇到 Agent 犯错,把规则写进去 不要只是重新提示——分析一下为什么犯错,把规则写进配置文件,让这个错误永远不再发生。
这就是 Harness Engineering 的最小实践单元。复杂的 Hooks、多 Agent 协作、GAN 式架构,那是进阶内容——先把基础的做稳,已经能甩开大多数人。
你不需要先学会编程再学这个。 Harness Engineering 的核心是”设计 Agent 的工作环境”,这是一种工程思维,不是具体的代码语法。懂 AI 工具怎么用、懂任务拆解、懂验证结果——这些比会写代码更重要。
 Harness Engineering 的价值不只在 AI 编程——它是让任何 AI Agent 从”玩具级问答”进化到”生产级产出”的通用方法论。

如果这篇文章对你有帮助,不妨点个赞转发收藏三连支持 ❤️想第一时间收到推送,记得加个星标 ⭐

往期推荐

5年陪跑,带你撸20个企业实战项目(附全景路线图)

我的小“破”站,花了3天,终于上线了!

最新AI+全栈测试开发技能实战指南(第6期)

AI 测试全体系详解:自动化测试框架 + 智能缺陷检测 + A/B 测试优化

Cursor 生成测试用例实战:一个 Skill,10 分钟产出可评审测试用例!

温馨提醒狂师・AI 进化社,旨在帮助每一个人系统全面的学习 AI,哪怕你是纯 AI 小白,这里面的教程你从 0 开始看保证你一样能看懂,目标是让每一个人可以系统掌握 AI 赋能到工作中,

目前已更新到AI智能体、AI测试版块,建议立马去跟着学习,还是那句话,会用 AI 只是表面,能理解 AI 背后的逻辑,以及用 AI 解决一些你的问题,才会比人更进一步。

五一假期要是有空,可以顺手补补这块进度~

现在上车非常值得,早点跟上,后面在公司拿成果、面试都会轻松很多

👇 点击下方关注公众号《测试开发技术》,获取免费测开学习路线、简历模板、面试真题、AI测试、AI 编程、自动化测试、测试开发资料教程等。

END

添加个人微信,进交流群

后台回复【领资料包】试试

下一篇,更精彩,敬请期待~~
赞、转发在看就是最大的支持❤️