Anthropic 前两天推了 Claude Code 动态工作流。
功能本身一句话就讲完:Claude 现在可以在单个会话里动态写脚本,并行调度数十到数百个子 Agent,验证完结果再交给你。
但如果你只看到"哇,能同时跑很多 Agent",可能错过了真正重要的东西。
真正重要的不是数量。是方向。
AI 开始管理 AI 了。
你不再是对着对话框一条一条下指令的那个人。你在设计规则,AI 在调度 AI,你验收结果。
这件事比任何一次模型升级都更深。
从你问它,到它指挥它
如果用一句话概括 AI 和人类协作方式的进化,大概是这样的:
2023 年,你问它答。
Prompt Engineering 是那个时代的核心技能。模型能力有限,上下文窗口也小,所有人都在研究怎么把问题问得更精准。那个阶段,对话框就是 AI 唯一的样子。
2025 年,你给它上下文。
Context Engineering 起来了。人们发现,怎么问已经没那么重要了——重要的是 AI 手上有多少关于问题的信息。给代码加相关文件加依赖加团队规范,输出质量高了几个量级。Karpathy 管这叫"填充上下文窗口的精妙艺术与科学"。
对话框还在。但它开始不够用了。因为上下文越长,对话框就越像一个塞满东西的行李箱——你知道东西在里面,但每次都要自己翻。
2026 年,你给它缰绳。
Harness Engineering。AI 不再只是回答问题或执行单步指令。它能自己写代码、自己测试、自己提交、自己部署。
不是"你让它做什么它就做什么"。是"你在规则里写清楚什么能做、什么不能做,它在这个边界里自主行动"。
LangChain 有一个公式把这个关系讲得很清楚:Agent = Model + Harness。
模型是马。缰绳是你。
对话框是什么?对话框是你每次骑马之前,要先对着马耳朵说一遍:往左走,现在加速,别踩那块石头,前面有棵树躲一下。
当马够聪明,缰绳够好,你不需要每秒钟跟它说话了。
你用规则告诉它边界。你用工具给它手脚。你用验收标准告诉它什么叫做完。
然后你退开,让它跑。
不是模型变强了,是你不需要亲自说了
很多人没意识到一件事:AI 领域的最大变化,早就不是模型能力了。
2024 年到 2026 年,模型之间的差距一直在缩小。ChatGPT、Claude、Gemini、DeepSeek……你让它们写一篇 800 字文章、改一段代码、总结一个文档,差距已经小到大部分用户区分不出来了。
但另一个差距在拉大。
有人还在对话框里复制粘贴上下文。有人在让 AI 调度 AI。
这个东西不好察觉。因为对话框长得很温和——一个输入框,一段回复,看起来什么都没有变。
Claude Code 能做的那些事——动态写脚本、并行调度子 Agent、验证结果——换成一个普通 Claude 网页版用户,他也能做。只不过他需要手动开五个标签页,在几个窗口之间复制粘贴结果,自己判断哪个 Agent 的输出是对的自己来合并。
能做吗?能做。
但当他做了三次之后就会发现,他不是在用 AI。他是在伺候 AI。
Harness 做的是反向的事:不是你去适应 AI 的工作方式,是你给 AI 一个环境,让它按你的方式工作。
这中间差的是什么?不是模型能力。是一套规则、工具链、验收标准和反馈闭环。是一套能"管住 AI 去管 AI"的系统。
管住 AI 去管 AI,这才是 Harness 真正的门槛
我再说一遍这句话:管住 AI 去管 AI。
两层。第一层,你要让 AI 能管 AI。这需要模型有足够的推理能力、工具调用能力和任务分解能力。现在这一步基本成立了——Claude Code、Codex、Devin 都在这个方向上跑。
第二层,你要管住"AI 管 AI"这件事本身。
这比第一层难得多。
因为当你让一个 AI 去调度几十个 AI,你不再能逐条检查它每一步做了什么。你不能翻聊天记录说"啊,这步错了,重来"。你需要在它开始之前就设好边界,在它跑完之后有一个可信的验证机制,在它跑偏的时候能被拉回来。
这就是为什么 Guide(引导)和 Sensor(检测)缺一不可。
Guide 是前馈控制——在 AI 行动之前设好规则。你的 CLAUDE.md,你的代码规范,你的架构决策记录,你的写作禁区——这些东西像一个高速公路护栏。不需要每秒纠正 AI,护栏在,它就不会冲出去。
Sensor 是反馈控制——在 AI 做完之后检测它对不对。自动化测试、代码 lint、发布后的数据回传——像一个后视镜,发现错误之后自动纠正。
缺了 Guide,AI 在瞎跑。缺了 Sensor,AI 跑了你也不知道。
这两样东西加在一起,才是一套完整的 Harness。
而 Harness 真正有意思的地方在于——它是累积的。
模型一年一换。今天的 Prompt 技巧,明天可能就失效了。但你在 Harness 上花的功夫——规则怎么设计、验证怎么自动化、边界怎么设——这些都是跨模型可复用的。换一个更强的模型,你的 Harness 只会变得更好用。
这就像马可以换,但好缰绳能用一辈子。
对话框不会消失。但它的角色变了。
我不是在说对话框会彻底消失。
就像命令行没有消失一样。总有人需要在终端里干精细活,总有人需要在对话框里问临时问题、改一段文字、快速试探一个想法。
但对话框会从"唯一的交互界面",退化成"工具之一"。
就像你不会用搜索引擎管理整个公司的项目进度。你不会用 Excel 写一本小说。你不会在微信聊天框里做财务模型。
工具的形状,决定了它能承载的工作的复杂度。
对话框的形状,是一个问号和一条回复。这个形状决定了它擅长一件事——你发起,它响应。但越来越多的工作不是"发起-响应"模式。是"设定-运行-验收"模式。是"搭环境-放材料-定规则-让它跑"模式。
所以当 AI 开始能管理 AI,对话框就不再是主角了。
主角是规则文件。是工具链。是验收标准。是能让 AI 在你不盯着的时候也不跑偏的那套环境。
最贵的能力,不是会问
说了一整篇,其实就一个意思。
过去三年,我们一直在学怎么跟 AI 说话。
Prompt Engineering 教你怎么提问。Context Engineering 教你怎么给材料。每个阶段都是在优化"你怎么跟它交流"。
但 Harness Engineering 问的是另一个问题:如果你不需要每件事都亲自跟它说呢?
这不是偷懒。
是一个人一天只有 24 小时,他的注意力带宽是有限的。他要做策略、做判断、做客户关系、做内容方向。他不可能同时盯着几十个 AI 进程。
真正稀缺的,不是 Prompt。甚至不是内容。
是你能不能用一套系统,让 AI 在你离开之后,还能继续按你的标准工作。
是你能不能从"每件事亲自交代",进化到"设计规则、验收结果"。
对话框时代,比的是谁更会问。
Harness 时代,比的是谁更会搭环境、定规则、收反馈、让系统越跑越顺。
如果你现在每天打开 AI,第一反应还是"我该怎么问它"——
可以换个问题试试。
不是我该怎么问。
而是:我有没有给它一个真正能工作的地方?
夜雨聆风