当 AI 能帮你管理 AI,对话框时代就快结束了

Anthropic 前两天推了 Claude Code 动态工作流。

功能本身一句话就讲完：Claude 现在可以在单个会话里动态写脚本，并行调度数十到数百个子 Agent，验证完结果再交给你。

但如果你只看到"哇，能同时跑很多 Agent"，可能错过了真正重要的东西。

真正重要的不是数量。是方向。

AI 开始管理 AI 了。

你不再是对着对话框一条一条下指令的那个人。你在设计规则，AI 在调度 AI，你验收结果。

这件事比任何一次模型升级都更深。

从你问它，到它指挥它

如果用一句话概括 AI 和人类协作方式的进化，大概是这样的：

2023 年，你问它答。

Prompt Engineering 是那个时代的核心技能。模型能力有限，上下文窗口也小，所有人都在研究怎么把问题问得更精准。那个阶段，对话框就是 AI 唯一的样子。

2025 年，你给它上下文。

Context Engineering 起来了。人们发现，怎么问已经没那么重要了——重要的是 AI 手上有多少关于问题的信息。给代码加相关文件加依赖加团队规范，输出质量高了几个量级。Karpathy 管这叫"填充上下文窗口的精妙艺术与科学"。

对话框还在。但它开始不够用了。因为上下文越长，对话框就越像一个塞满东西的行李箱——你知道东西在里面，但每次都要自己翻。

2026 年，你给它缰绳。

Harness Engineering。AI 不再只是回答问题或执行单步指令。它能自己写代码、自己测试、自己提交、自己部署。

不是"你让它做什么它就做什么"。是"你在规则里写清楚什么能做、什么不能做，它在这个边界里自主行动"。

LangChain 有一个公式把这个关系讲得很清楚：Agent = Model + Harness。

模型是马。缰绳是你。

对话框是什么？对话框是你每次骑马之前，要先对着马耳朵说一遍：往左走，现在加速，别踩那块石头，前面有棵树躲一下。

当马够聪明，缰绳够好，你不需要每秒钟跟它说话了。

你用规则告诉它边界。你用工具给它手脚。你用验收标准告诉它什么叫做完。

然后你退开，让它跑。

不是模型变强了，是你不需要亲自说了

很多人没意识到一件事：AI 领域的最大变化，早就不是模型能力了。

2024 年到 2026 年，模型之间的差距一直在缩小。ChatGPT、Claude、Gemini、DeepSeek……你让它们写一篇 800 字文章、改一段代码、总结一个文档，差距已经小到大部分用户区分不出来了。

但另一个差距在拉大。

有人还在对话框里复制粘贴上下文。有人在让 AI 调度 AI。

这个东西不好察觉。因为对话框长得很温和——一个输入框，一段回复，看起来什么都没有变。

Claude Code 能做的那些事——动态写脚本、并行调度子 Agent、验证结果——换成一个普通 Claude 网页版用户，他也能做。只不过他需要手动开五个标签页，在几个窗口之间复制粘贴结果，自己判断哪个 Agent 的输出是对的自己来合并。

能做吗？能做。

但当他做了三次之后就会发现，他不是在用 AI。他是在伺候 AI。

Harness 做的是反向的事：不是你去适应 AI 的工作方式，是你给 AI 一个环境，让它按你的方式工作。

这中间差的是什么？不是模型能力。是一套规则、工具链、验收标准和反馈闭环。是一套能"管住 AI 去管 AI"的系统。

管住 AI 去管 AI，这才是 Harness 真正的门槛

我再说一遍这句话：管住 AI 去管 AI。

两层。第一层，你要让 AI 能管 AI。这需要模型有足够的推理能力、工具调用能力和任务分解能力。现在这一步基本成立了——Claude Code、Codex、Devin 都在这个方向上跑。

第二层，你要管住"AI 管 AI"这件事本身。

这比第一层难得多。

因为当你让一个 AI 去调度几十个 AI，你不再能逐条检查它每一步做了什么。你不能翻聊天记录说"啊，这步错了，重来"。你需要在它开始之前就设好边界，在它跑完之后有一个可信的验证机制，在它跑偏的时候能被拉回来。

这就是为什么 Guide（引导）和 Sensor（检测）缺一不可。

Guide 是前馈控制——在 AI 行动之前设好规则。你的 CLAUDE.md，你的代码规范，你的架构决策记录，你的写作禁区——这些东西像一个高速公路护栏。不需要每秒纠正 AI，护栏在，它就不会冲出去。

Sensor 是反馈控制——在 AI 做完之后检测它对不对。自动化测试、代码 lint、发布后的数据回传——像一个后视镜，发现错误之后自动纠正。

缺了 Guide，AI 在瞎跑。缺了 Sensor，AI 跑了你也不知道。

这两样东西加在一起，才是一套完整的 Harness。

而 Harness 真正有意思的地方在于——它是累积的。

模型一年一换。今天的 Prompt 技巧，明天可能就失效了。但你在 Harness 上花的功夫——规则怎么设计、验证怎么自动化、边界怎么设——这些都是跨模型可复用的。换一个更强的模型，你的 Harness 只会变得更好用。

这就像马可以换，但好缰绳能用一辈子。

对话框不会消失。但它的角色变了。

我不是在说对话框会彻底消失。

就像命令行没有消失一样。总有人需要在终端里干精细活，总有人需要在对话框里问临时问题、改一段文字、快速试探一个想法。

但对话框会从"唯一的交互界面"，退化成"工具之一"。

就像你不会用搜索引擎管理整个公司的项目进度。你不会用 Excel 写一本小说。你不会在微信聊天框里做财务模型。

工具的形状，决定了它能承载的工作的复杂度。

对话框的形状，是一个问号和一条回复。这个形状决定了它擅长一件事——你发起，它响应。但越来越多的工作不是"发起-响应"模式。是"设定-运行-验收"模式。是"搭环境-放材料-定规则-让它跑"模式。

所以当 AI 开始能管理 AI，对话框就不再是主角了。

主角是规则文件。是工具链。是验收标准。是能让 AI 在你不盯着的时候也不跑偏的那套环境。

最贵的能力，不是会问

说了一整篇，其实就一个意思。

过去三年，我们一直在学怎么跟 AI 说话。

Prompt Engineering 教你怎么提问。Context Engineering 教你怎么给材料。每个阶段都是在优化"你怎么跟它交流"。

但 Harness Engineering 问的是另一个问题：如果你不需要每件事都亲自跟它说呢？

这不是偷懒。

是一个人一天只有 24 小时，他的注意力带宽是有限的。他要做策略、做判断、做客户关系、做内容方向。他不可能同时盯着几十个 AI 进程。

真正稀缺的，不是 Prompt。甚至不是内容。

是你能不能用一套系统，让 AI 在你离开之后，还能继续按你的标准工作。

是你能不能从"每件事亲自交代"，进化到"设计规则、验收结果"。

对话框时代，比的是谁更会问。

Harness 时代，比的是谁更会搭环境、定规则、收反馈、让系统越跑越顺。

如果你现在每天打开 AI，第一反应还是"我该怎么问它"——

可以换个问题试试。

不是我该怎么问。

而是：我有没有给它一个真正能工作的地方？