AI 不是不会干活,是没人给它搭 Harness

今天看 botctl 这个热点，我真正记住的不是工具名。

也不是 process manager 这几个字。

而是文档里的一个词：Harness Loop。

我觉得这个词，比 botctl 本身更值得看。

因为它对应的不是“AI 又强了一点”。

它对应的是另一件事：

AI 开始从一个聊天工具，变成一个真的要接活的执行体了。

一旦走到这一步，问题就不再只是 prompt 写得好不好。

先别急着把它说玄乎

很多人一看到 harness 这种词，就容易把它当成又一个新黑话。

但一个词如果非得解释半天，通常说明大家其实还没想清楚它在说什么。

如果用大白话说，harness 就是 AI 的上班制度。

Prompt 像你对它说的一句话。

Workflow 像你脑子里的一套流程。

Harness 则是把这套流程真的落成环境、权限、状态、日志、刹车和交接规则。

它规定 AI 能看什么，不能看什么。

能调用哪些工具，不能碰哪些系统。

输出写到哪里，失败停在哪里，什么时候必须把人叫回来。

这些东西加在一起，才更接近 harness。

所以 harness 不是“更高级的 prompt”。

它更像把一句口头交代，变成一套真的能跑、能管、出了事还能回头找原因的工作环境。

它和 prompt 到底差在哪

很多人会觉得，这不就是 prompt 加流程吗。

其实不是一回事。

Prompt 解决的是：这次让它干嘛。

Workflow 解决的是：这件事大概怎么走。

Harness 解决的才是最麻烦的那部分：

它凭什么能反复跑下去，而且不把事情跑坏。

比如让 AI 帮你做公众号。

Prompt 是：抓今天的热点，写一篇有时效性的文章。

Workflow 是：抓热点，筛选，成稿，风控，进草稿。

Harness 是：它只能读白名单热点，只能写指定目录，事实不清就停，改完只能进草稿箱，不能直接发布，整个过程要留痕，出错后还能回到上一步。

你会发现，真正决定这件事能不能落地的，不是第一句 prompt。

而是后面这套约束到底有没有写实。

它先改变的，不是智商，是风险

很多人对 AI 的误解是，模型越强，这件事就越接近可用。

其实不一定。

没有 harness 的 AI，能力越强，有时候只是更容易在错误前提上一路做下去。

它的问题不是一句话说错。

而是连续做对了九步，在第十步把你送进坑里。

聊天框里的 AI 出错，你大不了重问一次。

可一旦它开始自己跑任务，风险的性质就变了。

它可能抓错源。

可能拿二手信息当事实。

可能改错文件。

也可能在你没注意的时候，一路走到发布、提交、调用外部服务这些动作。

所以 harness 的第一个作用，不是让 AI 更聪明。

而是先把它能闯的祸圈住。

没有这层边界，模型升级很多时候只是更快地制造混乱。

有了这层边界，模型升级才有机会变成稳定产能。

再往下，才轮到连续工作

很多人聊 agent，注意力都在“它会不会做”。

可真正难的，常常是“它怎么接着做”。

它做到哪了。

为什么停了。

哪些上下文该保留，哪些必须清空。

失败之后是重跑、续跑，还是把人叫回来。

这些都不是 prompt 解决的。

这是 harness 解决的。

也正因为这样，我越来越觉得，harness 对 AI 的第二个作用，不是提高上限，而是提高连续性。

没有 harness，AI 很像一个很聪明但很不稳定的临时工。

今天有状态。

明天像失忆。

后天又在旧上下文上接错活。

有 harness 之后，它才开始像一个可以被安排、被交接、被复盘的执行体。

最后才是护栏和审计

Astral 今天那篇安全文章，放在这里一起看就很有意思。

因为它讲的不是空泛的“要重视安全”。

而是一些很具体的动作。

哪些权限默认不给。

哪些凭证缩短寿命。

哪些链路必须人工确认。

哪些动作要留下记录。

这放在 agent 身上，其实就是同一个问题。

当 AI 越来越会执行，护栏就不能靠“希望它临场变谨慎”。

护栏得预先写进 harness。

什么工具默认禁用。

什么路径不能写。

什么结果只能生成候选，不能自动提交。

什么动作一旦涉及外部系统，就必须让人接手。

这不是保守。

这是自动化想继续往前推，必须先补的东西。

为什么它会改变 AI 的影响

到这里，harness 对 AI 的影响其实就很清楚了。

它决定模型能力，最后会变成产能，还是变成事故。

没有 harness，AI 再强，很多时候也只是一个你必须盯着的聪明实习生。

有 harness，AI 才可能真正进入组织、进入工作流、进入生产环境。

因为这时候你不是在赌它别犯错。

你是在用环境、权限、状态、日志和回滚机制，把错误的代价压到可管理的范围里。

AI 能不能真正上班，看的不是它会不会说漂亮话。

而是它是不是可控、可恢复、可交接、可审计。

说白了，大家以前聊 AI，聊的是回答质量。

接下来大家会越来越多地聊事故率、交接成本和回滚能力。

为什么我觉得它会越来越值钱

Prompt 当然不会消失。

但 prompt 越来越像基础能力了。

平台会帮你写。

社区会帮你抄。

模型自己也会越来越会猜你到底想要什么。

可 harness 不一样。

它里面装的是你对业务的真实理解。

你知道哪一步能放权，哪一步不能。

你知道什么叫完成，什么叫失败，什么情况必须停。

你知道一件事如果交给 AI，代价会从哪里冒出来。

这些东西不是抄一段 prompt 就能抄走的。

它更像被很多团队长期藏在流程、习惯和人肉经验里的那部分东西。

谁先把这部分显性化，谁才更有可能把 AI 真的接进生产。

真正的门槛，可能刚刚换掉

过去一段时间，大家都在比谁更会和 AI 聊天。

我觉得接下来，差距会慢慢变成另一种东西。

不是谁更会写 prompt。

而是谁先学会给 AI 搭 harness。

botctl 这个热点真正值得盯的，不只是又来了一个新工具。

而是 harness 这个词开始浮到台面上了。

因为这个词一旦浮上来，说明 AI 的讨论也在换轨。

大家讨论的，已经不只是它聪不聪明。

而是它到底能不能进系统，能不能接工作，能不能真的上班。

AI 不是不会干活。

只是大多数时候，我们还没把那套原来只能靠人肉盯着的经验，写成它能上班的环境。