
一、AI能干活了吗?
想象以下几个场景:
场景一:你让 ChatGPT 帮你写一封邮件。它写得漂亮极了。你复制,打开 Outlook,粘贴进去,调一下抬头,发出去。
场景二:你让 ChatGPT 帮你整理一份 Excel——比如"把这 30 个 sheet 的表头格式统一成宋体加粗"。它先让你贴几行样例数据过去,然后给你一段 VBA 代码,你再粘贴回 Excel 里,打开 VBA 编辑器,粘贴进去运行。
场景三:程序员让 ChatGPT 帮忙 debug。复制代码 → 贴进对话框 → 看回复 → 复制回 IDE → 跑 → 报错 → 再复制 → 再贴回去。
不管是哪种场景,你是否有过这样的困惑——
AI 明明已经"会"了,最后干活的还是你。你成了它的人肉数据线。

很多人觉得这是 AI 还不够强。
其实不对。模型早就够强了。真正的问题是——它跑在浏览器里,跟你电脑上发生的一切都隔着一道墙。
这道墙,才是 AI 实用化的真正瓶颈。模型再升级 10 倍,墙一天没拆,体验也不会变好多少。
负责拆墙的,是一类正在快速冒出来的工具——Claude Code、OpenCode、OpenClaw、Marvis……它们有一个统称:Harness。
二、Harness 工具远比看上去更有用
1. 那道墙具体挡住了什么
ChatGPT、Gemini、Claude 的官网,本质都是一个网页聊天框。
只能跑在浏览器里这个特性,决定了它永远没法主动拿到你电脑上的任何东西——文件、日程、通讯录、邮件、代码……一概拿不到。所有信息都得靠你手动上传或者复制粘贴。
而这些东西,恰恰是 AI 做出判断、做出决策的现实基础。
浏览器这道墙的初衷是好的:避免任意网站乱读你的文件、乱跑你的程序。但对 AI 来说,代价是——
• 它看不到你 D 盘里那份方案表 • 它改不了你正打开的 Word 文档 • 它跑不了你的 Excel 公式,也按不动你的 VBA 按钮 • 它读不到你昨天写的那个函数,也提不了 git commit • 它甚至不知道你电脑上装了什么
模型再聪明,眼前只有你贴进去的那一小段文字。
等于你花高价雇了一个顶尖顾问,但只允许他通过传真机给你干活。
而你日常每一件具体的工作——改表、写文档、改代码、跑数据——都在墙的另一边。

2. Harness 到底在做什么
Harness 这个词,直译是"挽具"——给马套上的那套绳索。
放到 AI 工具里,意思就是:给模型套一层壳,加上一些合理的约束,让它能动手。
Claude Code、OpenCode、OpenClaw、Marvis…… 这一堆工具,本质上都在做同一件事:
1. 把模型从浏览器里搬出来,放到你的手机、电脑、服务器等设备里 2. 给它一组工具:读文件、写文件、执行命令、改表格、改文档、调 git 3. 让它自己决定读哪些文件、改哪一行、跑哪个步骤 4. 加一层权限确认,防止它乱来
举两个完全不同的例子,你就明白这层壳的力量。
例子一:程序场景。
你跟 Claude Code 说一句:"修一下 user.py 里那个登录 bug。"
它自己 ls 看目录结构,cat user.py 读代码,grep 找相关调用,改完代码,跑一遍测试,看到报错再改一轮。
整个过程,你不用复制粘贴一次。
例子二:数据场景。
你跟一个接进 Excel 的 AI 助手说一句:"把这个工作簿里 30 个 sheet 的表头都统一改成宋体加粗,加上下框线。"
如果是网页 AI——你得截图给它看 → 它给你一段 VBA → 你复制 → 打开 Excel → 按 Alt+F11 → 新建模块 → 粘贴 → 运行 → 报错 → 复制错误回去问 → 再来一轮。
但如果是 Harness——它自己打开文件、自己写 VBA、自己运行、自己看结果、自己改。你只看最后的结果。
不管哪个场景,Harness 都在干同一件事:
把模型的脑子,接到你的真实工作环境上。

3. 模型越强,Harness 反而越值钱
很多人以为,模型越强,工具层就越没必要——"反正它什么都会想,要那么多脚手架干嘛?"
恰恰相反。
模型弱的时候,你给它工具它也不会用。让一个老模型自主执行 shell 命令、自主改 Excel 文件,多半跑出一团乱麻——它要么死循环,要么把不该删的数据删了。
模型强了之后才不一样。你给它一把锤子,它真能砸到钉子上。你给它 Excel 的写入权限,它真能把 30 个 sheet 改得一模一样。
可以这样理解:
• 模型能力 = "想" 的上限 • Harness 能力 = "做" 的下限
两者相乘,才是 AI 真正能交付的价值。
举个最直观的对比:
Claude 3.5 之前,"AI 写代码"基本停留在补全和聊天。Claude 3.5、4 之后,同样的模型 + 同样的提问,光靠把它接到文件系统和命令行,就跑出了过去完全做不到的事——独立完成多文件改动、独立调试、独立提 PR。
模型没变,是 Harness 把它的能力放出来了。
Office 生态中也是一样。GPT 在网页里你用了三年,主要还是问问题。一旦接进 Word 和 Excel 里(也就是 Microsoft Copilot),同一个 GPT 突然能帮你直接改文档、生成图表、按你的数据起草报告。
所以还是那句话:
真正决定 AI 能帮你做多少事的,不是模型有多强,而是 Harness 给了它多大的活动空间。
大多数人都盯着模型——"GPT-5 出了吗?""Claude 又升级了?"——但实际上,过去一年用户体验上的飞跃,绝大部分功劳要记在 Harness 头上。
模型像一个超级大脑,但没有手脚。Harness 就是它的手脚。少了任何一边,事情都干不完。
4. 为什么这类工具会越来越多
既然 Harness 这么重要,那一个不就够了吗?
不够。因为现实中的场景往往非常复杂,很难一个工具完全搞定:
• 写代码 → 在 IDE 里需要 Cursor、Continue 这种内嵌型 • 跑脚本、改文件 → 在终端里需要 Claude Code 这种 CLI 型 • 改 Excel、写 Word、做 PPT → 需要 Microsoft Copilot 这种 Office 端的 Harness • 整理本地文件、归档照片 → 需要桌面端的"AI 文件助手" • 远程开发、跑长任务 → 需要带服务端、能后台运行的 Harness • 公司内部、数据敏感 → 需要带审计日志和权限的 Harness • 不想被某家模型绑死 → 需要 OpenCode 这种开源、可换底座的 Harness
每一个细分场景都能催生一个工具。
再加上 Harness 本身的门槛并不算高——核心就是一个 prompt 加一个"工具调用循环"。任何公司、任何开源团队,都可以做一个自己的。
结果就是:模型集中在几家手里,但 Harness 会百花齐放。

三、总结
回到开头那个问题——
"模型都这么强了,干嘛还折腾 Claude Code、OpenCode 这种工具?"
因为浏览器那道墙太厚了。模型在墙里,你和你的工作在墙外。
Claude Code、OpenClaw、Office Copilot 这一类工具,就是在墙上凿门。
模型负责"想",Harness 负责"做"。少了哪一边,事都干不成。
在全民盯着各家公司模型评测分数和参数量狂欢的时候,也不要忘记:
真正影响你日常的,可能是某个不起眼的 Harness 工具,悄悄做了一次更新。
模型层的故事已经讲了三年,所有人都看见了。Harness 层的故事才刚刚开始。
接下来一两年,这类工具只会更多、更碎、更深入到你每天用的软件里。
谁先把 Harness 这层吃透,谁就先享受到大模型的真实价值,真正有能力卷模型的公司少之又少,但是有能力卷应用层的公司很多,而且会越来越多,这才是长久的必争之地。
词汇解释
• Harness:直译"挽具"。在 AI 工程里,指把模型接入真实工作环境的那一层封装,给模型提供"工具调用 + 多轮循环 + 权限控制"的能力。中文有时翻译成"代理外壳""工具层""agentic shell"。 • Claude Code:Anthropic 官方推出的命令行 AI 编程工具,能直接读写本地文件、执行命令。 • OpenCode:开源的 Claude Code 风格命令行 AI 工具,可对接多家不同模型,包括本地部署的私有模型,适合数据敏感场景。 • Microsoft Copilot:微软把 GPT 系列模型接进 Word、Excel、PowerPoint、Outlook 内部的一整套 harness,让 AI 能直接读写 Office 文档。 • VBA:Visual Basic for Applications,Excel/Word 等 Office 软件内置的脚本语言,用来自动化重复操作。 • Tool-calling / 工具调用:模型在推理过程中主动请求执行某个外部函数(比如读文件、跑命令、改 Excel)的机制。是 harness 能让模型动手的底层基础。 • Agentic Coding / Agentic AI:让 AI 拥有"自主行动 + 多轮迭代"能力来完成任务的范式。相对的是"补全式"或"问答式"的传统 AI 使用方式。 • PR(Pull Request):在 git 协作里,把一个分支的改动合并到主分支前发起的合并请求,包含代码变更和讨论。
夜雨聆风