[每日AI] 大模型 vs Harness:被低估的外壳

一、AI能干活了吗？

想象以下几个场景：

场景一：你让 ChatGPT 帮你写一封邮件。它写得漂亮极了。你复制，打开 Outlook，粘贴进去，调一下抬头，发出去。

场景二：你让 ChatGPT 帮你整理一份 Excel——比如"把这 30 个 sheet 的表头格式统一成宋体加粗"。它先让你贴几行样例数据过去，然后给你一段 VBA 代码，你再粘贴回 Excel 里，打开 VBA 编辑器，粘贴进去运行。

场景三：程序员让 ChatGPT 帮忙 debug。复制代码 → 贴进对话框 → 看回复 → 复制回 IDE → 跑 → 报错 → 再复制 → 再贴回去。

不管是哪种场景，你是否有过这样的困惑——

AI 明明已经"会"了，最后干活的还是你。你成了它的人肉数据线。

很多人觉得这是 AI 还不够强。

其实不对。模型早就够强了。真正的问题是——它跑在浏览器里，跟你电脑上发生的一切都隔着一道墙。

这道墙，才是 AI 实用化的真正瓶颈。模型再升级 10 倍，墙一天没拆，体验也不会变好多少。

负责拆墙的，是一类正在快速冒出来的工具——Claude Code、OpenCode、OpenClaw、Marvis……它们有一个统称：Harness。

二、Harness 工具远比看上去更有用

1. 那道墙具体挡住了什么

ChatGPT、Gemini、Claude 的官网，本质都是一个网页聊天框。

只能跑在浏览器里这个特性，决定了它永远没法主动拿到你电脑上的任何东西——文件、日程、通讯录、邮件、代码……一概拿不到。所有信息都得靠你手动上传或者复制粘贴。

而这些东西，恰恰是 AI 做出判断、做出决策的现实基础。

浏览器这道墙的初衷是好的：避免任意网站乱读你的文件、乱跑你的程序。但对 AI 来说，代价是——

• 它看不到你 D 盘里那份方案表
• 它改不了你正打开的 Word 文档
• 它跑不了你的 Excel 公式，也按不动你的 VBA 按钮
• 它读不到你昨天写的那个函数，也提不了 git commit
• 它甚至不知道你电脑上装了什么

模型再聪明，眼前只有你贴进去的那一小段文字。

等于你花高价雇了一个顶尖顾问，但只允许他通过传真机给你干活。

而你日常每一件具体的工作——改表、写文档、改代码、跑数据——都在墙的另一边。

2. Harness 到底在做什么

Harness 这个词，直译是"挽具"——给马套上的那套绳索。

放到 AI 工具里，意思就是：给模型套一层壳，加上一些合理的约束，让它能动手。

Claude Code、OpenCode、OpenClaw、Marvis…… 这一堆工具，本质上都在做同一件事：

1. 把模型从浏览器里搬出来，放到你的手机、电脑、服务器等设备里
2. 给它一组工具：读文件、写文件、执行命令、改表格、改文档、调 git
3. 让它自己决定读哪些文件、改哪一行、跑哪个步骤
4. 加一层权限确认，防止它乱来

举两个完全不同的例子，你就明白这层壳的力量。

例子一：程序场景。

你跟 Claude Code 说一句："修一下 user.py 里那个登录 bug。"

它自己 ls 看目录结构，cat user.py 读代码，grep 找相关调用，改完代码，跑一遍测试，看到报错再改一轮。

整个过程，你不用复制粘贴一次。

例子二：数据场景。

你跟一个接进 Excel 的 AI 助手说一句："把这个工作簿里 30 个 sheet 的表头都统一改成宋体加粗，加上下框线。"

如果是网页 AI——你得截图给它看 → 它给你一段 VBA → 你复制 → 打开 Excel → 按 Alt+F11 → 新建模块 → 粘贴 → 运行 → 报错 → 复制错误回去问 → 再来一轮。

但如果是 Harness——它自己打开文件、自己写 VBA、自己运行、自己看结果、自己改。你只看最后的结果。

不管哪个场景，Harness 都在干同一件事：

把模型的脑子，接到你的真实工作环境上。

3. 模型越强，Harness 反而越值钱

很多人以为，模型越强，工具层就越没必要——"反正它什么都会想，要那么多脚手架干嘛？"

恰恰相反。

模型弱的时候，你给它工具它也不会用。让一个老模型自主执行 shell 命令、自主改 Excel 文件，多半跑出一团乱麻——它要么死循环，要么把不该删的数据删了。

模型强了之后才不一样。你给它一把锤子，它真能砸到钉子上。你给它 Excel 的写入权限，它真能把 30 个 sheet 改得一模一样。

可以这样理解：

• 模型能力 = "想" 的上限
• Harness 能力 = "做" 的下限

两者相乘，才是 AI 真正能交付的价值。

举个最直观的对比：

Claude 3.5 之前，"AI 写代码"基本停留在补全和聊天。Claude 3.5、4 之后，同样的模型 + 同样的提问，光靠把它接到文件系统和命令行，就跑出了过去完全做不到的事——独立完成多文件改动、独立调试、独立提 PR。

模型没变，是 Harness 把它的能力放出来了。

Office 生态中也是一样。GPT 在网页里你用了三年，主要还是问问题。一旦接进 Word 和 Excel 里（也就是 Microsoft Copilot），同一个 GPT 突然能帮你直接改文档、生成图表、按你的数据起草报告。

所以还是那句话：

真正决定 AI 能帮你做多少事的，不是模型有多强，而是 Harness 给了它多大的活动空间。

大多数人都盯着模型——"GPT-5 出了吗？""Claude 又升级了？"——但实际上，过去一年用户体验上的飞跃，绝大部分功劳要记在 Harness 头上。

模型像一个超级大脑，但没有手脚。Harness 就是它的手脚。少了任何一边，事情都干不完。

4. 为什么这类工具会越来越多

既然 Harness 这么重要，那一个不就够了吗？

不够。因为现实中的场景往往非常复杂，很难一个工具完全搞定：

• 写代码 → 在 IDE 里需要 Cursor、Continue 这种内嵌型
• 跑脚本、改文件 → 在终端里需要 Claude Code 这种 CLI 型
• 改 Excel、写 Word、做 PPT → 需要 Microsoft Copilot 这种 Office 端的 Harness
• 整理本地文件、归档照片 → 需要桌面端的"AI 文件助手"
• 远程开发、跑长任务 → 需要带服务端、能后台运行的 Harness
• 公司内部、数据敏感 → 需要带审计日志和权限的 Harness
• 不想被某家模型绑死 → 需要 OpenCode 这种开源、可换底座的 Harness

每一个细分场景都能催生一个工具。

再加上 Harness 本身的门槛并不算高——核心就是一个 prompt 加一个"工具调用循环"。任何公司、任何开源团队，都可以做一个自己的。

结果就是：模型集中在几家手里，但 Harness 会百花齐放。

三、总结

回到开头那个问题——

"模型都这么强了，干嘛还折腾 Claude Code、OpenCode 这种工具？"

因为浏览器那道墙太厚了。模型在墙里，你和你的工作在墙外。

Claude Code、OpenClaw、Office Copilot 这一类工具，就是在墙上凿门。

模型负责"想"，Harness 负责"做"。少了哪一边，事都干不成。

在全民盯着各家公司模型评测分数和参数量狂欢的时候，也不要忘记：

真正影响你日常的，可能是某个不起眼的 Harness 工具，悄悄做了一次更新。

模型层的故事已经讲了三年，所有人都看见了。Harness 层的故事才刚刚开始。

接下来一两年，这类工具只会更多、更碎、更深入到你每天用的软件里。

谁先把 Harness 这层吃透，谁就先享受到大模型的真实价值，真正有能力卷模型的公司少之又少，但是有能力卷应用层的公司很多，而且会越来越多，这才是长久的必争之地。

词汇解释

• Harness：直译"挽具"。在 AI 工程里，指把模型接入真实工作环境的那一层封装，给模型提供"工具调用 + 多轮循环 + 权限控制"的能力。中文有时翻译成"代理外壳""工具层""agentic shell"。
• Claude Code：Anthropic 官方推出的命令行 AI 编程工具，能直接读写本地文件、执行命令。
• OpenCode：开源的 Claude Code 风格命令行 AI 工具，可对接多家不同模型，包括本地部署的私有模型，适合数据敏感场景。
• Microsoft Copilot：微软把 GPT 系列模型接进 Word、Excel、PowerPoint、Outlook 内部的一整套 harness，让 AI 能直接读写 Office 文档。
• VBA：Visual Basic for Applications，Excel/Word 等 Office 软件内置的脚本语言，用来自动化重复操作。
• Tool-calling / 工具调用：模型在推理过程中主动请求执行某个外部函数（比如读文件、跑命令、改 Excel）的机制。是 harness 能让模型动手的底层基础。
• Agentic Coding / Agentic AI：让 AI 拥有"自主行动 + 多轮迭代"能力来完成任务的范式。相对的是"补全式"或"问答式"的传统 AI 使用方式。
• PR（Pull Request）：在 git 协作里，把一个分支的改动合并到主分支前发起的合并请求，包含代码变更和讨论。