你的 AI 不蠢,是活得太惨
你的 AI 是个天才。它通过了律师考试、医学执照考试、跟你下棋、帮你写诗。
但你把它关在地下室里。
没有窗户,没有工具箱,没有工作流程,没有人检查它干得对不对。你把任务扔给它,等它交卷,发现做得一塌糊涂——然后你的第一反应是:这模型不行,换更强的。
这个直觉,可能是 2026 年最贵的错误。
CMU、Yale 和 Amazon 联合发表的一篇综述论文里有一个数据:不改模型权重,只改执行环境、工具接口、上下文管理这些"非智力因素",编码基准测试最高获得了 10 倍提升。
10 倍。不是 10%,不是换个 GPT-5 能给你的那种线性增长。是没有花一分钱在模型上,纯粹把 AI 的"办公环境"搞好之后的结果。
你的 AI 不蠢。它只是活得太惨。
地下室里到底缺什么
这篇论文提出了一个叫"ETCLOVG"的七层框架,听起来像个咒语,但拆开看全是常识:
你的 AI 需要一个安全的执行环境(E)来跑代码,别让它在真机上裸奔。需要标准化的工具接口(T),而不是每次都要你手把手教它用哪个 API。需要上下文管理(C)——别让它干了 20 步之后忘了第 1 步干了什么。需要生命周期编排(L)——任务拆解、多 Agent 协同、失败重试。需要可观测性(O)——出了问题你能看到它每一秒在干什么。需要验证体系(V)——它干完了你得检查。需要治理机制(G)——权限控制、安全约束、审计追踪。
这七层加在一起,论文给了一个统称:Harness(执行基础设施层)。
Harness 不是什么新概念的新名字。操作系统、DevOps 流水线、云基础设施——这些都是"把天才的能力稳定释放出来"的系统。只是过去我们讨论 AI,从来不讨论这层。我们只讨论模型参数、训练数据、 benchmark 分数。
论文里最扎心的对比是这样的:固定同一个模型(GPT-5.2-Codex),只优化 Harness,Terminal-Bench 2.0 从 52.8% 跑到 66.5%。一个叫 Meta-Harness 的自动化 Harness 优化工具,甚至跑到了 76.4%。
同一个天才,换个办公室,产出直接翻倍。
但你可能觉得:这七层东西,听起来工程量巨大,我一个小团队根本搞不起。
腾讯云的张思宇做了一次实验,证明事情没那么可怕。
他设计了一个叫 Skill Evolver 的工具,核心思路极其简单:不要凭感觉调优,用证据驱动。 每次改动前先看完整的执行记录(trace),找到具体是哪一步出了问题,然后只改一个地方,跑评测,过了就保留,没过就回滚。
听起来平淡无奇对吧?但结果惊人:19 轮迭代,零回滚,测试用例从 17 个自动扩展到 31 个,最终通过率 100%,核心文件行数还砍了 60%。
关键不在于这个工具本身有多厉害。关键在于它揭示了一个机制——结构化飞轮:
把"什么叫好"编码成规则和数据(结构化)→ AI 在这个框架内高效迭代 → 发现新的边界和问题 → 丰富评测体系 → 更精确的结构化 → AI 跑得更快 → ...
乔梁(持续交付 2.0 公众号)把这个机制总结得很好:与其问 AI 能帮我做什么,不如问我的工程基础设施能让 AI 在上面跑多快。轨道修得好,火车自然快。
这跟 Harness 的关系是什么?Harness 就是那条轨道。你不是在"调教"AI,你是在给它修一条它能跑起来的路。路修好了,它自己就会跑。
张思宇实验中最有价值的一句话不是那些漂亮的数字,而是这个洞察:
Meta-evolution 最有价值的不是自动化节省时间,是它在替一个你还没见过的用户,跑一遍你自己永远跑不到的路径。
你的 AI 能发现你自己发现不了的 bug,不是因为它比你聪明,是因为它能跑你没耐心跑的路径。但它能跑的前提是——你给它铺好了路。
最贵的执念
让我说一个可能会冒犯你的观点:
"等更强的模型"正在成为这个时代最合理的偷懒借口。
每当 AI 系统出问题,最舒服的解释是"模型还不够好"。因为这句话的潜台词是"不是我的问题,等 OpenAI 出下一版就好了"。它把责任外包给了一个你控制不了的东西。
但 Harness 论文的数据告诉我们:对于绝大多数真实场景,瓶颈不在模型的智商上,而在你给它的环境上。
这就像给一个世界级厨师一个没有刀、没有灶台、没有冰箱的厨房,然后说"等一个更厉害的厨师来就好了"。更厉害的厨师来了,面对的仍然是同一个厨房。
论文提出了五个开放问题,但我觉得有一个是被严重低估的:随着模型能力提升,哪些兜底机制仍然必要,哪些变成了额外的成本和延迟?
翻译成大白话:你给 AI 修的那些护栏、检查点、验证流程——有些是因为模型不行才需要的。模型变强之后,这些机制可能从保护变成了累赘。但你不知道哪些该拆,因为没人做过系统性的消融测试。
你不知道你的护栏里有多少是在保护一个已经不需要保护的模型。
这才是 Harness 工程最难的地方:不是搭建,而是知道什么时候该拆。
如果你是做 AI 产品的,问自己一个问题:你上一次花在优化模型选择上的时间,和你花在优化 AI 执行环境上的时间,比例是多少?
如果你是做 AI 应用的,再问一个问题:你的 AI 写代码的环境、调用的工具接口、跨步骤的上下文管理、出错后的诊断链路——这些你上次认真看过是什么时候?
你的 AI 是个天才。别让它住在地下室了。
给它一个像样的办公室,一套好用的工具,一个清晰的流程,一个能发现问题的质检体系。
然后你会发现——它比你想象的厉害得多。
首篇Agent Harness综述:模型之外,Agent拼什么?
让Skill自己训练自己:8阶段Loop、3层评测、5维AND门控,从此实现自进化
Agent Harness Engineering: A Survey https://picrew.github.io/LLM-Harness/
夜雨聆风