你的 AI 不蠢,是活得太惨

你的 AI 不蠢，是活得太惨

你的 AI 是个天才。它通过了律师考试、医学执照考试、跟你下棋、帮你写诗。

但你把它关在地下室里。

没有窗户，没有工具箱，没有工作流程，没有人检查它干得对不对。你把任务扔给它，等它交卷，发现做得一塌糊涂——然后你的第一反应是：这模型不行，换更强的。

这个直觉，可能是 2026 年最贵的错误。

CMU、Yale 和 Amazon 联合发表的一篇综述论文里有一个数据：不改模型权重，只改执行环境、工具接口、上下文管理这些"非智力因素"，编码基准测试最高获得了 10 倍提升。

10 倍。不是 10%，不是换个 GPT-5 能给你的那种线性增长。是没有花一分钱在模型上，纯粹把 AI 的"办公环境"搞好之后的结果。

你的 AI 不蠢。它只是活得太惨。

地下室里到底缺什么

这篇论文提出了一个叫"ETCLOVG"的七层框架，听起来像个咒语，但拆开看全是常识：

你的 AI 需要一个安全的执行环境（E）来跑代码，别让它在真机上裸奔。需要标准化的工具接口（T），而不是每次都要你手把手教它用哪个 API。需要上下文管理（C）——别让它干了 20 步之后忘了第 1 步干了什么。需要生命周期编排（L）——任务拆解、多 Agent 协同、失败重试。需要可观测性（O）——出了问题你能看到它每一秒在干什么。需要验证体系（V）——它干完了你得检查。需要治理机制（G）——权限控制、安全约束、审计追踪。

这七层加在一起，论文给了一个统称：Harness（执行基础设施层）。

Harness 不是什么新概念的新名字。操作系统、DevOps 流水线、云基础设施——这些都是"把天才的能力稳定释放出来"的系统。只是过去我们讨论 AI，从来不讨论这层。我们只讨论模型参数、训练数据、 benchmark 分数。

论文里最扎心的对比是这样的：固定同一个模型（GPT-5.2-Codex），只优化 Harness，Terminal-Bench 2.0 从 52.8% 跑到 66.5%。一个叫 Meta-Harness 的自动化 Harness 优化工具，甚至跑到了 76.4%。

同一个天才，换个办公室，产出直接翻倍。

但你可能觉得：这七层东西，听起来工程量巨大，我一个小团队根本搞不起。

腾讯云的张思宇做了一次实验，证明事情没那么可怕。

他设计了一个叫 Skill Evolver 的工具，核心思路极其简单：不要凭感觉调优，用证据驱动。 每次改动前先看完整的执行记录（trace），找到具体是哪一步出了问题，然后只改一个地方，跑评测，过了就保留，没过就回滚。

听起来平淡无奇对吧？但结果惊人：19 轮迭代，零回滚，测试用例从 17 个自动扩展到 31 个，最终通过率 100%，核心文件行数还砍了 60%。

关键不在于这个工具本身有多厉害。关键在于它揭示了一个机制——结构化飞轮：

把"什么叫好"编码成规则和数据（结构化）→ AI 在这个框架内高效迭代 → 发现新的边界和问题 → 丰富评测体系 → 更精确的结构化 → AI 跑得更快 → ...

乔梁（持续交付 2.0 公众号）把这个机制总结得很好：与其问 AI 能帮我做什么，不如问我的工程基础设施能让 AI 在上面跑多快。轨道修得好，火车自然快。

这跟 Harness 的关系是什么？Harness 就是那条轨道。你不是在"调教"AI，你是在给它修一条它能跑起来的路。路修好了，它自己就会跑。

张思宇实验中最有价值的一句话不是那些漂亮的数字，而是这个洞察：

Meta-evolution 最有价值的不是自动化节省时间，是它在替一个你还没见过的用户，跑一遍你自己永远跑不到的路径。

你的 AI 能发现你自己发现不了的 bug，不是因为它比你聪明，是因为它能跑你没耐心跑的路径。但它能跑的前提是——你给它铺好了路。

最贵的执念

让我说一个可能会冒犯你的观点：

"等更强的模型"正在成为这个时代最合理的偷懒借口。

每当 AI 系统出问题，最舒服的解释是"模型还不够好"。因为这句话的潜台词是"不是我的问题，等 OpenAI 出下一版就好了"。它把责任外包给了一个你控制不了的东西。

但 Harness 论文的数据告诉我们：对于绝大多数真实场景，瓶颈不在模型的智商上，而在你给它的环境上。

这就像给一个世界级厨师一个没有刀、没有灶台、没有冰箱的厨房，然后说"等一个更厉害的厨师来就好了"。更厉害的厨师来了，面对的仍然是同一个厨房。

论文提出了五个开放问题，但我觉得有一个是被严重低估的：随着模型能力提升，哪些兜底机制仍然必要，哪些变成了额外的成本和延迟？

翻译成大白话：你给 AI 修的那些护栏、检查点、验证流程——有些是因为模型不行才需要的。模型变强之后，这些机制可能从保护变成了累赘。但你不知道哪些该拆，因为没人做过系统性的消融测试。

你不知道你的护栏里有多少是在保护一个已经不需要保护的模型。

这才是 Harness 工程最难的地方：不是搭建，而是知道什么时候该拆。

如果你是做 AI 产品的，问自己一个问题：你上一次花在优化模型选择上的时间，和你花在优化 AI 执行环境上的时间，比例是多少？

如果你是做 AI 应用的，再问一个问题：你的 AI 写代码的环境、调用的工具接口、跨步骤的上下文管理、出错后的诊断链路——这些你上次认真看过是什么时候？

你的 AI 是个天才。别让它住在地下室了。

给它一个像样的办公室，一套好用的工具，一个清晰的流程，一个能发现问题的质检体系。

然后你会发现——它比你想象的厉害得多。

首篇Agent Harness综述：模型之外，Agent拼什么？

让Skill自己训练自己：8阶段Loop、3层评测、5维AND门控，从此实现自进化

结构化思维：AI提效的隐藏飞轮

Agent Harness Engineering: A Survey https://picrew.github.io/LLM-Harness/