乐于分享
好东西不私藏

AI 翻车 90% 不是模型的锅,是外面那层东西

AI 翻车 90% 不是模型的锅,是外面那层东西

Deep Dive2026-04

AI 用着用着就翻车

AI 翻车 90% 不是模型的锅,是外面那层东西

同一个模型换了框架,排名从 30 名外冲到第 5——决定 AI 体验的是 Harness 层

Agent Harness · AI 框架 · 脚手架 · 多步骤成功率 · Claude Code

AIAgent认知

全文约 1,744 字 · 预计阅读 5 分钟

PART 01

不止模型

框架决定体验

PART 02

成功率陷阱

错误会利滚利

PART 03

脚手架哲学

好架构终将拆除

PART 04

延伸思考

给自己搭框架

今日阅读《The Anatomy of an Agent Harness》· Akshay Pachaar

最近 AI 圈中出现频率最高的一个概念就是 Hardness,今天读到的这篇来自 Akshay Pachaar 的文章很好的解释了什么是 Hardness。

我们使用的 ChatGPT、Claude、Deepseek,如果只是一个能聊天的对话框,那它只是”模型”;但它能帮你查资料、写代码、订机票——中间那层让它”能干活”的机器,叫 Agent Hardness(智能体框架)

文章里有句话我特别喜欢,原话是 LangChain 工程师 Vivek Trivedy 说的:

“如果你不是模型,那你就是 harness。”

读完整篇文章之后,我算是对这个包在模型外面那一圈东西有了一些了解。下面我挑三个让我印象深刻的点讲给你听。

01

PART

重点一:决定 AI 产品体验的,其实不仅仅是模型

文章开头给了一个极具冲击力的证据:

LangChain 在 TerminalBench 2.0 这个评测榜上,没换模型、没改权重,只重写了”模型外面”的那层东西,排名就从 30 名开外冲到了第 5 名。

同样的脑子,换了身体,结果就天差地别了。

Beren Millidge 有一个对大模型的类比:一个裸 LLM 就像一颗没有运行内存、没有硬盘、没有输入/输出设备和 CPU。

我们可以这样理解,模型本身只是一颗”能预测下一个词”的 CPU——它没有记忆、没有手脚、不会自我检查。决定它最终表现的,是它被如何使用:

你问它问题的时候,它同时看到了哪些上下文?
它调用的”工具”是一堆乱七八糟的 API,还是精心筛选的 5 个?
它做错了,谁来发现?谁来纠正?
它做对了三步,到第四步时忘了前面的进度,怎么办?

当大模型的智能都差不多的时候,这些才是 AI 产品之间真正的差距。 市面上的应用大家都在用 GPT-5/Claude4,但有的应用让你感觉惊艳,有的让你用完就想卸载——这个锅模型不该背,Hardness 才背。

02

PART

重点二:”99%成功率”是个陷阱,错误会利滚利

我一直觉得我的数学还行,但是文章里有个数字还是把我给看楞了:

一个 10 步的流程,每一步的成功率是 99%,整体成功率只剩 90.4%
如果每一步 95%,10 步之后是 60%
如果每一步 90%,10 步之后是 35%

0.99 的十次方=0.904。就是这个简单的初中数学题,放到 AI Agent 里,它就变成了一天花板。

它解释了一个常见的观察:为什么 AI Demo 总是惊艳,落地总是拉胯。

演示 Demo 时通常只会跑 1~2 步,99%就够好看了。但实际应用时的真实任务呢?我们让 AI 写一份报告可能调用搜索 5 次、总结 3 次、润色 2 次,即使每步 99%的优秀模型,跑玩也只有 90%的概率不翻车。

OpenClaw 刚出来的时候,我尝试过阿里千问作为小龙虾的大脑,直观的感受就是这是一只傻龙虾,什么都干不明白,直到我换成了 Claude 之后,才体验到什么叫惊艳。可能千问的准确度只比 Claude 低 10%,在这种多步骤任务中,10 步之后的成功率就是 35% 对 90.4%了,大家字面数值觉得没差多少,但实际使用天差地别。

AI Agent 之所以难做,是因为模型不能靠自己把 99%拉到 99.99%。但 Hardness 可以——靠验证、靠重试、靠兜底。 可能这才是”工程”真正的价值。

03

PART

重点三:好的脚手架,终将自己拆掉

Hardness 字面意思是马具,就是给大模型套上了一层马具,作者更喜欢另一个比喻——脚手架。

在盖房子的时候,脚手架是临时基础设施,让工人可以够到原本够不到的地方。它本身不负责施工,但没有它,工人上不了楼。而脚手架在建筑完工后,一定会被拆掉。

AI 领域的一个反常识规律是:模型越强,外面包的 Hardness 就该越薄。

文章中有一个例子,Anthropic 每发步一个新版本的 Claude,都会从 Claude Code 的代码里删掉一些过去精心设计的规划步骤——因为新模型自己就会规划了,不用再手把手教。

他们甚至给 Hardness 设计了一个未来友好度测试:

如果你不加任何复杂度、只换一个更强的模型,性能也能跟着涨——那这个 Hardness 就设计对了。 反过来,如果模型一变强,你的系统就崩了、要重写——说明你在模型的位置上做了本该留给模型的事。

模型现在是和特定 Hardness 一起后训练的,也就是说 Claude Code 的模型学会了使用它被训练时搭配的那个具体 Hardness,随意替换工具或模型可能反而会掉性能,因为两者已经强耦合。

让我想到很多人将 ChatGPT 的 API 设置到 Claude Code 中当作平替,理论上来说效果应该不怎么好,因为这个 Hardness 并不是给 GPT 设计的,它也许足够聪明能驾驭其中一些工具,但终究不那么合脚。

跑题了,说回脚手架终将被拆掉的事,从 AI 发散出去,任何好的支撑系统,最终都该把自己变得”可拆除”——好老师让学生不再需要老师,好产品让用户不再需要客服,好流程让组织不再需要流程本身。

做减法。

我们常常把”越来越复杂”当作进步,但真正高明的架构往往是反的:该做加法时敢加,该做减法时更敢减。

04

PART

我的延伸思考

我自己有没有一套好的 Hardness?

我们的大脑就是那颗 LLM——聪明、健忘、容易被中间内容干扰。那我给它配的脚手架呢?

我有短期记忆和长期记忆的分层吗?(笔记系统)
我的工具数量是 5 个还是杂乱的 30 个?(APP 数量)
我做完事会回头验证吗?(复盘机制)

我们经常说这些是效率工具,读完这篇文章之后我们可以换个说法:

这是给我自己这颗 LLM 搭的 Hardness。

而且越好的 Hardness,越应该在我变强之后,自己拆掉一部分——不再需要事事待办、不再需要繁琐的晨间仪式、不再需要强制番茄钟。

最终留下的,才是真正支撑我的骨架。

最后我想留下一个问题:

你们让 AI 在 Obsidian 中全自动搭建知识库的时候,这个 Hardness 是给你这颗 LLM 搭的吗?

@麦先生说

如果对你有用,欢迎点赞、分享、推荐

点赞
分享
推荐

A LIFE OF GROWTH