AI 越强,错得越精致

我是潮局。

今天讲一篇我读了三遍的文章，它把一个被忽略的事讲透了。

「为什么评估（ Evaluation )，是 production AI 真正的瓶颈」。

里面有个反直觉的结论，想把错误率从 25% 砍到 5%，代价是要丢掉差不多一半的合格输出。

就是说，模型给你 100 个答案，里面 75 个对、25 个错。如果你想把错的从 25 个降到 5 个，方法就是只放低置信度过滤后的"它最有把握"的那一部分——但这一刀下去，连同 50 个本来对的，也一起砍了。。。这不是工程实现问题，这是个结构问题。

先把那个反直觉的事讲清楚

坦率的讲，前沿模型现在的生成能力已经离谱了。写代码、写法律备忘、写架构方案，它经常比一个普通从业者干得还顺。

但它有一件事死活做不到——告诉你这一份具体输出，是不是错的，以及错在哪个对你的系统真正重要的点上。

这个问题不是规模没扩到位，不是训练数据没吃够，也不是 RLHF 还没调好。Carlos 的核心论点是——这是一种结构性属性，是"能力源"和"它要落地的真实环境"之间的关系决定的，不会因为下一代模型就消失。

生成的瓶颈在算力。验证的瓶颈在「你能不能接触到地面真相」。这两件事不是同一个轴。

读到这里我突然明白，为什么过去一年我自己用 Claude、用 Cursor 越用越有一种隐约的不安——它给的东西看起来更专业了，错误反而更难定位了。这不是错觉。

QPT 4.16 把模型自我认知拆成三个独立维度

三件事，差一件就露馅

QPT 4.16 是一个技术框架，名字不重要。重要的是它把"模型对自己的认知"拆成三块，每块测法不一样、能力不一样、对系统设计的要求也不一样。

第一块叫 calibration——校准。模型说"我有 80% 把握"的那一类回答，里面真的有 80% 是对的吗？现在的前沿模型这块还行，平均置信度是有信息量的。

第二块叫 discrimination——分辨。它能不能告诉你，这一具体的回答属于"对的 80%"还是"错的 20%"？这是个完全不一样的问题。模型可以总账上知道自己 20% 会错，却没法指出哪一笔是错的。这块现在前沿模型只能做到"中等偏将就"——能粗分，但桶子是漏的。

第三块叫 expression——表达。模型说"我不太确定"的时候，它真的内部不确定吗？还是只是在打个保险？现在的模型在这一块，几乎是系统性地"嘴上比心里更自信"。它的犹豫词和它真的会错的概率，相关性很弱。

你想想看这三块独立到什么程度——一个模型可以总账校准得很好，却分不出哪笔会错；可以内部确实有不确定信号，却没法用语言表达出来；可以表达得很真诚，但那个不确定信号本身没区分力。

所以"模型置信度"这一个数字是骗人的。你看到一个 80%，里面其实藏着三件不一样的事。

discrimination 不到位，过滤就是高税收的过滤

真正的护城河，长在模型外面

Carlos 在文章里用了一个特别准确的词——harness。直译"挽具"，就是套在马身上、把马的力量引导到马车上的那套带子。

在 AI 系统里，harness 是套在模型外面那一层架构——它构造模型的输入、解释模型的输出、核验它的论断、跨次调用维护状态。它不是一个薄薄的 API wrapper，它是一整套调度、传感、演化的中介结构。

他给出一个观察我觉得是过去一年最值钱的判断之一——在特定行业深扎的 AI 公司有一个持续的优势，哪怕它们用的模型已经在快速 commoditize（同质化）。

优势不在模型那一层，优势在 harness 那一层。模型在贬值，harness 在升值。

具体拆开看是四个东西——

一是 grounding proximity，离地面真相近不近。你的系统输出有没有真的去落地、有没有人真的用过、有没有翻车反馈回来。

二是 calibration depth，校准深度。在你这个具体任务分布上，你比别人更清楚模型会在哪种问题上栽——是某种边角案例，是某类长尾事实，还是某个时间点的数据。

三是 evolution loop，进化回路够不够紧。线上出事 → 定位到 harness 哪一步漏了 → 改 harness → 下一次更稳。这个回路的紧度，决定了系统会不会越跑越好。

四是 measurement，测量自己。你有没有自己业务任务上的真实标签数据，能算出在你的场景里模型的 discrimination 分到底是多少。光看 benchmark 是没用的——benchmark 上 95 分的模型，到你的产线可能只剩 60。

护城河长在外壳这一层

越强的模型，越精致的错

这一段是这篇 essay 我读到第三遍才真正理解的部分。

弱模型出的错是显眼的——语法不对、事实瞎编、上下文接不上。任何一个稍微懂行的审查者都能挑出来。

强模型出的错是精致的——内部自洽、用词专业、语气笃定，错的地方需要一个真正在那个产线工作过的人，对照真实环境才看得出。

举个具体例子。你让模型给你设计一个微服务架构，它给的 diagram 漂亮、模块切得有道理、看起来跟教科书一样。但里面有一处——比如一个 service 之间应该走异步队列还是直接 REST——它选错了，因为你的具体流量模式它不知道。这种错，每一个内部一致性检查都通过；只有一个真在你这个生产环境里背过锅的工程师，看一眼就知道"这个不行"。

生成能力增长，意味着需要审查的输出变得更难审，不是更易审。审查的负担没缩水，只是变了样。

说真的，这一段我觉得是这篇文章最有价值的论断。

过去两年大家都在讲 AI 替代白领。但这篇文章给出了一个完全反过来的结构性解释——AI 越强，越需要懂行的人。因为弱 AI 替你做的是"低判断力的活"，强 AI 替你做的是"看起来对的活"，而后者需要更专业的人来分辨。

右边那一栏，就是懂行的人不可被复制的部分

回到普通人这一层，到底意味什么

写到这里，我必须要说——我自己也还在摸索。下面几条只是我读完之后给自己的提醒。

第一，别再迷信"模型置信度"这一个数字。它笼统地告诉你"这一类问题平均靠谱"，它告诉不了你"眼前这一份回答靠不靠谱"。

第二，模型给你东西时，看它语气特别笃定的地方反而要警觉。它笃定不代表它知道。它的"笃定"和"会不会错"，相关性是弱的。

第三，回到 harness 这块——你自己做的就是 harness。你怎么提问、怎么分解、怎么拿别的工具去 cross-check、怎么把上一次的失败经验沉淀进 prompt——这一整套，决定了同一个 Claude 在你手里值多少钱。

第四，如果你在某个领域真的扎过——不管是写合同、读 X 光片、调线上服务、做品牌——这个时代不是要把你换掉。这个时代是要你给一波模型当外部 quality-sensor。这个角色没法外包给另一个模型，因为它需要你接触的现实，模型接触不到。

你买的不是 Claude 这个模型，你买的是 Claude × 你的判断。后面那个乘数，决定结果。

回到开头那个数字——25% 到 5%，扔掉一半合格输出。它讲的不是技术效率，它讲的是一种结构。在这个结构里，模型很强，模型不知道自己什么时候错，而你需要在场。

小结

Carlos Perez 这篇 essay 把一件被忽略的事讲得很硬——production AI 的难点不在生成，在评估；不在模型，在模型外面那一层 harness；不在算力，在你接不接触得到地面真相。

而模型越强，错越精致；错越精致，越需要懂行的人。所谓领域专家溢价，不是情怀，是 external quality-sensing 的稀缺性。

我自己读完之后做的一件事是——把过去几个月用 Claude 写出过的我后来发现"看起来对其实不对"的东西，全部翻出来看一遍。我想搞清楚，那些精致的错，到底是哪一类。这个回路一旦建起来，下一次就更不容易上当。

想听听你的

1. 你有没有遇到过模型给的"精致的错"？是哪种场景，最后是怎么发现的？

2. 你自己在用 Claude / Cursor / GPT 时，有没有形成一套自己的 harness（比如固定的提问格式、固定的 cross-check 工具）？

3. 你信不信"AI 越强、懂行的人越值钱"这个论断？反例呢？

来源：Carlos E. Perez（@intuitmachine）X 长文 "Why Evaluation Is the Bottleneck: A Structural Account of Human Judgment in Production AI"，2026/05；QPT 4.16 metacognitive verification framework。

- END -