我是潮局。
今天讲一篇我读了三遍的文章,它把一个被忽略的事讲透了。
「为什么评估( Evaluation ),是 production AI 真正的瓶颈」。
里面有个反直觉的结论,想把错误率从 25% 砍到 5%,代价是要丢掉差不多一半的合格输出。
就是说,模型给你 100 个答案,里面 75 个对、25 个错。如果你想把错的从 25 个降到 5 个,方法就是只放低置信度过滤后的"它最有把握"的那一部分——但这一刀下去,连同 50 个本来对的,也一起砍了。。。这不是工程实现问题,这是个结构问题。
先把那个反直觉的事讲清楚
坦率的讲,前沿模型现在的生成能力已经离谱了。写代码、写法律备忘、写架构方案,它经常比一个普通从业者干得还顺。
但它有一件事死活做不到——告诉你这一份具体输出,是不是错的,以及错在哪个对你的系统真正重要的点上。
这个问题不是规模没扩到位,不是训练数据没吃够,也不是 RLHF 还没调好。Carlos 的核心论点是——这是一种结构性属性,是"能力源"和"它要落地的真实环境"之间的关系决定的,不会因为下一代模型就消失。
生成的瓶颈在算力。验证的瓶颈在「你能不能接触到地面真相」。这两件事不是同一个轴。
读到这里我突然明白,为什么过去一年我自己用 Claude、用 Cursor 越用越有一种隐约的不安——它给的东西看起来更专业了,错误反而更难定位了。这不是错觉。
QPT 4.16 把模型自我认知拆成三个独立维度
三件事,差一件就露馅
QPT 4.16 是一个技术框架,名字不重要。重要的是它把"模型对自己的认知"拆成三块,每块测法不一样、能力不一样、对系统设计的要求也不一样。
第一块叫 calibration——校准。模型说"我有 80% 把握"的那一类回答,里面真的有 80% 是对的吗?现在的前沿模型这块还行,平均置信度是有信息量的。
第二块叫 discrimination——分辨。它能不能告诉你,这一具体的回答属于"对的 80%"还是"错的 20%"?这是个完全不一样的问题。模型可以总账上知道自己 20% 会错,却没法指出哪一笔是错的。这块现在前沿模型只能做到"中等偏将就"——能粗分,但桶子是漏的。
第三块叫 expression——表达。模型说"我不太确定"的时候,它真的内部不确定吗?还是只是在打个保险?现在的模型在这一块,几乎是系统性地"嘴上比心里更自信"。它的犹豫词和它真的会错的概率,相关性很弱。
你想想看这三块独立到什么程度——一个模型可以总账校准得很好,却分不出哪笔会错;可以内部确实有不确定信号,却没法用语言表达出来;可以表达得很真诚,但那个不确定信号本身没区分力。
所以"模型置信度"这一个数字是骗人的。你看到一个 80%,里面其实藏着三件不一样的事。
discrimination 不到位,过滤就是高税收的过滤
真正的护城河,长在模型外面
Carlos 在文章里用了一个特别准确的词——harness。直译"挽具",就是套在马身上、把马的力量引导到马车上的那套带子。
在 AI 系统里,harness 是套在模型外面那一层架构——它构造模型的输入、解释模型的输出、核验它的论断、跨次调用维护状态。它不是一个薄薄的 API wrapper,它是一整套调度、传感、演化的中介结构。
他给出一个观察我觉得是过去一年最值钱的判断之一——在特定行业深扎的 AI 公司有一个持续的优势,哪怕它们用的模型已经在快速 commoditize(同质化)。
优势不在模型那一层,优势在 harness 那一层。模型在贬值,harness 在升值。
具体拆开看是四个东西——
一是 grounding proximity,离地面真相近不近。你的系统输出有没有真的去落地、有没有人真的用过、有没有翻车反馈回来。
二是 calibration depth,校准深度。在你这个具体任务分布上,你比别人更清楚模型会在哪种问题上栽——是某种边角案例,是某类长尾事实,还是某个时间点的数据。
三是 evolution loop,进化回路够不够紧。线上出事 → 定位到 harness 哪一步漏了 → 改 harness → 下一次更稳。这个回路的紧度,决定了系统会不会越跑越好。
四是 measurement,测量自己。你有没有自己业务任务上的真实标签数据,能算出在你的场景里模型的 discrimination 分到底是多少。光看 benchmark 是没用的——benchmark 上 95 分的模型,到你的产线可能只剩 60。
护城河长在外壳这一层
越强的模型,越精致的错
这一段是这篇 essay 我读到第三遍才真正理解的部分。
弱模型出的错是显眼的——语法不对、事实瞎编、上下文接不上。任何一个稍微懂行的审查者都能挑出来。
强模型出的错是精致的——内部自洽、用词专业、语气笃定,错的地方需要一个真正在那个产线工作过的人,对照真实环境才看得出。
举个具体例子。你让模型给你设计一个微服务架构,它给的 diagram 漂亮、模块切得有道理、看起来跟教科书一样。但里面有一处——比如一个 service 之间应该走异步队列还是直接 REST——它选错了,因为你的具体流量模式它不知道。这种错,每一个内部一致性检查都通过;只有一个真在你这个生产环境里背过锅的工程师,看一眼就知道"这个不行"。
生成能力增长,意味着需要审查的输出变得更难审,不是更易审。审查的负担没缩水,只是变了样。
说真的,这一段我觉得是这篇文章最有价值的论断。
过去两年大家都在讲 AI 替代白领。但这篇文章给出了一个完全反过来的结构性解释——AI 越强,越需要懂行的人。因为弱 AI 替你做的是"低判断力的活",强 AI 替你做的是"看起来对的活",而后者需要更专业的人来分辨。
右边那一栏,就是懂行的人不可被复制的部分
回到普通人这一层,到底意味什么
写到这里,我必须要说——我自己也还在摸索。下面几条只是我读完之后给自己的提醒。
第一,别再迷信"模型置信度"这一个数字。它笼统地告诉你"这一类问题平均靠谱",它告诉不了你"眼前这一份回答靠不靠谱"。
第二,模型给你东西时,看它语气特别笃定的地方反而要警觉。它笃定不代表它知道。它的"笃定"和"会不会错",相关性是弱的。
第三,回到 harness 这块——你自己做的就是 harness。你怎么提问、怎么分解、怎么拿别的工具去 cross-check、怎么把上一次的失败经验沉淀进 prompt——这一整套,决定了同一个 Claude 在你手里值多少钱。
第四,如果你在某个领域真的扎过——不管是写合同、读 X 光片、调线上服务、做品牌——这个时代不是要把你换掉。这个时代是要你给一波模型当外部 quality-sensor。这个角色没法外包给另一个模型,因为它需要你接触的现实,模型接触不到。
你买的不是 Claude 这个模型,你买的是 Claude × 你的判断。后面那个乘数,决定结果。
回到开头那个数字——25% 到 5%,扔掉一半合格输出。它讲的不是技术效率,它讲的是一种结构。在这个结构里,模型很强,模型不知道自己什么时候错,而你需要在场。
小结
Carlos Perez 这篇 essay 把一件被忽略的事讲得很硬——production AI 的难点不在生成,在评估;不在模型,在模型外面那一层 harness;不在算力,在你接不接触得到地面真相。
而模型越强,错越精致;错越精致,越需要懂行的人。所谓领域专家溢价,不是情怀,是 external quality-sensing 的稀缺性。
我自己读完之后做的一件事是——把过去几个月用 Claude 写出过的我后来发现"看起来对其实不对"的东西,全部翻出来看一遍。我想搞清楚,那些精致的错,到底是哪一类。这个回路一旦建起来,下一次就更不容易上当。
想听听你的
1. 你有没有遇到过模型给的"精致的错"?是哪种场景,最后是怎么发现的?
2. 你自己在用 Claude / Cursor / GPT 时,有没有形成一套自己的 harness(比如固定的提问格式、固定的 cross-check 工具)?
3. 你信不信"AI 越强、懂行的人越值钱"这个论断?反例呢?
来源:Carlos E. Perez(@intuitmachine)X 长文 "Why Evaluation Is the Bottleneck: A Structural Account of Human Judgment in Production AI",2026/05;QPT 4.16 metacognitive verification framework。
- END -
夜雨聆风