你有没有想过一个问题。
同一个AI,早上帮你写了一封措辞优雅的商业邮件,逻辑严密得让你怀疑对方是麦肯锡出来的——到了下午,你问它「9.8和9.11哪个大」,它告诉你9.11大。
它不是偶尔这样。它一直这样。
这件事诡异的地方在于:它不是两个不同的AI。它不是一个「聪明版本」和一个「愚蠢版本」。它是同一个东西。同一个模型,同一套参数,同一段代码。
那么问题来了:如果这真的是同一个东西,它怎么做到的?一个系统怎么可能在A任务上表现得像博士,在B任务上表现得像小学生?
答案比你想的更简单,也更反直觉:AI的聪明和愚蠢,不是两个事。它们是同一个机制的两张脸。
一、它不是理解,是拼凑
先说最根本的东西。
现在流行的大语言模型——也就是你每天在用的ChatGPT、Claude、Kimi——本质上是文本补全机。你给它一段文字,它预测下一个最适合接上去的词(在AI内部叫token,不只是完整的词,可能是一个字、一个字符片段)。
举个例子。
你输入:「1+1=」
它搜索它「读过」的全部文本——互联网的很大一部分、几千万本书、几十亿篇论文——在所有这些文本里,跟在「1+1=」后面出现次数最多的词是什么?是「2」。
所以它输出「2」。
关键来了:它不是先「理解」了加法,然后「计算」出2。 它是发现人类在绝大多数情况下把「2」放在「1+1=」后面,于是它也把「2」放上去。这个差别是根本级的。
你可能会说:「这不一样吗?结果都是2啊。」
没错——在简单问题上,结果确实一样。但在复杂问题上,这个差别会裂开一条缝,然后越裂越宽。
如果你想真正理解这条缝有多大,有一个思想实验可以用。
二、切割大象的思想实验
想象一个场景。
有一个人,他天生失明。但他读过人类写过的关于大象的每一本书、每一篇论文、每一个Reddit帖子——从动物学教科书到非洲旅行博客,从解剖学论文到童话故事。他「知道」大象的一切。
现在,把他关在一个暗房里。房间里有一头完整的大象。递给他一把刀,告诉他:描述这头大象。
他先开始说对的东西。「大象的皮肤粗糙,有很多褶皱。」没错——他读过这个。这是模式匹配在发挥作用。
但接下来他开始出错了。「象牙应该是弯的」——但这头大象的象牙碰巧是直的。「大象的耳朵应该有三十厘米长」——但这头大象的耳朵只有二十厘米。
他没有亲眼见过大象。他不知道眼前这头具体的、活生生的大象是什么样子。他是在黑暗中拼凑。
这就是现在的AI。它读过关于世界的所有文本,但它没有感知世界的能力。它能准确描述「大象」这个抽象概念,但面对一头真实的、具体的、有很多个体差异的大象时,它会犯错——而且它既不知道自己错了,也不知道自己为什么会错。它只是继续拼凑。
请注意:拼凑本身并不是弱点。在绝大多数情况下——当你问它标准知识、常识、固定模式的问题时——拼凑的效果好得惊人。人类的很多知识本身就是模式。法律条文是模式。医学诊断的标准流程是模式。商业写作的套路是模式。
但问题在于:拼凑的能力不是均匀的。
三、锯齿状智能——它不是一个平直的等级
这是整个讨论中最关键的概念。
传统上我们衡量智能,习惯用一个单一分数——IQ测试120,高考650分,托福110。这个假设是:智能是一把平滑的尺子,你在所有任务上的能力大致均匀。
AI彻底干掉了这个假设。
在AI研究中,这被称为Jagged Intelligence——锯齿状智能。它不是一条水平的线,它是像锯齿一样,在某些点上拔得极高,在某些点上跌得很深。
举个例子。当前最强的AI模型可以在GRE语文推理部分击败99%的人类考生,在LSAT逻辑推理部分打败90%的考生。但同一个模型,在小学数学竞赛领域(比如AIME)的正确率长期在10%-20%之间徘徊。
这不是「它在某些科目上弱一点」。这是断崖。
为什么?
因为数学竞赛不是模式匹配。数学竞赛依赖的是系统性推理——从第一步到第二步到第三步,每一步都不能出错。而语言模型做推理的方式是「看起来合理的推理」,不是「逻辑上正确的推理」。在菜谱式任务上(做蛋糕、写代码、翻译),这很管用——因为流程本身是模式。但在需要精确约束、不允许中间步骤出错的任务上,锯齿就露出来了。
这对你意味着什么?
你永远不能假设一个AI在任务A上表现出色,就自动在任务B上也可靠。 它的能力分布不是连续的。你必须在你的具体场景里测试它,而不是推理它。
四、幻觉——不是bug,是和聪明同源的东西
现在我们来聊最具争议的话题:AI「编造」答案。
行业内叫hallucination——幻觉。但这个词不准确。幻觉暗示一种病态、一种异常。AI的「幻觉」不是异常。它是同一个文本补全机制的必然产出。
说回那个拼凑原理。
当你问:「周杰伦的第一张专辑是什么?」
它在训练数据里看过无数遍「周杰伦第一张专辑《Jay》2000年发行」——统计信号极强。它给出正确答案。
当你问:「张三在2024年发表的那篇关于量子计算和养猫之间关系的论文得出什么结论?」
训练数据里没有这么一篇论文。但「张三」「量子计算」「养猫」「论文结论」这些模式它都见过。它自动拼凑出一个看起来合理的回答:「张三的研究发现,量子叠加态可以类比为猫的两种行为状态……blah blah……」
这不是它「故意说谎」。说谎需要一个知道真实的自己、然后有意识地说出虚假陈述的意图主体。AI没有意图。它只是在做它唯一会做的事:把看起来合理的词接上去。
这句话AI行业反复说过:AI的「幻觉」和AI的「聪明」来自同一个地方。 它们都是pattern matching at absurd scale的产物。你无法在不破坏AI的全部核心能力的前提下「关掉幻觉」。你只有一个选择——学会和它共处。
那怎么共处?
五、March of Nines——为什么99%还不够
这回到了一个让我毛骨悚然的数据。
AI行业有一个说法叫March of Nines——向百分之九十九点九前进。AI的准确率从90%(90%时候对,10%时候错)提升到99%,再提升到99.9%,每一次迭代都意味着巨大进步。
但请注意——在安全领域,99%是致命的。
Waymo投入了上百亿美元搞自动驾驶。他们的问题是:让一辆无人驾驶车在99%的场景下不出事很容易;在99.9%的场景下不出事,烧上百亿美元也可能做到;但在99.9999%的场景下不出事?没有一个系统能做到。
人类司机出错的概率大约是每1亿英里一次致命事故。这是极高、极不公平的标准——一个人只要考个驾照就算达标,一个AI系统必须在统计上证明自己比所有人类司机加起来都安全,才能被接受。
这不只是交通领域的问题。这是所有AI应用场景的共同问题。
你用AI帮你写邮件——99%准确率很好。你用AI帮你做医疗诊断——99%准确率意味着每100个病人中有一个被误诊。你用AI帮你做法律分析——99%准确率意味着每100份合同有一份出了你不知道的错。
最危险的不是AI犯错。最危险的是你不知道它什么时候会犯错以及犯什么错。
六、四套操作方案
那我怎么办?不用AI了吗?
不是。而且你也不可能不用。2026年这个节点,不用AI就像1999年不用互联网一样——技术上可能做得到,实际操作上你已经被时代甩在后面了。
关键是——使用方式和心智模式必须改变。
我给出四套方案。它们不是理论,是可操作的策略。这些不需要你懂任何技术。
第一套:三角验证。
同一个问题,用至少两个模型交叉对比。这不只是一种安全检查,也是一种校准你的判断力的练习。不同的模型在不同的训练数据和架构上运行,它们犯的错误往往不同。当两个独立的模型给出高度一致的回答时,这个回答正确的概率不一定是100%,但比任何一个模型单独给的要高得多。
把它想象成GPS的工作原理——不是依赖一颗卫星,而是通过至少三颗卫星的交点来定位。消除的是系统性的、同源的误差。三角验证的效率在绝大多数日常场景中已经足够。
第二套:校准基准线。
在你最熟悉的领域先测试AI。你是做互联网的,那你先让它回答几个你闭着眼睛都能答对的专业问题。你能立刻判断它回答的水平——哪些准确,哪些约等于在编,哪些因为缺乏具体行业数据而只能给出泛泛的推论。
这个测试结果就是你的calibration baseline——校准基准线。在任何新领域用AI之前,先搞清楚它的基本盘。你能判断的领域越多、越丰富,你对AI输出的直觉就越准。
这跟贝叶斯更新是一个道理——你在用已知的事先概率去校准对未知领域判断的信心程度。
第三套:最小可验证单元。
永远不要一次性依赖AI输出一百页报告然后直接用。这是自杀式操作。
正确的做法是:用AI做第一版草稿,然后抽取最小可验证单元——一个数据点、一个法律条款引用、一个结论陈述——手动验证。发现正确率高于预期?可以适度放松验证频率。发现它在这个领域编造频率明显偏高?建立红灯规则——这些任务根本不用AI,或者必须每条都过。
这叫progressive trust——渐进式信任。它不是信不信任的问题,是数据驱动的方法论。
第四套:信息来源追问。
这条最直接,也最被低估。
每次AI给你一个声称,多问一句:「你的信息从哪里来的?」
如果它回答「根据公开资料」「一般而言」「研究表明」——但没有给出具体的、可追溯的来源——这个声称的可靠性自动降一级。如果它给出了具体来源(比如特定论文、特定数据集的名称),你不需要去逐字核对,但至少你知道它不是在纯粹编造。
这不是怀疑主义。这是科学的基本操作——任何声称都需要可追溯的证据链。
七、比AI更重要的东西
我想用一个开放式的问题收尾。
AI可以无限进步。March of Nines会继续往前推。下一代模型可能比现在强十倍。这些我都不怀疑。
但有一样东西不会因为AI的进步而自动进步——那就是你的判断力。
判断力不是AI能给你的。它来自你在自己领域里积累的第一手经验。来自你被事实打过脸后的修正。来自你对不确定性的容忍和对捷径的警惕。
AI可以把所有已知的知识重新排列组合成眼花缭乱的新形态。但它不能替你做判断。不能替你说——这个方向值得坚持,那个风险不值得冒,这个概率值得赌一把。
这不是技术问题。这是为人本身的问题。
AI可以无限进步,但判断力还得人来。
参考资料
Andrej Karpathy, "Intro to Large Language Models" (YouTube, 2024) Stephen Wolfram, "What Is ChatGPT Doing...and Why Does It Work?" (2023) Arvind Narayanan & Sayash Kapoor, AI Snake Oil (Princeton University Press, 2024) Ethan Mollick, Co-Intelligence (Portfolio, 2024) Waymo Safety Report (2024-2025) "Jagged Intelligence" 概念源自多篇AI对齐研究论文中的能力边界分析
夜雨聆风