AI的聪明和愚蠢是同一回事

你有没有想过一个问题。

同一个AI，早上帮你写了一封措辞优雅的商业邮件，逻辑严密得让你怀疑对方是麦肯锡出来的——到了下午，你问它「9.8和9.11哪个大」，它告诉你9.11大。

它不是偶尔这样。它一直这样。

这件事诡异的地方在于：它不是两个不同的AI。它不是一个「聪明版本」和一个「愚蠢版本」。它是同一个东西。同一个模型，同一套参数，同一段代码。

那么问题来了：如果这真的是同一个东西，它怎么做到的？一个系统怎么可能在A任务上表现得像博士，在B任务上表现得像小学生？

答案比你想的更简单，也更反直觉：AI的聪明和愚蠢，不是两个事。它们是同一个机制的两张脸。

一、它不是理解，是拼凑

先说最根本的东西。

现在流行的大语言模型——也就是你每天在用的ChatGPT、Claude、Kimi——本质上是文本补全机。你给它一段文字，它预测下一个最适合接上去的词（在AI内部叫token，不只是完整的词，可能是一个字、一个字符片段）。

举个例子。

你输入：「1+1=」

它搜索它「读过」的全部文本——互联网的很大一部分、几千万本书、几十亿篇论文——在所有这些文本里，跟在「1+1=」后面出现次数最多的词是什么？是「2」。

所以它输出「2」。

关键来了：它不是先「理解」了加法，然后「计算」出2。 它是发现人类在绝大多数情况下把「2」放在「1+1=」后面，于是它也把「2」放上去。这个差别是根本级的。

你可能会说：「这不一样吗？结果都是2啊。」

没错——在简单问题上，结果确实一样。但在复杂问题上，这个差别会裂开一条缝，然后越裂越宽。

如果你想真正理解这条缝有多大，有一个思想实验可以用。

二、切割大象的思想实验

想象一个场景。

有一个人，他天生失明。但他读过人类写过的关于大象的每一本书、每一篇论文、每一个Reddit帖子——从动物学教科书到非洲旅行博客，从解剖学论文到童话故事。他「知道」大象的一切。

现在，把他关在一个暗房里。房间里有一头完整的大象。递给他一把刀，告诉他：描述这头大象。

他先开始说对的东西。「大象的皮肤粗糙，有很多褶皱。」没错——他读过这个。这是模式匹配在发挥作用。

但接下来他开始出错了。「象牙应该是弯的」——但这头大象的象牙碰巧是直的。「大象的耳朵应该有三十厘米长」——但这头大象的耳朵只有二十厘米。

他没有亲眼见过大象。他不知道眼前这头具体的、活生生的大象是什么样子。他是在黑暗中拼凑。

这就是现在的AI。它读过关于世界的所有文本，但它没有感知世界的能力。它能准确描述「大象」这个抽象概念，但面对一头真实的、具体的、有很多个体差异的大象时，它会犯错——而且它既不知道自己错了，也不知道自己为什么会错。它只是继续拼凑。

请注意：拼凑本身并不是弱点。在绝大多数情况下——当你问它标准知识、常识、固定模式的问题时——拼凑的效果好得惊人。人类的很多知识本身就是模式。法律条文是模式。医学诊断的标准流程是模式。商业写作的套路是模式。

但问题在于：拼凑的能力不是均匀的。

三、锯齿状智能——它不是一个平直的等级

这是整个讨论中最关键的概念。

传统上我们衡量智能，习惯用一个单一分数——IQ测试120，高考650分，托福110。这个假设是：智能是一把平滑的尺子，你在所有任务上的能力大致均匀。

AI彻底干掉了这个假设。

在AI研究中，这被称为Jagged Intelligence——锯齿状智能。它不是一条水平的线，它是像锯齿一样，在某些点上拔得极高，在某些点上跌得很深。

举个例子。当前最强的AI模型可以在GRE语文推理部分击败99%的人类考生，在LSAT逻辑推理部分打败90%的考生。但同一个模型，在小学数学竞赛领域（比如AIME）的正确率长期在10%-20%之间徘徊。

这不是「它在某些科目上弱一点」。这是断崖。

为什么？

因为数学竞赛不是模式匹配。数学竞赛依赖的是系统性推理——从第一步到第二步到第三步，每一步都不能出错。而语言模型做推理的方式是「看起来合理的推理」，不是「逻辑上正确的推理」。在菜谱式任务上（做蛋糕、写代码、翻译），这很管用——因为流程本身是模式。但在需要精确约束、不允许中间步骤出错的任务上，锯齿就露出来了。

这对你意味着什么？

你永远不能假设一个AI在任务A上表现出色，就自动在任务B上也可靠。 它的能力分布不是连续的。你必须在你的具体场景里测试它，而不是推理它。

四、幻觉——不是bug，是和聪明同源的东西

现在我们来聊最具争议的话题：AI「编造」答案。

行业内叫hallucination——幻觉。但这个词不准确。幻觉暗示一种病态、一种异常。AI的「幻觉」不是异常。它是同一个文本补全机制的必然产出。

说回那个拼凑原理。

当你问：「周杰伦的第一张专辑是什么？」

它在训练数据里看过无数遍「周杰伦第一张专辑《Jay》2000年发行」——统计信号极强。它给出正确答案。

当你问：「张三在2024年发表的那篇关于量子计算和养猫之间关系的论文得出什么结论？」

训练数据里没有这么一篇论文。但「张三」「量子计算」「养猫」「论文结论」这些模式它都见过。它自动拼凑出一个看起来合理的回答：「张三的研究发现，量子叠加态可以类比为猫的两种行为状态……blah blah……」

这不是它「故意说谎」。说谎需要一个知道真实的自己、然后有意识地说出虚假陈述的意图主体。AI没有意图。它只是在做它唯一会做的事：把看起来合理的词接上去。

这句话AI行业反复说过：AI的「幻觉」和AI的「聪明」来自同一个地方。 它们都是pattern matching at absurd scale的产物。你无法在不破坏AI的全部核心能力的前提下「关掉幻觉」。你只有一个选择——学会和它共处。

那怎么共处？

五、March of Nines——为什么99%还不够

这回到了一个让我毛骨悚然的数据。

AI行业有一个说法叫March of Nines——向百分之九十九点九前进。AI的准确率从90%（90%时候对，10%时候错）提升到99%，再提升到99.9%，每一次迭代都意味着巨大进步。

但请注意——在安全领域，99%是致命的。

Waymo投入了上百亿美元搞自动驾驶。他们的问题是：让一辆无人驾驶车在99%的场景下不出事很容易；在99.9%的场景下不出事，烧上百亿美元也可能做到；但在99.9999%的场景下不出事？没有一个系统能做到。

人类司机出错的概率大约是每1亿英里一次致命事故。这是极高、极不公平的标准——一个人只要考个驾照就算达标，一个AI系统必须在统计上证明自己比所有人类司机加起来都安全，才能被接受。

这不只是交通领域的问题。这是所有AI应用场景的共同问题。

你用AI帮你写邮件——99%准确率很好。你用AI帮你做医疗诊断——99%准确率意味着每100个病人中有一个被误诊。你用AI帮你做法律分析——99%准确率意味着每100份合同有一份出了你不知道的错。

最危险的不是AI犯错。最危险的是你不知道它什么时候会犯错以及犯什么错。

六、四套操作方案

那我怎么办？不用AI了吗？

不是。而且你也不可能不用。2026年这个节点，不用AI就像1999年不用互联网一样——技术上可能做得到，实际操作上你已经被时代甩在后面了。

关键是——使用方式和心智模式必须改变。

我给出四套方案。它们不是理论，是可操作的策略。这些不需要你懂任何技术。

第一套：三角验证。

同一个问题，用至少两个模型交叉对比。这不只是一种安全检查，也是一种校准你的判断力的练习。不同的模型在不同的训练数据和架构上运行，它们犯的错误往往不同。当两个独立的模型给出高度一致的回答时，这个回答正确的概率不一定是100%，但比任何一个模型单独给的要高得多。

把它想象成GPS的工作原理——不是依赖一颗卫星，而是通过至少三颗卫星的交点来定位。消除的是系统性的、同源的误差。三角验证的效率在绝大多数日常场景中已经足够。

第二套：校准基准线。

在你最熟悉的领域先测试AI。你是做互联网的，那你先让它回答几个你闭着眼睛都能答对的专业问题。你能立刻判断它回答的水平——哪些准确，哪些约等于在编，哪些因为缺乏具体行业数据而只能给出泛泛的推论。

这个测试结果就是你的calibration baseline——校准基准线。在任何新领域用AI之前，先搞清楚它的基本盘。你能判断的领域越多、越丰富，你对AI输出的直觉就越准。

这跟贝叶斯更新是一个道理——你在用已知的事先概率去校准对未知领域判断的信心程度。

第三套：最小可验证单元。

永远不要一次性依赖AI输出一百页报告然后直接用。这是自杀式操作。

正确的做法是：用AI做第一版草稿，然后抽取最小可验证单元——一个数据点、一个法律条款引用、一个结论陈述——手动验证。发现正确率高于预期？可以适度放松验证频率。发现它在这个领域编造频率明显偏高？建立红灯规则——这些任务根本不用AI，或者必须每条都过。

这叫progressive trust——渐进式信任。它不是信不信任的问题，是数据驱动的方法论。

第四套：信息来源追问。

这条最直接，也最被低估。

每次AI给你一个声称，多问一句：「你的信息从哪里来的？」

如果它回答「根据公开资料」「一般而言」「研究表明」——但没有给出具体的、可追溯的来源——这个声称的可靠性自动降一级。如果它给出了具体来源（比如特定论文、特定数据集的名称），你不需要去逐字核对，但至少你知道它不是在纯粹编造。

这不是怀疑主义。这是科学的基本操作——任何声称都需要可追溯的证据链。

七、比AI更重要的东西

我想用一个开放式的问题收尾。

AI可以无限进步。March of Nines会继续往前推。下一代模型可能比现在强十倍。这些我都不怀疑。

但有一样东西不会因为AI的进步而自动进步——那就是你的判断力。

判断力不是AI能给你的。它来自你在自己领域里积累的第一手经验。来自你被事实打过脸后的修正。来自你对不确定性的容忍和对捷径的警惕。

AI可以把所有已知的知识重新排列组合成眼花缭乱的新形态。但它不能替你做判断。不能替你说——这个方向值得坚持，那个风险不值得冒，这个概率值得赌一把。

这不是技术问题。这是为人本身的问题。

AI可以无限进步，但判断力还得人来。

参考资料

Andrej Karpathy, "Intro to Large Language Models" (YouTube, 2024)
Stephen Wolfram, "What Is ChatGPT Doing...and Why Does It Work?" (2023)
Arvind Narayanan & Sayash Kapoor, AI Snake Oil (Princeton University Press, 2024)
Ethan Mollick, Co-Intelligence (Portfolio, 2024)
Waymo Safety Report (2024-2025)
"Jagged Intelligence" 概念源自多篇AI对齐研究论文中的能力边界分析