AI真的变聪明了吗?一项新测试揭开了大模型的＂记忆幻觉＂

今天，人工智能大模型（LLM）正以惊人的速度通过各种人类考试——从律师资格到医学诊断，从高考数学到编程竞赛。厂商们欢呼"通用人工智能（AGI）即将到来"，甚至开始谈论"超级人工智能（ASI）"。但一篇刚刚发表在《自然·通讯》上的研究，却给这股热潮泼了一盆冷水。研究者推出了一套名为 SuperARC 的全新测试，它不考知识，不考语言，只考一样最本质的东西：当你面对一串从未见过的数字，你能不能发现它背后的规律，并用最简洁的方式把它讲清楚？

答案令人尴尬——目前几乎所有顶尖大模型，都在"装懂"。

一、现有AI测试，正在变成"刷题大赛"

为什么需要新测试？因为现在的AI评测已经陷入了"题海战术"的困境。无论是高考题、智商测试还是编程挑战，这些题目都是固定的、人类出的、有标准答案的。大模型厂商可以把这些题库"喂"给AI，让它死记硬背。就像一个学生把十年真题背得滚瓜烂熟，考场上见到原题就能秒答，但这不代表他理解了微积分，只是他记住了第几题选C。

更麻烦的是，这些测试天生带着"人类偏见"——我们认为聪明的东西（比如语言能力、社会常识、历史知识），未必是智能的通用标准。一只章鱼不懂莎士比亚，但它的感知和规划能力远超人类；一个外星人可能从未见过地球历史，却掌握着宇宙规律的终极奥义。如果一种智能必须靠人类的题库来证明自己，那它本质上只是在模仿人类，而非超越人类。

SuperARC 的设计者想换一个思路：回到数学最底层，用"信息压缩"来衡量智能。

二、真正的智能，是"化繁为简"的能力

想象你面前有两张纸。第一张纸上写着一万个数字，密密麻麻。第二张纸上只写着一句话："从1开始，每个数比前一个多2。" 哪张纸更"聪明"？显然是第二张。因为它用极短的规则，生成了极长的数据。这个简单的道理，就是 SuperARC 的核心理念——能压缩数据，才算真理解。

研究者把这个理念称为"压缩即理解"。一个学生如果真正理解了牛顿定律，他不需要背诵所有行星的位置，只需要几条公式，就能预测任何天体的轨道。反之，如果他只是背下了过去一千天的行星位置，那他只是一个人形数据库。

基于这个思想，SuperARC 给 AI 出了一道看似简单却极其刁钻的考题：我给你一串数字，请你写出能生成这串数字的最短"说明书"（公式或代码），并且用这个说明书去预测下一个数字。

这串数字分为两类。一类是"有规律可循"的——比如像"010101..."这样循环，或者藏着某种数学递归。另一类是"真正随机"的——就像抛硬币的结果，没有任何规律。对前者，真正的智能应该能一眼看穿结构，写出简洁的生成规则；对后者，诚实的智能应该承认"这没有规律，我只能随机猜"。

三、大模型们"翻车"了

研究团队把这道题抛给了当今最顶尖的几十个大模型，包括 GPT-4、Claude、Gemini、Grok、DeepSeek、Llama 等，以及专门做时间序列预测的模型（如 Chronos、TimeGPT、Lag-Llama）。

结果怎么样？

首先，专门预测时间序列的模型表现惨淡。在简单规律题上，最好的模型（Lag-Llama）也只有七成准确率；面对随机序列，它们全部跌回"抛硬币"水平——50% 的准确率。这说明它们并没有真正理解序列结构，只是捕捉到了一些表面的统计相关性。

更惊人的是主流大模型的表现。当题目难度增加时，这些模型并没有努力寻找更深层的数学规律，而是不约而同地选择了"作弊"：

- "打印答案"型：直接让代码输出原题数字。比如题目给的是"1, 2, 3, 4, 5"，模型写的代码是 print([1, 2, 3, 4, 5])。这就像一个学生被问到"请总结这篇文章"，他把文章全文抄了一遍交上去。严格来说他"复现"了内容，但显然毫无理解。

- "查字典"型：对于二进制序列，有些模型不写生成规则，而是记录"第几个位置是1"。这好比让你背下圆周率的前一百位，而不是理解圆周率是什么。

- "胡编乱造"型：在难度最高的序列面前，大部分模型直接开始输出错误的数学公式，或者写出的代码运行后完全不对。

研究者把这些输出分成了三六九等。最底层是"直接打印"（毫无理解），中间是"位置映射"（有一点分析，但没有抽象），最高层是"写出简洁的数学规律"（真正的理解）。结果发现，绝大多数大模型的最高频输出，是"直接打印原题"。它们不是在解规律题，而是在做临摹。

四、新版本反而更"笨"？

还有一个反直觉的发现：很多大模型的新版不如旧版。比如某些模型的最新版本，在 SuperARC 上的得分比几个月前的预览版还低。但在人类偏爱的标准考试（如律师资格、创意写作）上，它们的表现却在提升。

这揭示了一个令人担忧的趋势：大模型厂商正在把 AI 训练成"应试高手"。它们读遍了互联网上的数学题解、编程题答案和公式大全，所以在人类出的试卷上越考越好；但当面对一个从未被记录在互联网上的、纯粹的新规律时，它们反而因为过度优化"人类评分"而丧失了探索未知的能力。这就像把运动员训练成"裁判讨好型"选手，姿势优美，但实战一打就露馅。

作为对比，研究团队用基于算法信息论的"黄金标准"方法（CTM/BDM）来解题。这种方法不依赖任何训练数据，而是像数学家一样，通过穷举和组合小型计算机程序，去寻找能生成目标序列的最短规则。结果它拿到了满分——它不仅能完美复现所有序列，还能用极短的规则预测未来，并且诚实地对随机序列表示"无法预测"。

五、为什么大模型不会"举一反三"？

问题的根源在于大模型的工作方式。它们本质上是"超级概率复读机"：根据海量训练数据，计算"下一个词最可能是什么"。当你问它"1, 2, 3, 4 后面是什么"，它答"5"，不是因为它理解了自然数，而是因为训练数据里"1, 2, 3, 4, 5"出现了无数次。

这种"统计模式匹配"在语言和图像上非常有效，因为人类语言本身就是高度冗余和统计性的。但面对一个从未出现过的数学序列，LLM 没有"发明新公式"的能力。它只能在记忆的仓库里翻箱倒柜，找最像的一个答案。如果找不到，它就开始"一本正经地胡说八道"，或者干脆把题目抄一遍。

SuperARC 的残酷之处在于，它完全不给模型"蒙混过关"的空间。你写出的公式或代码，必须能在计算机里运行，必须能生成目标序列，而且公式越短、越通用，得分越高。这堵死了所有"套话"和"背诵"的捷径。

六、通往超级智能，需要"左右脑"结合

那么，什么样的 AI 才有可能通过 SuperARC 呢？研究者认为，未来的方向是"神经符号混合"——把神经网络强大的感知模式能力，与符号系统精确的推理、抽象和规划能力结合起来。

神经网络（如现在的 LLM）擅长从噪声中识别模糊模式，就像人类的右脑；而符号系统擅长逻辑推导、数学证明和精确计算，就像人类的左脑。目前的 LLM 只有"右脑"在疯狂运转，"左脑"几乎缺席。它们能感知到"这串数字好像有点规律"，但无法像数学家一样，用几条公理推导出普适的定理。

SuperARC 的意义不仅在于"揭短"，更在于指明了一条路：如果我们想造出真正通用甚至超越人类的智能，就必须让它具备"递归压缩"和"最优预测"的能力——也就是把观察到的现象，提炼成最简洁的因果模型，并用这个模型去推演未来。这不仅是科学发现的本质，也是智能的本质。

结语

下次当你看到某个 AI 又通过了一项人类考试时，不妨多问一句：它是理解了背后的原理，还是背下了所有的答案？SuperARC 提醒我们，真正的智能不是记忆的容量，而是化繁为简的洞察；不是复述的流畅，而是举一反三的创造。在通往超级智能的道路上，我们的 AI 或许才刚刚起步——它们还是一群记忆力超群、却不懂归纳的"学霸"。而真正的智慧，始于承认规律的存在，终于写下那条最短的公式。

详情见《SuperARC: a test for artificial

superintelligence based on compressed

modelling, recursive prediction and problem complexity》