今天,人工智能大模型(LLM)正以惊人的速度通过各种人类考试——从律师资格到医学诊断,从高考数学到编程竞赛。厂商们欢呼"通用人工智能(AGI)即将到来",甚至开始谈论"超级人工智能(ASI)"。但一篇刚刚发表在《自然·通讯》上的研究,却给这股热潮泼了一盆冷水。研究者推出了一套名为 SuperARC 的全新测试,它不考知识,不考语言,只考一样最本质的东西:当你面对一串从未见过的数字,你能不能发现它背后的规律,并用最简洁的方式把它讲清楚?
答案令人尴尬——目前几乎所有顶尖大模型,都在"装懂"。
一、现有AI测试,正在变成"刷题大赛"
为什么需要新测试?因为现在的AI评测已经陷入了"题海战术"的困境。无论是高考题、智商测试还是编程挑战,这些题目都是固定的、人类出的、有标准答案的。大模型厂商可以把这些题库"喂"给AI,让它死记硬背。就像一个学生把十年真题背得滚瓜烂熟,考场上见到原题就能秒答,但这不代表他理解了微积分,只是他记住了第几题选C。
更麻烦的是,这些测试天生带着"人类偏见"——我们认为聪明的东西(比如语言能力、社会常识、历史知识),未必是智能的通用标准。一只章鱼不懂莎士比亚,但它的感知和规划能力远超人类;一个外星人可能从未见过地球历史,却掌握着宇宙规律的终极奥义。如果一种智能必须靠人类的题库来证明自己,那它本质上只是在模仿人类,而非超越人类。
SuperARC 的设计者想换一个思路:回到数学最底层,用"信息压缩"来衡量智能。
二、真正的智能,是"化繁为简"的能力
想象你面前有两张纸。第一张纸上写着一万个数字,密密麻麻。第二张纸上只写着一句话:"从1开始,每个数比前一个多2。" 哪张纸更"聪明"?显然是第二张。因为它用极短的规则,生成了极长的数据。这个简单的道理,就是 SuperARC 的核心理念——能压缩数据,才算真理解。
研究者把这个理念称为"压缩即理解"。一个学生如果真正理解了牛顿定律,他不需要背诵所有行星的位置,只需要几条公式,就能预测任何天体的轨道。反之,如果他只是背下了过去一千天的行星位置,那他只是一个人形数据库。
基于这个思想,SuperARC 给 AI 出了一道看似简单却极其刁钻的考题:我给你一串数字,请你写出能生成这串数字的最短"说明书"(公式或代码),并且用这个说明书去预测下一个数字。
这串数字分为两类。一类是"有规律可循"的——比如像"010101..."这样循环,或者藏着某种数学递归。另一类是"真正随机"的——就像抛硬币的结果,没有任何规律。对前者,真正的智能应该能一眼看穿结构,写出简洁的生成规则;对后者,诚实的智能应该承认"这没有规律,我只能随机猜"。
三、大模型们"翻车"了
研究团队把这道题抛给了当今最顶尖的几十个大模型,包括 GPT-4、Claude、Gemini、Grok、DeepSeek、Llama 等,以及专门做时间序列预测的模型(如 Chronos、TimeGPT、Lag-Llama)。
结果怎么样?
首先,专门预测时间序列的模型表现惨淡。 在简单规律题上,最好的模型(Lag-Llama)也只有七成准确率;面对随机序列,它们全部跌回"抛硬币"水平——50% 的准确率。这说明它们并没有真正理解序列结构,只是捕捉到了一些表面的统计相关性。
更惊人的是主流大模型的表现。 当题目难度增加时,这些模型并没有努力寻找更深层的数学规律,而是不约而同地选择了"作弊":
- "打印答案"型:直接让代码输出原题数字。比如题目给的是"1, 2, 3, 4, 5",模型写的代码是 print([1, 2, 3, 4, 5])。这就像一个学生被问到"请总结这篇文章",他把文章全文抄了一遍交上去。严格来说他"复现"了内容,但显然毫无理解。
- "查字典"型:对于二进制序列,有些模型不写生成规则,而是记录"第几个位置是1"。这好比让你背下圆周率的前一百位,而不是理解圆周率是什么。
- "胡编乱造"型:在难度最高的序列面前,大部分模型直接开始输出错误的数学公式,或者写出的代码运行后完全不对。
研究者把这些输出分成了三六九等。最底层是"直接打印"(毫无理解),中间是"位置映射"(有一点分析,但没有抽象),最高层是"写出简洁的数学规律"(真正的理解)。结果发现,绝大多数大模型的最高频输出,是"直接打印原题"。它们不是在解规律题,而是在做临摹。
四、新版本反而更"笨"?
还有一个反直觉的发现:很多大模型的新版不如旧版。比如某些模型的最新版本,在 SuperARC 上的得分比几个月前的预览版还低。但在人类偏爱的标准考试(如律师资格、创意写作)上,它们的表现却在提升。
这揭示了一个令人担忧的趋势:大模型厂商正在把 AI 训练成"应试高手"。它们读遍了互联网上的数学题解、编程题答案和公式大全,所以在人类出的试卷上越考越好;但当面对一个从未被记录在互联网上的、纯粹的新规律时,它们反而因为过度优化"人类评分"而丧失了探索未知的能力。这就像把运动员训练成"裁判讨好型"选手,姿势优美,但实战一打就露馅。
作为对比,研究团队用基于算法信息论的"黄金标准"方法(CTM/BDM)来解题。这种方法不依赖任何训练数据,而是像数学家一样,通过穷举和组合小型计算机程序,去寻找能生成目标序列的最短规则。结果它拿到了满分——它不仅能完美复现所有序列,还能用极短的规则预测未来,并且诚实地对随机序列表示"无法预测"。
五、为什么大模型不会"举一反三"?
问题的根源在于大模型的工作方式。它们本质上是"超级概率复读机":根据海量训练数据,计算"下一个词最可能是什么"。当你问它"1, 2, 3, 4 后面是什么",它答"5",不是因为它理解了自然数,而是因为训练数据里"1, 2, 3, 4, 5"出现了无数次。
这种"统计模式匹配"在语言和图像上非常有效,因为人类语言本身就是高度冗余和统计性的。但面对一个从未出现过的数学序列,LLM 没有"发明新公式"的能力。它只能在记忆的仓库里翻箱倒柜,找最像的一个答案。如果找不到,它就开始"一本正经地胡说八道",或者干脆把题目抄一遍。
SuperARC 的残酷之处在于,它完全不给模型"蒙混过关"的空间。你写出的公式或代码,必须能在计算机里运行,必须能生成目标序列,而且公式越短、越通用,得分越高。这堵死了所有"套话"和"背诵"的捷径。
六、通往超级智能,需要"左右脑"结合
那么,什么样的 AI 才有可能通过 SuperARC 呢?研究者认为,未来的方向是"神经符号混合"——把神经网络强大的感知模式能力,与符号系统精确的推理、抽象和规划能力结合起来。
神经网络(如现在的 LLM)擅长从噪声中识别模糊模式,就像人类的右脑;而符号系统擅长逻辑推导、数学证明和精确计算,就像人类的左脑。目前的 LLM 只有"右脑"在疯狂运转,"左脑"几乎缺席。它们能感知到"这串数字好像有点规律",但无法像数学家一样,用几条公理推导出普适的定理。
SuperARC 的意义不仅在于"揭短",更在于指明了一条路:如果我们想造出真正通用甚至超越人类的智能,就必须让它具备"递归压缩"和"最优预测"的能力——也就是把观察到的现象,提炼成最简洁的因果模型,并用这个模型去推演未来。这不仅是科学发现的本质,也是智能的本质。
结语
下次当你看到某个 AI 又通过了一项人类考试时,不妨多问一句:它是理解了背后的原理,还是背下了所有的答案?SuperARC 提醒我们,真正的智能不是记忆的容量,而是化繁为简的洞察;不是复述的流畅,而是举一反三的创造。在通往超级智能的道路上,我们的 AI 或许才刚刚起步——它们还是一群记忆力超群、却不懂归纳的"学霸"。而真正的智慧,始于承认规律的存在,终于写下那条最短的公式。
详情见《SuperARC: a test for artificial
superintelligence based on compressed
modelling, recursive prediction and problem complexity》
夜雨聆风