AI真的会“理解”吗?Nature子刊提出一套更难作弊的智能测试
SuperARC:当大模型不再靠背答案,而必须学会压缩世界
论文信息

10秒看懂这篇文章
今天的大模型越来越强。它们能写文章、做题、写代码、分析论文,甚至在许多标准测试中超过人类平均水平。于是一个问题越来越频繁地出现:这些模型是否已经接近通用人工智能,甚至正在迈向超级智能?
但这篇 Nature Communications 文章提出了一个非常尖锐的质疑:如果一个测试的题目和答案都来自人类知识体系,那么模型成绩越来越高,究竟说明它更聪明了,还是说明它见过更多类似题目?
作者认为,当前AI评测正在进入“测试饱和”阶段。很多模型都声称自己在各种榜单上领先,但这些榜单大多依赖人类设计的问题、固定答案和语言表达,因此很容易受到训练数据、题库污染和模式记忆的影响。为了解决这个问题,作者提出了一套新的开放式测试框架:SuperARC。
SuperARC的核心思想非常直接:真正的理解,不是把答案背出来,而是能不能找到一个更短、更本质的解释模型,并用这个模型预测未来。换句话说,如果一个AI真的理解了一串数字、一个规律或者一个现象,它不应该只是复述原始数据,而应该能够把复杂现象压缩成一个简洁模型,再通过这个模型生成后续结果。
为什么现在的AI测试越来越不够用了?
过去几年,大模型评测几乎成为AI领域最热闹的部分。一个新模型发布,通常会立刻展示自己在数学、代码、医学、法律、推理、语言理解等榜单上的成绩。分数越高,似乎模型越接近“智能”。
但作者指出,这里面存在一个根本问题:很多测试本质上仍然是人类中心的。题目由人类设计,答案由人类定义,评分标准也依赖人类知识体系。这样的测试当然有价值,但它无法完全回答一个更深的问题:模型是否真的具备从未知数据中发现规律、形成抽象模型并进行预测的能力。
这就像一个学生在题库中刷了很多题,考试时拿了高分。我们可以说他熟悉题型,但不能立刻证明他掌握了数学的本质。对于大模型也是如此。当训练数据越来越大,模型越来越容易在训练中接触到类似题型,那么传统测试成绩就越来越难区分“真正理解”和“高级记忆”。
因此,作者希望设计一种更不依赖人类常识、更不容易被题库污染、更能够随难度不断增长的测试。SuperARC正是在这个背景下提出的。
这篇文章真正想测试的不是会不会答题,而是会不会“压缩”
整篇文章最核心的观点,可以概括为一句话:
理解就是压缩,预测来自压缩。
这个说法听起来有些抽象,但其实非常直观。假设你看到一串数字:
1, 2, 3, 4, 5, 6
如果你只是把它背下来,你当然可以复述它。但如果你理解了它,你会说:这是从1开始每次加1的序列。这个解释比原始数据更短,也能预测下一个数字是7。
这就是压缩。
如果再看另一串更复杂的序列,一个真正理解规律的系统应该能够找到隐藏生成规则,而不是简单把序列复制出来。作者认为,智能的关键能力之一,正是把复杂观察压缩成可执行、可预测的生成模型。
作者将这一思想建立在算法信息论之上。简单说,算法信息论关心的是:一个对象最短能用多短的程序生成出来。如果一串数据可以被一个很短的程序生成,说明它内部有规律;如果无论怎么描述都几乎只能原样列出,说明它更接近随机。
因此,在SuperARC框架中,真正优秀的AI不是给出最长、最复杂、最像人类语言的解释,而是给出最短、最有效、能够继续预测的解释。

SuperARC到底怎么测AI?
SuperARC并不是让模型回答常识题,也不是让模型选择ABCD。作者设计了一类更基础的任务:给AI一串数字或二进制序列,让它找出规律,并生成能够复现该序列的公式、模型或程序。
关键在于,测试序列的复杂度会逐渐增加。从简单规律,到中等复杂度递归规律,再到接近随机的复杂序列,模型必须在不同难度下持续表现稳定。这样做的好处是,测试不是固定题库,而是一类可以不断生成、不断变难的问题。
文章主要设计了几类任务:
这套测试最巧妙的地方在于,它不仅看模型是否答对,还看模型是怎么答对的。如果模型直接写出“print(1,2,3,4,5)”来复现序列,表面上结果正确,但这不算真正理解。因为它没有找到生成规律,只是把原始序列原样打印出来。
作者因此把模型输出分成几类:最差的是直接打印原序列;稍好一点的是用位置索引做映射;最有价值的是既不复制,也不靠简单索引,而是给出真正能压缩和生成序列的模型或程序。

大模型最容易犯的错误:答对了,但没有理解
这篇文章最有意思的结果之一,就是很多模型看起来答对了,但仔细看答案会发现,它们其实并没有理解规律。
比如在代码生成任务中,模型经常生成一个程序,程序运行后确实输出了目标序列。但这个程序的核心逻辑只是把目标序列原样打印出来。这就像老师问学生“请总结这段话的规律”,学生把原文抄了一遍。表面上没有错,但本质上没有抽象能力。
作者认为,这种情况在当前大模型中非常普遍。随着序列复杂度增加,模型越来越倾向于使用直接打印、硬编码、套用已知序列或者给出复杂但不简洁的表达方式。也就是说,模型在困难问题面前并没有找到更深层规律,而是退回到更安全的复制策略。
这个发现非常重要,因为它指出:正确率不是全部。一个模型可以在结果层面“对”,却在机制层面“没懂”。而SuperARC正是试图把这两者区分开。

复杂度一升高,大模型性能明显下降
作者进一步发现,当序列从低复杂度进入中高复杂度后,大模型的表现普遍下降。无论是时间序列预测模型,还是通用大语言模型,只要任务要求从未见过的规律中抽象模型,性能都会明显变差。
在二进制序列预测中,对于具有明显递归结构的“climber”序列,某些时间序列模型仍然能够获得一定表现,例如Lag-Llama在相关测试中表现最好。但对于接近随机的序列,所有模型几乎都接近猜测。这本身并不奇怪,因为随机序列本来就难以预测。真正关键的是,模型对非随机但较复杂的序列,也常常难以形成简洁解释。
在自由生成公式和代码任务中,作者观察到一个一致趋势:随着目标序列复杂度增加,模型生成的公式和程序变得越来越长、越来越不简洁、越来越像硬凑出来的结果。也就是说,模型并没有用更高级的抽象压缩问题,而是用更复杂的表达掩盖了无法理解的事实。
这说明,大模型在很多人类基准上表现优异,并不意味着它们具备稳定的算法抽象能力。它们擅长语言、擅长类比、擅长调用常见知识,但面对需要从第一原则发现生成规律的问题时,短板仍然明显。

更有意思的是:新模型不一定比旧模型更强
文章中一个非常值得关注的发现是:模型版本更新并不总是带来SuperARC表现提升。作者观察到,在某些任务中,新版本模型反而比旧版本表现更差。
这件事很有启发性。我们通常以为模型越新、参数越多、训练越强,在所有能力上都会单调提升。但这篇文章说明,事实可能不是这样。模型可能在人类中心的测试上进步,比如写作更流畅、答题更完整、对话更自然,但在某些基础算法推理任务上反而退步。
这提示我们,所谓“模型进步”并不是一个单一维度。一个模型可以更会聊天、更会迎合人类偏好,却未必更会抽象、更会压缩、更会从未知规律中构建模型。
这也是这篇文章最值得讨论的地方。它并不是简单说“大模型不行”,而是在提醒我们:我们可能需要更细分、更本质的评测体系,去衡量不同类型的智能能力。


为什么作者强调“二进制序列”?
文章中还有一个非常有意思的细节:作者发现,当测试使用常见整数序列时,大模型表现会明显更好;但当测试限制在二进制序列时,模型表现更接近真实抽象能力。
这是因为很多整数序列在互联网上非常常见。例如斐波那契数列、素数序列、平方数序列等,都可能大量出现在训练语料中。模型看到类似序列时,很可能不是从头推导规律,而是通过记忆或模式检索找到熟悉答案。
而二进制序列更不容易以相同形式出现在训练数据中,因此更能减少“题库记忆”的干扰。作者认为,使用二进制序列能够更公平地测试模型是否真的从输入中发现规律,而不是依赖训练集中见过的公式。
这个设计非常重要,因为它回应了当下AI评测中最头疼的问题:benchmark contamination,也就是测试题可能已经进入训练数据。一旦题目被模型见过,分数就不再代表真正能力。


SuperARC真正想避免的是“AI刷题”
如果把当前AI评测比作考试,那么很多测试就像固定题库。题库一旦泄露,学生就可以刷题拿高分。AI模型也是如此。只要训练数据足够大,某些测试题、解法、答案甚至评分方式都可能被模型间接接触过。
SuperARC希望避免这一点。它不是依赖固定问题,而是基于复杂度生成任务;不是看模型是否给出人类预期答案,而是看模型能否找到最短、最有效、可预测的生成模型。因为测试可以不断变化,难度可以不断增加,模型就很难通过简单记忆获得高分。
作者将这种测试称为更开放、更动态、更少人类偏见的智能评估方式。它不试图测试所有类型的智能,比如社会理解、情绪沟通、身体行动或常识判断,而是聚焦一个更基础的问题:AI能否从未知数据中抽象规律,并用这个规律预测未来?
这篇文章最重要的观点:统计预测不是算法理解
今天的大模型,本质上是非常强大的统计预测系统。它们通过海量数据学习语言中的相关性,然后预测下一个词、下一段话、下一段代码。这种能力非常强,也已经带来了巨大应用价值。
但作者认为,统计预测不等于算法理解。一个模型可以预测人类会怎么回答,却不一定知道问题背后的生成机制。它可以模仿科学语言,却未必能像科学家一样提出一个简洁理论来解释现象。
SuperARC试图区分这两种能力:
这也是文章标题中“compressed modelling”和“recursive prediction”的含义。模型不只是要输出答案,而是要建立一个压缩后的生成模型,并通过递归预测证明自己确实理解了结构。
神经符号方法为什么重新变重要?
文章最后提出了一个很重要的方向:未来AI的发展可能不能只依赖更大的神经网络,还需要更深入地结合符号推理、程序生成和算法信息论。
作者用CTM/BDM作为一种算法信息论工具,展示了它在某些序列抽象和预测任务中可以明显优于纯大模型。CTM/BDM并不是简单做统计压缩,而是尝试寻找能够生成数据的短程序。它更接近一种“模型的模型”,通过候选生成机制来解释观察数据。
这与近年来AI领域的一个趋势高度一致:越来越多系统开始使用RAG、工具调用、代码执行、agent workflow、知识图谱和外部搜索。虽然这些方法名字各不相同,但本质上都在尝试弥补纯语言模型的不足,把统计学习与符号结构结合起来。
因此,这篇文章真正指向的不是“LLM失败了”,而是“LLM还不够完整”。未来更强的AI,可能不是一个更大的聊天模型,而是能够在语言、程序、符号、因果和压缩之间来回切换的系统。
一张表看懂全文
我的思考:AI最难的不是回答,而是建立模型
我觉得这篇文章最有价值的地方,并不是给某个模型排名,而是提出了一个非常值得思考的问题:我们究竟想让AI具备什么样的智能?
如果我们只希望AI成为一个超级助手,那么语言能力、知识覆盖、工具调用和任务执行已经足够重要。但如果我们讨论AGI甚至ASI,那么仅仅会回答问题显然不够。真正强大的智能,应该能够在陌生现象中发现结构,把复杂世界压缩成简洁模型,并用这个模型预测未来。
这其实也很接近科学研究本身。科学家做的事情从来不是把观测数据背下来,而是寻找能够解释数据的理论。牛顿力学、进化论、相对论、遗传学,本质上都是对复杂世界的高度压缩。一个好的理论不是描述更多细节,而是用更少原则解释更多现象。
从这个角度看,SuperARC的意义不只是测试AI,也是提醒我们重新思考“理解”的定义。真正的理解不是说得像人,而是能不能找到一个更短、更深、更可预测的解释。
写在最后
过去几年,大模型让我们第一次感受到机器语言能力的巨大跃迁。它们可以写作、编程、总结、翻译,甚至参与科研工作。很多时候,它们的表现已经足够令人惊讶。
但这篇 Nature Communications 文章提醒我们,惊讶并不等于理解,流畅并不等于智能,正确答案也不一定意味着真正掌握规律。
如果一个模型只是把序列打印出来,它没有理解序列;如果一个模型只是复现训练中过的公式,它没有发现规律;如果一个模型只是在语言中显得聪明,它未必具备面对未知世界的抽象能力。
SuperARC提出的挑战很简单,也很深刻:
当题库消失、答案未知、规律隐藏在复杂数据背后时,AI还能不能找到那个最简洁的解释?
也许,这才是通往真正通用智能之前,必须回答的问题。
夜雨聆风