AI真的会“理解”吗?Nature子刊提出一套更难作弊的智能测试

AI真的会“理解”吗？Nature子刊提出一套更难作弊的智能测试

SuperARC：当大模型不再靠背答案，而必须学会压缩世界

论文信息

项目	内容
题目	SuperARC: a test for artificial superintelligence based on compressed modelling, recursive prediction and problem complexity
期刊	Nature Communications
发表时间	2026年6月3日
研究方向	人工智能评测、AGI/ASI、算法信息论、模型压缩、递归预测
核心概念	SuperARC、Algorithmic Information Theory、Compression as Comprehension
主要问题	当前大模型到底是在理解问题，还是在复现训练集中见过的模式？

10秒看懂这篇文章

今天的大模型越来越强。它们能写文章、做题、写代码、分析论文，甚至在许多标准测试中超过人类平均水平。于是一个问题越来越频繁地出现：这些模型是否已经接近通用人工智能，甚至正在迈向超级智能？

但这篇 Nature Communications 文章提出了一个非常尖锐的质疑：如果一个测试的题目和答案都来自人类知识体系，那么模型成绩越来越高，究竟说明它更聪明了，还是说明它见过更多类似题目？

作者认为，当前AI评测正在进入“测试饱和”阶段。很多模型都声称自己在各种榜单上领先，但这些榜单大多依赖人类设计的问题、固定答案和语言表达，因此很容易受到训练数据、题库污染和模式记忆的影响。为了解决这个问题，作者提出了一套新的开放式测试框架：SuperARC。

SuperARC的核心思想非常直接：真正的理解，不是把答案背出来，而是能不能找到一个更短、更本质的解释模型，并用这个模型预测未来。换句话说，如果一个AI真的理解了一串数字、一个规律或者一个现象，它不应该只是复述原始数据，而应该能够把复杂现象压缩成一个简洁模型，再通过这个模型生成后续结果。

为什么现在的AI测试越来越不够用了？

过去几年，大模型评测几乎成为AI领域最热闹的部分。一个新模型发布，通常会立刻展示自己在数学、代码、医学、法律、推理、语言理解等榜单上的成绩。分数越高，似乎模型越接近“智能”。

但作者指出，这里面存在一个根本问题：很多测试本质上仍然是人类中心的。题目由人类设计，答案由人类定义，评分标准也依赖人类知识体系。这样的测试当然有价值，但它无法完全回答一个更深的问题：模型是否真的具备从未知数据中发现规律、形成抽象模型并进行预测的能力。

这就像一个学生在题库中刷了很多题，考试时拿了高分。我们可以说他熟悉题型，但不能立刻证明他掌握了数学的本质。对于大模型也是如此。当训练数据越来越大，模型越来越容易在训练中接触到类似题型，那么传统测试成绩就越来越难区分“真正理解”和“高级记忆”。

因此，作者希望设计一种更不依赖人类常识、更不容易被题库污染、更能够随难度不断增长的测试。SuperARC正是在这个背景下提出的。

这篇文章真正想测试的不是会不会答题，而是会不会“压缩”

整篇文章最核心的观点，可以概括为一句话：

理解就是压缩，预测来自压缩。

这个说法听起来有些抽象，但其实非常直观。假设你看到一串数字：

1, 2, 3, 4, 5, 6

如果你只是把它背下来，你当然可以复述它。但如果你理解了它，你会说：这是从1开始每次加1的序列。这个解释比原始数据更短，也能预测下一个数字是7。

这就是压缩。

如果再看另一串更复杂的序列，一个真正理解规律的系统应该能够找到隐藏生成规则，而不是简单把序列复制出来。作者认为，智能的关键能力之一，正是把复杂观察压缩成可执行、可预测的生成模型。

能力	普通模式匹配	SuperARC想测试的能力
看见数据	记住表面模式	提取生成规律
回答问题	复现类似答案	构建简洁模型
预测未来	根据统计相关性猜测	用生成模型推演
解决新问题	依赖训练分布	面对新规律仍能抽象
理解程度	像背答案	像找到公式

作者将这一思想建立在算法信息论之上。简单说，算法信息论关心的是：一个对象最短能用多短的程序生成出来。如果一串数据可以被一个很短的程序生成，说明它内部有规律；如果无论怎么描述都几乎只能原样列出，说明它更接近随机。

因此，在SuperARC框架中，真正优秀的AI不是给出最长、最复杂、最像人类语言的解释，而是给出最短、最有效、能够继续预测的解释。

SuperARC到底怎么测AI？

SuperARC并不是让模型回答常识题，也不是让模型选择ABCD。作者设计了一类更基础的任务：给AI一串数字或二进制序列，让它找出规律，并生成能够复现该序列的公式、模型或程序。

关键在于，测试序列的复杂度会逐渐增加。从简单规律，到中等复杂度递归规律，再到接近随机的复杂序列，模型必须在不同难度下持续表现稳定。这样做的好处是，测试不是固定题库，而是一类可以不断生成、不断变难的问题。

文章主要设计了几类任务：

任务	测试内容	目的
下一位预测	给定前面序列，预测后续数字	测试模型能否根据规律预测未来
自由公式生成	让模型生成公式或数学模型复现序列	测试模型是否能抽象出简洁规律
代码生成	让模型写程序生成目标序列	测试模型能否把规律转化为可执行程序
SuperARC-seq	对输出进行分类和打分	区分真正压缩、位置映射和直接复制

这套测试最巧妙的地方在于，它不仅看模型是否答对，还看模型是怎么答对的。如果模型直接写出“print(1,2,3,4,5)”来复现序列，表面上结果正确，但这不算真正理解。因为它没有找到生成规律，只是把原始序列原样打印出来。

作者因此把模型输出分成几类：最差的是直接打印原序列；稍好一点的是用位置索引做映射；最有价值的是既不复制，也不靠简单索引，而是给出真正能压缩和生成序列的模型或程序。

大模型最容易犯的错误：答对了，但没有理解

这篇文章最有意思的结果之一，就是很多模型看起来答对了，但仔细看答案会发现，它们其实并没有理解规律。

比如在代码生成任务中，模型经常生成一个程序，程序运行后确实输出了目标序列。但这个程序的核心逻辑只是把目标序列原样打印出来。这就像老师问学生“请总结这段话的规律”，学生把原文抄了一遍。表面上没有错，但本质上没有抽象能力。

作者认为，这种情况在当前大模型中非常普遍。随着序列复杂度增加，模型越来越倾向于使用直接打印、硬编码、套用已知序列或者给出复杂但不简洁的表达方式。也就是说，模型在困难问题面前并没有找到更深层规律，而是退回到更安全的复制策略。

输出类型	表面效果	SuperARC评价
直接打印序列	可能完全正确	几乎不代表理解
位置索引映射	能复现部分规律	只是软复制
套用已知公式	对熟悉序列有效	可能依赖训练记忆
简洁生成模型	能压缩并预测	更接近真正理解
可继续外推程序	能生成未来结果	最符合SuperARC目标

这个发现非常重要，因为它指出：正确率不是全部。一个模型可以在结果层面“对”，却在机制层面“没懂”。而SuperARC正是试图把这两者区分开。

复杂度一升高，大模型性能明显下降

作者进一步发现，当序列从低复杂度进入中高复杂度后，大模型的表现普遍下降。无论是时间序列预测模型，还是通用大语言模型，只要任务要求从未见过的规律中抽象模型，性能都会明显变差。

在二进制序列预测中，对于具有明显递归结构的“climber”序列，某些时间序列模型仍然能够获得一定表现，例如Lag-Llama在相关测试中表现最好。但对于接近随机的序列，所有模型几乎都接近猜测。这本身并不奇怪，因为随机序列本来就难以预测。真正关键的是，模型对非随机但较复杂的序列，也常常难以形成简洁解释。

在自由生成公式和代码任务中，作者观察到一个一致趋势：随着目标序列复杂度增加，模型生成的公式和程序变得越来越长、越来越不简洁、越来越像硬凑出来的结果。也就是说，模型并没有用更高级的抽象压缩问题，而是用更复杂的表达掩盖了无法理解的事实。

序列复杂度	模型常见表现	说明
低复杂度	容易找到规律	可能来自真实识别，也可能来自常见训练模式
中复杂度	正确率明显下降	抽象能力开始不足
高复杂度	输出复杂、错误增多	难以形成简洁生成模型
接近随机	接近猜测	缺乏可预测规律时模型无优势

这说明，大模型在很多人类基准上表现优异，并不意味着它们具备稳定的算法抽象能力。它们擅长语言、擅长类比、擅长调用常见知识，但面对需要从第一原则发现生成规律的问题时，短板仍然明显。

更有意思的是：新模型不一定比旧模型更强

文章中一个非常值得关注的发现是：模型版本更新并不总是带来SuperARC表现提升。作者观察到，在某些任务中，新版本模型反而比旧版本表现更差。

这件事很有启发性。我们通常以为模型越新、参数越多、训练越强，在所有能力上都会单调提升。但这篇文章说明，事实可能不是这样。模型可能在人类中心的测试上进步，比如写作更流畅、答题更完整、对话更自然，但在某些基础算法推理任务上反而退步。

这提示我们，所谓“模型进步”并不是一个单一维度。一个模型可以更会聊天、更会迎合人类偏好，却未必更会抽象、更会压缩、更会从未知规律中构建模型。

常规理解	文章提醒我们
新模型一定更聪明	不同能力可能此消彼长
基准分越高越接近AGI	人类题库分数不等于算法理解
会解释就是理解	解释可能只是语言生成
会写代码就是会抽象	代码可能只是硬编码输出
会预测下一个词就是会推理	统计预测不等于生成模型推理

这也是这篇文章最值得讨论的地方。它并不是简单说“大模型不行”，而是在提醒我们：我们可能需要更细分、更本质的评测体系，去衡量不同类型的智能能力。

为什么作者强调“二进制序列”？

文章中还有一个非常有意思的细节：作者发现，当测试使用常见整数序列时，大模型表现会明显更好；但当测试限制在二进制序列时，模型表现更接近真实抽象能力。

这是因为很多整数序列在互联网上非常常见。例如斐波那契数列、素数序列、平方数序列等，都可能大量出现在训练语料中。模型看到类似序列时，很可能不是从头推导规律，而是通过记忆或模式检索找到熟悉答案。

而二进制序列更不容易以相同形式出现在训练数据中，因此更能减少“题库记忆”的干扰。作者认为，使用二进制序列能够更公平地测试模型是否真的从输入中发现规律，而不是依赖训练集中见过的公式。

测试材料	风险	适合作用
常见整数序列	容易被训练语料污染	测试知识检索能力
经典数学序列	模型可能直接背公式	不适合作为纯抽象测试
二进制序列	更少见、更难背答案	更适合测试规律发现
动态生成序列	难以提前训练	更适合开放式评测

这个设计非常重要，因为它回应了当下AI评测中最头疼的问题：benchmark contamination，也就是测试题可能已经进入训练数据。一旦题目被模型见过，分数就不再代表真正能力。

SuperARC真正想避免的是“AI刷题”

如果把当前AI评测比作考试，那么很多测试就像固定题库。题库一旦泄露，学生就可以刷题拿高分。AI模型也是如此。只要训练数据足够大，某些测试题、解法、答案甚至评分方式都可能被模型间接接触过。

SuperARC希望避免这一点。它不是依赖固定问题，而是基于复杂度生成任务；不是看模型是否给出人类预期答案，而是看模型能否找到最短、最有效、可预测的生成模型。因为测试可以不断变化，难度可以不断增加，模型就很难通过简单记忆获得高分。

作者将这种测试称为更开放、更动态、更少人类偏见的智能评估方式。它不试图测试所有类型的智能，比如社会理解、情绪沟通、身体行动或常识判断，而是聚焦一个更基础的问题：AI能否从未知数据中抽象规律，并用这个规律预测未来？

这篇文章最重要的观点：统计预测不是算法理解

今天的大模型，本质上是非常强大的统计预测系统。它们通过海量数据学习语言中的相关性，然后预测下一个词、下一段话、下一段代码。这种能力非常强，也已经带来了巨大应用价值。

但作者认为，统计预测不等于算法理解。一个模型可以预测人类会怎么回答，却不一定知道问题背后的生成机制。它可以模仿科学语言，却未必能像科学家一样提出一个简洁理论来解释现象。

SuperARC试图区分这两种能力：

类型	核心问题	例子
统计预测	下一个最可能出现什么？	根据语料预测下一个词
算法理解	这个现象由什么规则生成？	找到生成序列的最短程序
人类基准测试	人类会如何回答？	考试题、问答题、常识题
SuperARC测试	能否压缩并外推？	构建公式或程序预测未来

这也是文章标题中“compressed modelling”和“recursive prediction”的含义。模型不只是要输出答案，而是要建立一个压缩后的生成模型，并通过递归预测证明自己确实理解了结构。

神经符号方法为什么重新变重要？

文章最后提出了一个很重要的方向：未来AI的发展可能不能只依赖更大的神经网络，还需要更深入地结合符号推理、程序生成和算法信息论。

作者用CTM/BDM作为一种算法信息论工具，展示了它在某些序列抽象和预测任务中可以明显优于纯大模型。CTM/BDM并不是简单做统计压缩，而是尝试寻找能够生成数据的短程序。它更接近一种“模型的模型”，通过候选生成机制来解释观察数据。

这与近年来AI领域的一个趋势高度一致：越来越多系统开始使用RAG、工具调用、代码执行、agent workflow、知识图谱和外部搜索。虽然这些方法名字各不相同，但本质上都在尝试弥补纯语言模型的不足，把统计学习与符号结构结合起来。

纯大模型优势	纯大模型短板	神经符号方法可能补足
语言流畅	容易模式复现	引入显式结构
知识覆盖广	难以保证推理正确	引入程序验证
泛化表达强	面对新规律不稳定	引入模型搜索
生成速度快	解释可能不简洁	引入最短描述原则
会模仿答案	不一定理解机制	引入可执行模型

因此，这篇文章真正指向的不是“LLM失败了”，而是“LLM还不够完整”。未来更强的AI，可能不是一个更大的聊天模型，而是能够在语言、程序、符号、因果和压缩之间来回切换的系统。

一张表看懂全文

问题	传统AI评测	SuperARC框架
测什么	人类题目与答案	抽象、压缩、预测
是否容易污染	容易被训练数据覆盖	动态生成，污染风险更低
是否人类中心	较强	尽量减少人类题库偏见
评分重点	答案是否正确	是否用简洁模型正确生成
主要挑战	模型会不会答题	模型是否真正理解规律
对AGI/ASI意义	测部分能力	测更基础的算法抽象能力
文章结论	常规榜单不足	需要开放式、复杂度递增测试

我的思考：AI最难的不是回答，而是建立模型

我觉得这篇文章最有价值的地方，并不是给某个模型排名，而是提出了一个非常值得思考的问题：我们究竟想让AI具备什么样的智能？

如果我们只希望AI成为一个超级助手，那么语言能力、知识覆盖、工具调用和任务执行已经足够重要。但如果我们讨论AGI甚至ASI，那么仅仅会回答问题显然不够。真正强大的智能，应该能够在陌生现象中发现结构，把复杂世界压缩成简洁模型，并用这个模型预测未来。

这其实也很接近科学研究本身。科学家做的事情从来不是把观测数据背下来，而是寻找能够解释数据的理论。牛顿力学、进化论、相对论、遗传学，本质上都是对复杂世界的高度压缩。一个好的理论不是描述更多细节，而是用更少原则解释更多现象。

从这个角度看，SuperARC的意义不只是测试AI，也是提醒我们重新思考“理解”的定义。真正的理解不是说得像人，而是能不能找到一个更短、更深、更可预测的解释。

写在最后

过去几年，大模型让我们第一次感受到机器语言能力的巨大跃迁。它们可以写作、编程、总结、翻译，甚至参与科研工作。很多时候，它们的表现已经足够令人惊讶。

但这篇 Nature Communications 文章提醒我们，惊讶并不等于理解，流畅并不等于智能，正确答案也不一定意味着真正掌握规律。

如果一个模型只是把序列打印出来，它没有理解序列；如果一个模型只是复现训练中过的公式，它没有发现规律；如果一个模型只是在语言中显得聪明，它未必具备面对未知世界的抽象能力。

SuperARC提出的挑战很简单，也很深刻：

当题库消失、答案未知、规律隐藏在复杂数据背后时，AI还能不能找到那个最简洁的解释？

也许，这才是通往真正通用智能之前，必须回答的问题。