苹果「思考幻觉」论文翻红:越难的问题,AI 反而越不想想了?-夜雨聆风

苹果「思考幻觉」论文翻红:越难的问题,AI 反而越不想想了?

导读
【导读】苹果研究团队用一组经典逻辑谜题，拆穿了 reasoning model 最体面的一层滤镜——当问题复杂度跨过某个阈值，模型的”思考痕迹”不仅变短、变乱，甚至在 token 预算还剩很多时就开始放弃。这篇 2025 年 6 月的论文最近在 X 上再度引爆争议，3200+ 人围观，Hacker News 488 分 270 条评论。

一篇旧论文，为什么又火了

2026 年 5 月 4 日，X 账号 @AiwithYasir 发了一条长线程，开头就写：

“Apple has just published a paper with a devastating title: ‘The Illusion of Thinking’. And it’s not a metaphor. What it demonstrates is that the AI models we use every day… don’t think. Not one bit. They just imitate doing so.”

「苹果刚发了一篇论文，标题极具杀伤力：『思考的幻觉』。这不是隐喻——它证明了我们每天使用的 AI 模型根本不在思考，只是在模仿思考。」

▲ @AiwithYasir 的 X 线程迅速扩散，97 次转发、147 次点赞、3200+ 次浏览

但评论区马上有人指出：这篇论文最早发布于 2025 年 6 月，arXiv 编号 2506.06941。Yasir 自己后来也在回复里补了一句：”The Apple paper was originally published in June 2025.”

所以真实的故事线应该这样理解：苹果没有丢出新炸弹——这个结论在学术圈已经讨论过一轮了，只是被社交媒体重新包装后，又一次击中了大众对 reasoning model 的焦虑。

为什么隔了快一年还能翻红？因为整个 2026 年上半年，”thinking mode””reasoning mode””agentic reasoning”已经成了产品发布会上最热的关键词。市场越是猛推这个方向，反向论文就越容易被拉出来反复敲打。

苹果到底做了什么实验

Apple 研究团队（Parshin Shojaee、Iman Mirzadeh 等人，通讯作者包括 Samy Bengio）做了一件很聪明的事：他们没有用常见的数学题和代码题来测试 reasoning model，而是设计了四类可控的逻辑谜题环境。

▲ Apple Machine Learning Research 官方页面，论文发布于 2025 年 6 月

为什么要回避主流 benchmark？因为主流数学和代码评测存在数据污染风险——如果模型在训练时见过类似的题目，你根本分不清它在”推理”还是在”复述记忆”。

Apple 选的四类谜题是：

Tower of Hanoi

（汉诺塔）：通过增加盘子数量来精确调控复杂度
River Crossing

（过河问题）：通过增加约束来提升组合爆炸难度
Blocks World

（积木世界）：测试规划和状态转换能力
Checkers Jumping

（跳棋）：测试多步推理的连贯性

这些谜题有一个共同的好处：复杂度可以精确旋钮式调节，逻辑结构高度稳定，而且答案完全可验证。研究者不仅看最终答案对不对，还看模型在”思考区”里写了什么——走了多少步、用了多少 token、中间有没有前后矛盾。

被测试的模型包括 OpenAI o1、o3，DeepSeek-R1，Claude 3.7 Sonnet Thinking 等当时最前沿的 reasoning model。

最核心的发现：三段式崩塌

论文最有信息量的结论，可以用三段话讲清楚：

第一段：简单问题上，普通模型反而更强。

“low-complexity tasks where standard models surprisingly outperform LRMs”

「在低复杂度任务中，标准模型的表现出人意料地超过了推理模型。」

也就是说，在很简单的问题上，带 thinking 模式的模型未必更强，甚至可能因为”过度思考”拉低效率和准确率。

第二段：中等难度是 reasoning model 的甜区。

“medium-complexity tasks where additional thinking in LRMs demonstrates advantage”

「在中等复杂度任务中，推理模型额外的思考过程展现出了优势。」

这说明 reasoning model 有其价值窗口——在某一段复杂度区间内，更长的思考链条确实能带来更高的准确率。

第三段：高难度任务，所有模型一起崩。

“high-complexity tasks where both models experience complete collapse”

「在高复杂度任务中，两类模型都经历了彻底崩塌。」

这就是整篇论文标题最刺眼的来源。当问题跨过某个复杂度阈值，无论你是普通模型还是 reasoning model，准确率都会直线跳水。

越难的题，它反而越快放弃？

Yasir 线程里传播得最凶的说法，是”模型越难越不想想了”。这个判断有论文依据：

“their reasoning effort increases with problem complexity up to a point, then declines despite having an adequate token budget.”

「模型的思考投入会随着问题变难先增加，但到某个点后，即使 token 预算还够，也会反过来下降。」

这条发现的杀伤力在于：它违反了最基本的直觉。人类面对更难的问题，会花更多时间想；但 reasoning model 在更难的时候反而更快放弃，缩短思考链，减少探索。

Apple 还发现了另一个值得警惕的细节：

“We found that LRMs have limitations in exact computation: they fail to use explicit algorithms and reason inconsistently across puzzles.”

「推理模型在精确计算层面有明显限制：它们无法稳定利用显式算法，而且在不同谜题上的推理表现并不一致。」

Gary Marcus 看到这个结论后评价说，这对 LLM 而言是 “devastating” 的证据——如果连研究者手动喂给它的显式算法都跟不住，那那些长篇大论的 reasoning trace 到底在干什么？

Ars Technica 的报道还提到了一个生动的对比：Claude 3.7 Sonnet 在汉诺塔上可以连续执行超过 100 个正确动作，但到了某个过河问题的变体，第 5 步就错了。这说明模型的崩塌跟”算力够不够”关系不大，跟任务结构和策略一致性的关系更大。

▲ Ars Technica 的报道同时收录了支持方和反对方的观点

反方怎么说：这是能力天花板，还是训练策略的副产品？

这篇论文引发的争议，烈度不亚于论文本身。

经济学家 Kevin A. Bryan在 X 上反驳说：如果一个任务本来就需要很长时间手算，但你只给系统一个有限窗口，它给出启发式近似解并不奇怪。他认为，这更像是强化学习训练的结果——模型被训练成”简单题不过度思考，难题不无限烧 token”。他进一步指出，一些行业 benchmark 里的性能确实会随推理 token 增长而上升，产品部署时只是有意抑制了过度思考。

Simon Willison则从另一个角度质疑：Tower of Hanoi 这类任务未必是 LLM 的合理应用方式。他认为这篇论文能爆，跟那个过于抓眼球的标题也脱不开关系。

这两派加起来，其实在问同一个问题：Apple 观察到的，到底是”推理能力的硬天花板”，还是”产品化 reasoning model 在训练目标和资源分配策略上做出的取舍”？

Apple 自己在论文里其实也踩了刹车：

“puzzle environments represent a narrow slice of reasoning tasks and may not capture the diversity of real-world or knowledge-intensive reasoning problems.”

「这些谜题环境只覆盖了很窄的一部分推理任务，未必能代表真实世界或知识密集型问题的全部多样性。」

开发者社区在聊什么

Hacker News 上这条帖子的讨论热度极高——488 分、270 条评论，说明话题真的进入了技术社区的公共讨论区。

▲ Hacker News 上 488 分、270 条评论，开发者社区对这篇论文讨论激烈

里面最有价值的几个观点：

有开发者说，我们之所以总被 LLM 的输出搞糊涂，是因为它用语言输出 reasoning traces，这些 token 看起来很像人在解释自己的思路，但——

“what is actually happening is very alien to us”

「实际发生的事情跟我们的认知完全不同。」

人类最容易把”像解释”误判成”在理解”。模型输出的文字越流畅、越有逻辑感，我们就越容易以为它”懂了”。但流畅的语言输出和稳定的逻辑推理，中间隔着一道巨大的鸿沟。

另一批开发者把话题拉回了工程实践：即便裸模型在长链推理上会崩，真正有价值的方向也许是把系统设计成许多小任务的组合——让模型只处理局部的、低耦合的子问题，别指望它单枪匹马扛完整条长推理链。

这其实也是当下 AI 工程圈里越来越主流的共识：你不能把 reasoning model 当成可靠的通用规划器来用。

回到这件事本身

苹果这篇论文真正戳穿的，是一层很具体的滤镜：“会把思考过程说出来”跟”真的具备稳定推理能力”之间，差距可能比我们以为的大得多。

reasoning model 有用吗？有用。论文自己也确认了，在中等复杂度区间它确实表现更强。但它有一个明确的有效边界——一旦越过那条线，所谓的 thinking trace 可能只是输出风格的一部分，跟真正的能力保证书没有关系。

Yasir 那条线程把结论推到了极端——”AI 根本没在思考，只是在模仿思考”。放在社交媒体上当然够劲爆。但回到 Apple 论文的原始语境里，情况更微妙：当前 reasoning model 的推理优势存在一个有效区间，一旦越界，它的思考痕迹可能只是一场独白，够不上一次真正的推演。

2026 年了，大模型的能力每个月都在刷新。但 Apple 这篇论文提醒所有人的一件事，到今天依然成立：

看起来在想，和真的想明白了，完全是两码事。

— END —