苹果「思考幻觉」论文翻红:越难的问题,AI 反而越不想想了?
【导读】苹果研究团队用一组经典逻辑谜题,拆穿了 reasoning model 最体面的一层滤镜——当问题复杂度跨过某个阈值,模型的”思考痕迹”不仅变短、变乱,甚至在 token 预算还剩很多时就开始放弃。这篇 2025 年 6 月的论文最近在 X 上再度引爆争议,3200+ 人围观,Hacker News 488 分 270 条评论。
一篇旧论文,为什么又火了
2026 年 5 月 4 日,X 账号 @AiwithYasir 发了一条长线程,开头就写:
“Apple has just published a paper with a devastating title: ‘The Illusion of Thinking’. And it’s not a metaphor. What it demonstrates is that the AI models we use every day… don’t think. Not one bit. They just imitate doing so.”
「苹果刚发了一篇论文,标题极具杀伤力:『思考的幻觉』。这不是隐喻——它证明了我们每天使用的 AI 模型根本不在思考,只是在模仿思考。」
▲ @AiwithYasir 的 X 线程迅速扩散,97 次转发、147 次点赞、3200+ 次浏览
但评论区马上有人指出:这篇论文最早发布于 2025 年 6 月,arXiv 编号 2506.06941。Yasir 自己后来也在回复里补了一句:”The Apple paper was originally published in June 2025.”
所以真实的故事线应该这样理解:苹果没有丢出新炸弹——这个结论在学术圈已经讨论过一轮了,只是被社交媒体重新包装后,又一次击中了大众对 reasoning model 的焦虑。
为什么隔了快一年还能翻红?因为整个 2026 年上半年,”thinking mode””reasoning mode””agentic reasoning”已经成了产品发布会上最热的关键词。市场越是猛推这个方向,反向论文就越容易被拉出来反复敲打。
苹果到底做了什么实验
Apple 研究团队(Parshin Shojaee、Iman Mirzadeh 等人,通讯作者包括 Samy Bengio)做了一件很聪明的事:他们没有用常见的数学题和代码题来测试 reasoning model,而是设计了四类可控的逻辑谜题环境。
▲ Apple Machine Learning Research 官方页面,论文发布于 2025 年 6 月
为什么要回避主流 benchmark?因为主流数学和代码评测存在数据污染风险——如果模型在训练时见过类似的题目,你根本分不清它在”推理”还是在”复述记忆”。
Apple 选的四类谜题是:
- Tower of Hanoi
(汉诺塔):通过增加盘子数量来精确调控复杂度 - River Crossing
(过河问题):通过增加约束来提升组合爆炸难度 - Blocks World
(积木世界):测试规划和状态转换能力 - Checkers Jumping
(跳棋):测试多步推理的连贯性
这些谜题有一个共同的好处:复杂度可以精确旋钮式调节,逻辑结构高度稳定,而且答案完全可验证。研究者不仅看最终答案对不对,还看模型在”思考区”里写了什么——走了多少步、用了多少 token、中间有没有前后矛盾。
被测试的模型包括 OpenAI o1、o3,DeepSeek-R1,Claude 3.7 Sonnet Thinking 等当时最前沿的 reasoning model。
最核心的发现:三段式崩塌
论文最有信息量的结论,可以用三段话讲清楚:
第一段:简单问题上,普通模型反而更强。
“low-complexity tasks where standard models surprisingly outperform LRMs”
「在低复杂度任务中,标准模型的表现出人意料地超过了推理模型。」
也就是说,在很简单的问题上,带 thinking 模式的模型未必更强,甚至可能因为”过度思考”拉低效率和准确率。
第二段:中等难度是 reasoning model 的甜区。
“medium-complexity tasks where additional thinking in LRMs demonstrates advantage”
「在中等复杂度任务中,推理模型额外的思考过程展现出了优势。」
这说明 reasoning model 有其价值窗口——在某一段复杂度区间内,更长的思考链条确实能带来更高的准确率。
第三段:高难度任务,所有模型一起崩。
“high-complexity tasks where both models experience complete collapse”
「在高复杂度任务中,两类模型都经历了彻底崩塌。」
这就是整篇论文标题最刺眼的来源。当问题跨过某个复杂度阈值,无论你是普通模型还是 reasoning model,准确率都会直线跳水。
越难的题,它反而越快放弃?
Yasir 线程里传播得最凶的说法,是”模型越难越不想想了”。这个判断有论文依据:
“their reasoning effort increases with problem complexity up to a point, then declines despite having an adequate token budget.”
「模型的思考投入会随着问题变难先增加,但到某个点后,即使 token 预算还够,也会反过来下降。」
这条发现的杀伤力在于:它违反了最基本的直觉。人类面对更难的问题,会花更多时间想;但 reasoning model 在更难的时候反而更快放弃,缩短思考链,减少探索。
Apple 还发现了另一个值得警惕的细节:
“We found that LRMs have limitations in exact computation: they fail to use explicit algorithms and reason inconsistently across puzzles.”
「推理模型在精确计算层面有明显限制:它们无法稳定利用显式算法,而且在不同谜题上的推理表现并不一致。」
Gary Marcus 看到这个结论后评价说,这对 LLM 而言是 “devastating” 的证据——如果连研究者手动喂给它的显式算法都跟不住,那那些长篇大论的 reasoning trace 到底在干什么?
Ars Technica 的报道还提到了一个生动的对比:Claude 3.7 Sonnet 在汉诺塔上可以连续执行超过 100 个正确动作,但到了某个过河问题的变体,第 5 步就错了。这说明模型的崩塌跟”算力够不够”关系不大,跟任务结构和策略一致性的关系更大。
▲ Ars Technica 的报道同时收录了支持方和反对方的观点
反方怎么说:这是能力天花板,还是训练策略的副产品?
这篇论文引发的争议,烈度不亚于论文本身。
经济学家 Kevin A. Bryan在 X 上反驳说:如果一个任务本来就需要很长时间手算,但你只给系统一个有限窗口,它给出启发式近似解并不奇怪。他认为,这更像是强化学习训练的结果——模型被训练成”简单题不过度思考,难题不无限烧 token”。他进一步指出,一些行业 benchmark 里的性能确实会随推理 token 增长而上升,产品部署时只是有意抑制了过度思考。
Simon Willison则从另一个角度质疑:Tower of Hanoi 这类任务未必是 LLM 的合理应用方式。他认为这篇论文能爆,跟那个过于抓眼球的标题也脱不开关系。
这两派加起来,其实在问同一个问题:Apple 观察到的,到底是”推理能力的硬天花板”,还是”产品化 reasoning model 在训练目标和资源分配策略上做出的取舍”?
Apple 自己在论文里其实也踩了刹车:
“puzzle environments represent a narrow slice of reasoning tasks and may not capture the diversity of real-world or knowledge-intensive reasoning problems.”
「这些谜题环境只覆盖了很窄的一部分推理任务,未必能代表真实世界或知识密集型问题的全部多样性。」
开发者社区在聊什么
Hacker News 上这条帖子的讨论热度极高——488 分、270 条评论,说明话题真的进入了技术社区的公共讨论区。
▲ Hacker News 上 488 分、270 条评论,开发者社区对这篇论文讨论激烈
里面最有价值的几个观点:
有开发者说,我们之所以总被 LLM 的输出搞糊涂,是因为它用语言输出 reasoning traces,这些 token 看起来很像人在解释自己的思路,但——
“what is actually happening is very alien to us”
「实际发生的事情跟我们的认知完全不同。」
人类最容易把”像解释”误判成”在理解”。模型输出的文字越流畅、越有逻辑感,我们就越容易以为它”懂了”。但流畅的语言输出和稳定的逻辑推理,中间隔着一道巨大的鸿沟。
另一批开发者把话题拉回了工程实践:即便裸模型在长链推理上会崩,真正有价值的方向也许是把系统设计成许多小任务的组合——让模型只处理局部的、低耦合的子问题,别指望它单枪匹马扛完整条长推理链。
这其实也是当下 AI 工程圈里越来越主流的共识:你不能把 reasoning model 当成可靠的通用规划器来用。
回到这件事本身
苹果这篇论文真正戳穿的,是一层很具体的滤镜:“会把思考过程说出来”跟”真的具备稳定推理能力”之间,差距可能比我们以为的大得多。
reasoning model 有用吗?有用。论文自己也确认了,在中等复杂度区间它确实表现更强。但它有一个明确的有效边界——一旦越过那条线,所谓的 thinking trace 可能只是输出风格的一部分,跟真正的能力保证书没有关系。
Yasir 那条线程把结论推到了极端——”AI 根本没在思考,只是在模仿思考”。放在社交媒体上当然够劲爆。但回到 Apple 论文的原始语境里,情况更微妙:当前 reasoning model 的推理优势存在一个有效区间,一旦越界,它的思考痕迹可能只是一场独白,够不上一次真正的推演。
2026 年了,大模型的能力每个月都在刷新。但 Apple 这篇论文提醒所有人的一件事,到今天依然成立:
看起来在想,和真的想明白了,完全是两码事。
— END —
夜雨聆风