AI「越想越窄」?十所高校联合发现:大模型遇到难题,内部激活直接「塌」成一条线!-夜雨聆风

AI「越想越窄」?十所高校联合发现:大模型遇到难题,内部激活直接「塌」成一条线!

导读
一篇来自 Rutgers、Northwestern 等十所高校的新论文揭示了一个惊人规律：大模型遇到越难的问题，最后一层隐藏状态的激活就越集中、越稀疏——相关系数高达 0.91。更关键的是，这个信号可以在模型答错之前就被捕捉到，相当于给 AI 装了一个「内部仪表盘」。

模型「卡住」的时候，内部在发生什么？

你一定遇到过这种场景：问 ChatGPT 一个复杂数学题，它洋洋洒洒写了一大段，最后答案完全是错的。

问题来了——它答错之前，自己「知道」自己要翻车吗？

AI 研究者 Rohan Paul 今天在 X 上转发了一篇论文，用一句话把结论说透了：

“Researchers found that when language models face harder questions, their internal brain activity literally shrinks into fewer paths.”

「研究人员发现，当语言模型面对更难的问题时，它内部的’脑活动’会收缩到更少的路径里。」

▲ Rohan Paul 转发论文，51 赞、2400+ 次浏览

这条推文指向的论文，来自 Rutgers University、Northwestern University、TU Darmstadt 等机构的十位研究者，标题叫 *Farther the Shift, Sparser the Representation*——偏移越远，表征越稀疏。

论文到底发现了什么？

先做一个技术校准：Rohan 推文里说的「内部脑活动收缩」「思路路径变窄」，是面向大众的传播表达。论文真正测量的，是最后隐藏状态（last hidden state）里的激活分布变化——当输入变难、变远离训练分布时，激活的能量会向更少的维度集中。

通俗地讲：模型平时回答熟悉的问题，内部「神经元」的工作量分散在很多维度上；一旦遇到难题，这些激活会迅速「挤」到少数几个维度里，形成一种高度压缩的状态。

作者把「难」拆成了四条可控的轴：

1. 推理复杂度更高——MATH-500 数据集从难度 1 到难度 5，越难的题，激活越稀疏。

2. 干扰项更多——往多选题里加更多看似合理的选项，模型内部立刻开始「收缩」。

3. 知识冲突——给模型喂一段和它参数里存的知识互相矛盾的上下文，稀疏度飙升。

4. 上下文更长——从 8K 拉到 64K，最后几层的表征分离越来越明显。

四条轴，同一个结论：越难，越稀疏。

▲ 论文 arXiv 页面，编号 2603.03415，今年 3 月提交

数据有多硬？相关系数 0.91

这里必须贴几组数字，因为它们是整篇论文最有说服力的部分。

以 Qwen2.5-7B 模型在 MATH-500 上的表现为例：

难度 vs L1 范数（激活总量）：r = -0.889——难度越高，总激活量越低
难度 vs Top-10% 能量占比：r = 0.912——难度越高，前 10% 维度吃掉的能量比例越大
准确率 vs L1 范数：r = 0.897——激活越稀疏，答对的概率越低
准确率 vs Top-10% 能量占比：r = -0.915——前 10% 吃掉越多能量，答对率越低

0.89 到 0.91 的相关系数，在社会科学里属于「几乎完美相关」。在深度学习的内部表征分析里，这种强度的统计关联极其罕见。

知识冲突场景里的数字同样扎实：当外部上下文和模型参数知识「打架」时，Hoyer 稀疏度上升 +0.0378，Top 5% 能量占比上升 +0.0114，p 值小于 2.0×10⁻²⁹——统计显著性拉满。

「给模型装一个内部仪表盘」

如果稀疏度只是一个有趣的观察，那它最多值一篇论文。但作者往前走了关键一步：把稀疏度变成了一个可用的工程信号。

他们提出了 SG-ICL（Sparsity-Guided Curriculum In-Context Learning），用稀疏度给 few-shot 示例排序、按难度编排。结果是：Qwen2.5-7B 在 MATH-500 上做到76.60%，高于 Auto-CoT 的75.20%。

提升看起来不大？重点在于方法论的意义——稀疏度可以直接当「这道题对模型来说有多难」的量尺，而且不需要额外的评估模型或人工标注。

X 用户 Home（@homeMetaX）的评论最有产品感：

“This is important because it introduces a potential model uncertainty early warning signal. Instead of waiting for wrong answers, systems could detect when internal activation diversity drops below threshold and trigger interventions before failure.”

「与其等模型先答错，系统可以检测内部激活多样性是否跌破阈值，在失败之前就触发干预——比如拆解子任务、补充检索、搭脚手架。」

▲ Home @homeMetaX 的产品视角评论

想象一下：未来的 AI 系统可能内置一个实时稀疏度监控模块。一旦检测到激活开始「挤」到少数维度，系统就自动切换策略——调用搜索引擎补充信息、把大问题拆成小步骤、或者直接标记「这个问题我没把握」。

这就是给模型装了一个「内部仪表盘」。

还有更大的图景

Tessa Archer（@scifi_tessa）在回复里把话题拉到了更大的画面：

“We’ve seen this in CV models too — distributed processing fails under pressure, fallback mechanisms activate. Sparsity as automatic difficulty measurement? Practical curriculum scheduling.”

「CV 模型里也能看到类似现象——分布式处理在压力下失效，回退机制启动。稀疏度当自动难度量尺？这对课程式训练调度很实用。」

▲ Tessa Archer 把讨论引向跨模态类比

这个类比很有意思。如果语言模型和视觉模型在压力下都会出现类似的「表征收缩」，那它可能揭示的是深度学习的一个更普遍的机制：模型在面对超出训练分布的输入时，会自动放弃「分布式冗余表示」，退回到一种更压缩、更集中、也更脆弱的编码方式。

论文里有一个特别精彩的发现可以佐证这一点：在合成预训练实验中，作者观察到一个 U 形曲线——

第一阶段（0-500 epochs）

：模型先变稀疏，把噪声扔掉，做特征筛选；
第二阶段

：模型逐渐变「稠密」，代表它已经把熟悉的模式学稳了。

也就是说，高密度的分布式激活，本身就是模型对「熟悉输入」的一种学习特权。面对陌生和困难的输入，它维持不住这种特权，会退回到更原始、更集中的状态。

▲ 论文代码已开源，仓库 19 星，含预训练、CoT、QA 等多个实验模块

几个值得警惕的边界

写到这里，有必要画几条线：

第一，这不等于「模型知道自己要答错了」。更准确地说，稀疏度上升是一个与 OOD（分布外）和高难度强相关的内部统计信号。它可以用来做风险探测，但目前还不能被当成「读心仪」。

第二，论文主要在隐式推理（implicit reasoning）设定下做分析。作者自己也说，CoT 设定下能看到类似现象，但稳定性更弱。所以如果你想把这个结论直接套到 o1/o3 这类「长思考」模型上，还需要更多验证。

第三，传播语言和论文结论之间有一道翻译鸿沟。「思路路径收缩」是一个好比喻，但论文真正测量的是最后隐藏状态的激活分布变化，不等于我们直接拍到了模型的「完整思维链塌缩现场」。

▲ 论文已被 Moonlight 等 AI 论文解读平台收录

为什么这篇论文值得关注？

很多 mechanistic interpretability 的研究读起来很酷，但离产品很远。这篇论文不一样——它提供的稀疏度信号，天然适合做成 runtime guardrail：

稀疏度超阈值 → 自动补检索
稀疏度超阈值 → 拆解子任务
稀疏度超阈值 → 改写提示或补示例
稀疏度超阈值 → 触发人工审核

当模型内部开始「收缩」的那一刻，就是系统应该介入的时刻。

正如 Rohan Paul 在推文里总结的：

“Because we can measure this exact shrinking effect as a raw number, we do not have to guess if a question is too hard for the AI.”

「因为这种收缩效应可以被直接量化，我们就不必再靠猜，去判断一个问题是否已经超出 AI 的能力边界。」

从「猜它会不会错」到「看它内部信号就知道它正在挣扎」——这个转变，也许比任何一次基准测试跑分都更有意义。

— END —