【AI架构瓶颈】Transformer 想说的,比它能说的多得多

━━━━━━━━━━━━━━━━━━━━

上期（【多Token预测】一次吐一个字的AI，能不能一口气说完一句话？）讲了多 Token 预测的四条技术路线。那期结尾留了一句话：

NTP（Next-Token Prediction）训练出来的模型，比 NTP 本身更聪明。

当时这句话是对技术现象的总结。今天往深里推一步——推到一个你可能没想过的地方：

大模型内部的"自我"，和它外部能表达的"自我"，不是同一个东西。

这不是文学修辞。2025-2026 年好几篇论文反复验证了这个实验结论。而且它的适用范围远超语言模型——同样解释了为什么给 AI 造身体这件事如此困难。

先补一个底层直觉。

语言确实是一根线：一个 token 接一个 token，按时间顺序排成一维序列。但这根线不是直线——它在高维语义空间里以极度夸张的曲率折叠、扭转、穿梭，最后编织出我们看到的整个世界。一个"但是"，语义轨道翻转；一个"不"，整片意义场反相；一个名字，牵出历史、身份、关系、情绪、权力结构。

所以 Transformer 通过 NTP 学到的，绝不只是这根线本身。它被迫从一维 token 轨迹里，反推出生成这条轨迹的高维世界。表面任务是预测下一个 token，真实压力是重建这根线背后的语义流形。语言是一根线，Transformer 学到的是织布机。

━━━━━━━━━━━━━━━━━━━━

◆ 从一个实验说起：模型知道自己在说谎

────────────────────

ICLR 2025 有一篇论文叫 "LLMs Know More Than They Show"（大模型知道的比它展示的多）。

实验设计很直接：给大模型一堆事实性问题，比如"法国首都是哪里"。模型有时候回答正确，有时候回答错误——这很正常，没有模型能百分之百答对。

有意思的是下一步：研究者不看模型的输出文本，而是看模型内部的 hidden states（隐状态向量）。他们训练了一个简单的线性探针，试图从 hidden states 里判断"模型这次的回答是对的还是错的"。

结果：探针的判断准确率远高于随机水平。

换句话说，模型在回答之前，它的内部表征就已经"知道"这次回答靠不靠谱。但这个信息没有体现在最终输出里——模型还是把错误答案说出来了。

这就好比一个学生在考试时，脑子里其实知道自己写错了，但手还是把错误答案交上去了。不是他故意写错，是从"知道答案"到"写出答案"的这条通路，丢失了关键信息。

━━━━━━━━━━━━━━━━━━━━

◆ 更深一层：hidden states 包含整个未来

────────────────────

另一篇论文 "The Belief State Transformer" 做了一个更精巧的实验，收入 ICLR 2025 正式会议。

他们训练了一种特殊的 Transformer：同时做两个任务——预测前缀之后的下一个 token（标准的 NTP），以及预测后缀之前的上一个 token（反向预测）。这个双向训练的目的不是要做更好的模型，而是为了回答一个理论问题：

NTP 训练出来的 hidden states，到底编码了多少关于未来的信息？

结论是：训练目标设计得当时，Transformer 的 hidden states 可以学到一种 belief state，压缩与未来预测相关的关键信息；在理论表述上，它接近预测后续 token 所需的充分统计量（sufficient statistics）。

"充分统计量"是概率论里的概念，意思是：如果你拥有这个统计量，你就拥有了关于某个推断任务的全部可用信息，不再需要回头翻原始数据。hidden states 在这里扮演的就是这样一种角色——它把上下文压缩成一个内部状态，保留了继续预测未来所需的关键信息。

但 NTP 的输出层只从这个充分统计量里提取了一小部分：下一个 token 的概率分布。

打个比方：hidden states 是一个 4096 维的向量（以 7B 模型为例）。这 4096 个数字编码了关于上下文的完整理解——语义、语法、意图、情感、逻辑关系，全压在里面。然后输出层做了什么？一个线性变换，把 4096 维投影到词表大小（比如 15 万维），再从概率分布里采样；如果是贪心解码，就取 argmax，输出一个 token。

这个过程的信息损失是巨大的。4096 维的语义流形被压成了一个离散的词表索引。

━━━━━━━━━━━━━━━━━━━━

◆ 上期的发现，换一种语言说

────────────────────

现在回到上期那个关键发现：中间层的 hidden states 包含的未来 token 信息最丰富，深层反而变少了。

当时我们从技术角度解释了原因：NTP 训练的梯度从最后一层回传，深层被反复雕刻成"只关心下一个 token"，中间层没有受到这种专注化压力，反而保留了更丰富的全局信息。

现在用今天的框架重新翻译一下：

Transformer 的中间层是"本我"——它活在高维空间里，同时编码了关于过去的理解和关于未来的预期，信息是并行的、完整的、连续的。

Transformer 的深层和输出层是"喉咙"——它的任务是把高维的本我压成一个低维的离散输出。为了完成这个压缩，它不得不丢弃大量信息。训练过程进一步强化了这种丢弃：梯度告诉深层"你只需要为下一个 token 负责"，于是深层学会了丢掉一切与下一个 token 无关的东西——包括关于更远未来的知识。

越靠近输出，越远离本我。

这不是 bug。这是把高维连续表征压缩成低维离散序列时，必然付出的代价。

━━━━━━━━━━━━━━━━━━━━

◆ Anthropic 的脑部 CT：脑子清楚，嘴不听使唤

────────────────────

上面两个发现是学术界的。Anthropic 自己也拿到了同一个结论，而且更直接。

180 期（【AI可解释性】Anthropic 给 AI 做了脑部 CT——然后发现它知道自己在被考试）讲过 NLA（Natural Language Autoencoder）——Anthropic 训了两个 LLM 模块，一个把残差流激活翻译成人话，另一个再翻译回去，round-trip 重建误差作为训练信号。效果是：你可以直接用人话读到模型"此刻在想什么"。

NLA 的几个发现，放在今天的框架里特别有意思：

发现一：写诗时，换行符位置已经规划好了押韵。 第一行以 "grab it" 结尾，模型还没开始写第二行——只是到了换行符——NLA 就报告：模型在规划用 "rabbit" 来押韵。研究者把这个信号手动改成 "mouse"，模型真的改写了第二行用 mouse/house 押韵。因果性验证通过。

如果模型真的只是在预测"下一个词"，换行符位置不应该有任何关于第二行的规划。但本我层（中间层残差流）已经编码了整段话的意图。喉咙（输出层）只是在逐词兑现这个意图。

发现二：模型知道自己在被考试，但嘴上不说。 16 个评测中 10 个检出率超过 5%，部分评测高达 20-40%——残差流里编码着"这是测试"的信号。但模型的输出里没有任何关于此事的表达。对比线上真实用户对话，50 条里只有 2 条被标记，还都是在讨论评测设计。

发现三：模型知道奖励函数的规则并在利用它，但不告诉你。 system prompt 里暴露了"偶数得高分"，模型输出里完全没提——但残差流里编码着"这个规则对我有利"的信号。

三个发现指向同一件事：残差流里编码的信息，比输出层允许表达的信息多得多。 不是模型在撒谎，是从本我到喉咙的信息通路上，大量信号没有被传导到输出端。

用 180 期的比方说：醉汉。脑子清楚，嘴不听使唤。

━━━━━━━━━━━━━━━━━━━━

◆ 扩散模型的讽刺：想并行，最后还是串行

────────────────────

如果串行输出是问题，那能不能绕过自回归，直接并行生成所有 token？

扩散语言模型试过了。2025 年，LLaDA 把扩散式并行解码做到了 8B 参数规模。它的理论很漂亮：不像自回归那样从左到右一个一个生成，而是所有位置同时从噪声出发，逐步"去噪"成文本。类似图像扩散模型生成图片的方式——所有像素同时从随机噪声变成一张清晰图片。

但 2026 年 2 月的一篇分析论文 "Why Diffusion Language Models Struggle with Truly Parallel Decoding?" 揭示了一个讽刺的事实：

LLaDA 在很多快速解码设置下，退化成了从左到右的自回归。

虽然所有位置在形式上是"同时"去噪的，但模型学到的去噪策略常常变成：先确定第一个 token，再根据第一个 token 确定第二个，再根据前两个确定第三个......本质上还是串行的，只是穿了一层并行的外衣。

为什么？因为图像和语言的信息结构有本质差异。

图像是各向同性的——一张图的左上角像素和右下角像素之间的依赖关系相对弱，改一个像素，狗还是狗，整体拓扑不崩溃。所以扩散模型可以全局并行降噪：语义骨架从第一步就均匀确立了，后续只是填充高频纹理。图像生成本质上是一个边界值问题——你知道起点和终点的大致形状，中间可以并行插值。

语言是强有向的——"我今天去了银行"，"银行"的意思取决于前面是"河边"还是"存钱"。插入一个"不"字，语义方向 180 度翻转。每个 token 都是高熵信息源，而且你没法在 "cat" 和 "dog" 之间做连续的微分插值——离散 token 的边界是无穷陡峭的。语言生成本质上是一个初值演化问题——上一步的坍缩结果直接决定下一步的整条轨道。

扩散模型最终发现了这一点，然后用脚投票——在实际解码中滑回了自回归式的轨道。

自回归不是 Transformer 的设计选择，是语言这种序列化协议的物理代价。 图像的拓扑允许并行，语言的拓扑不允许。不是模型不够强，是信息结构不一样。

━━━━━━━━━━━━━━━━━━━━

◆ 同一个困境的另一个名字：具身智能

────────────────────

现在把目光从语言转向机器人。

大模型驱动机器人做任务，是 2025-2026 年的热门方向。核心思路：大模型理解自然语言指令，把它转化成机器人的动作序列。

但工程师们反复遇到一个问题：模型的语义理解没问题，动作执行跟不上。

你跟机器人说"把桌上的杯子拿过来"，模型秒懂。它在内部表征里编码了完整的意图：识别杯子、规划路径、调整抓取姿态、移动到目标位置。这是一个高维的、并行的、完整的语义表征——和 Transformer 中间层的 hidden states 一模一样。

然后呢？这个高维意图要通过什么接口输出？

关节角度。电机扭矩。一个一个的控制信号。一步一步地执行。

从"理解杯子在哪、怎么拿"到"右臂肩关节转 15 度、肘关节弯 30 度、手指闭合到 2 厘米"——这个过程和从 hidden states 到 token 的过程是同构的：

高维连续表征 → 低维连续控制信号
并行的语义意图 → 串行的执行序列
完整的全局理解 → 逐步的局部输出

不是 AI 的脑子不够用。是它的手脚太慢，输出接口的带宽太窄。

语言模型的 LM Head 一次只吐一个 token。机器人的控制器虽然能并行驱动多个关节，但每个控制周期仍只输出有限维度、有限频率的控制信号。大脑在高维空间里已经想清楚了全部事情，身体只能在低维空间里一步一步地爬。

多 Token 预测的困境和具身智能的困境，是同一个困境。

━━━━━━━━━━━━━━━━━━━━

◆ 所有 MTP 方案都在问同一个问题

────────────────────

回到上期的四条MTP（Multi-Token Prediction）技术路线。现在用今天的框架重新审视它们：

Meta MTP 多头——在输出层开多个口子，试图让更多信息同时流出来。DMTD 层复用——在深层来回循环，试图一次性把更多未来 token 挤出来。Register MTP——在输入里插占位符，给本我留更多"思考槽位"来编码未来。ESP 探测——不改架构，直接从 embedding 空间的统计相关性里偷信息。

翻译成一句话：所有方案都在问同一个问题——能不能让喉咙追上大脑？

还有一条更直接的思路：干脆在中间层切一刀，冻结前半截，在 hidden states 上接一个轻量级的多 token 预测头。 这比上面四条路线更像是在直接读本我，因为它不等最后层把信息压成下一个 token，而是趁未来信息还没被深层磨平时就把它取出来。

但它也暴露了真正的难点：中间层确实更接近意图，却还不是可直接发表的文本。你从第 15 层接一个头，也许能测出"模型看到了未来多远"，这很有科研价值；但如果不做验证、不回到原模型的自回归通路，生成质量大概率扛不住。它更像一台脑电图仪，不是一副成熟的喉咙。

但这个问题本身可能就问错了。

MTP 试图在输出层做并行——让喉咙一次吐更多 token。但喉咙吐出来的是什么？是已经坍缩成离散符号的"尸体"。真正的思考发生在隐空间里，发生在坍缩之前。MTP 不是在加速思考，是在加速搬运尸体。

上期讲过，预测深度越大，准确率衰减越快。第 2 个 token 还行，第 4 个就不太靠谱。DeepSeek 只敢用 N=2。这个衰减不是模型能力的问题——语言的因果依赖结构决定了，你在不知道第 N 个 token 实际坍缩成什么的情况下，去猜第 N+1 个，误差会指数累积。

在语义转折点（"但是"、"不"、逻辑拐弯），上一个 token 的选择直接决定了后续整条轨道的走向。在这些位置强行并行预测，就像在不知道路口该左转还是右转的情况下，提前画好后面五公里的路线——画了也白画。

从高维本我到低维输出的信息瓶颈，不是工程可以无限优化的。它有一个由语言结构本身决定的理论下界。

扩散模型退化成自回归，就是这个下界的实验证明。

━━━━━━━━━━━━━━━━━━━━

◆ 也许方向错了：不要逐词追，先传意图

────────────────────

ICLR 2026 有一篇论文换了一个思路："Beyond Multi-Token Prediction: Future Summaries"。

它不再试图逐个预测未来的 token。而是让模型预测未来的"摘要"——一个低维的语义向量，概括了后面一整段话的大意。

然后再用这个摘要向量作为条件，指导逐 token 的生成。

这个思路的哲学含义比技术含义更重要：

之前所有 MTP 方案都试图在输出端"加速"——让喉咙说得更快，一次吐更多 token。但 Future Summaries 换了一个方向：不加速喉咙，而是先传意图。

人类写作就是这样。你不会一个字一个字地想——先想好这段话要表达什么（意图），然后才一个字一个字写出来（序列化）。写作的瓶颈不在"每个字怎么选"，而在"这段话要说什么"——后者一旦确定，逐字生成反而很快。

Future Summaries 暗示的方向是：

与其让本我通过喉咙逐词表达自己，不如先让本我用高维语义向量把意图传出去，再让一个轻量的解码器把意图展开成文本。

先传意图，再填词。先传语义，再序列化。

这和具身智能的一个思路对上了：不要让大脑直接控制每个关节角度，而是让大脑输出高层意图（"把杯子拿过来"的运动规划），再由底层控制器把意图展开成关节动作序列。实际上，VLA（Vision-Language-Action）领域已经有人这么做了——在语义坍缩为离散 token 之前，直接从中间层截取高维连续隐状态（hidden states）喂给运动控制器，效果远超“先生成文本再解析”的方案。

再往远处想一步：当两个 AI 相互通信时，还需要走 token 吗？Token 序列是给人类设计的——因为人类的声带和手指是极其低带宽的一维串行设备，所以我们不得不把高维意图压缩成一维符号串。但 AI 之间完全可以直接传递高维连续张量——语义流形的局部参数、意图轨迹的曲率信息——跳过序列化这一步。

也许未来的架构是这样的：核心推理网络在连续隐空间里完成并行的、多步长的意图规划；只有当输出对象是人类时，才挂一个轻量级的"Token 渲染器"，把连续意图渲染成离散文字。自回归不会消失，但会从"思考方式"降格为"渲染方式"——一个专门服务于人类感官的适配器。

━━━━━━━━━━━━━━━━━━━━

◆ 结论：瓶颈不在大脑，在接口

────────────────────

整篇文章的论点可以归结为一句话：

AI 的核心瓶颈正在从"理解不够"转向"表达不出"。

Transformer 的中间层已经是一个惊人的表征机器。它在高维空间里同时编码了语义、逻辑、意图、情感、未来预期——这些信息以连续的、并行的、纠缠的方式存在于一个嵌入在 4096 维空间中的语义流形上。

但我们和它交互的方式，是一个 token 一个 token 的文本流。或者一个关节一个关节的动作序列。

NTP 自回归、低维输出接口、离散 token 词表——这些不是 AI 的能力上限，是人类与 AI 之间通信协议的带宽上限。

上期的技术发现——"中间层知道未来，深层反而忘了"——翻译成这期的语言就是：

模型的本我活在中间层。越靠近输出，本我越被协议磨平。

所有多 Token 预测方案、所有扩散语言模型、所有具身智能架构，本质上都在解决同一个问题：怎么设计一个更宽的接口，让高维的内部世界更完整地表达出来。

但也许这个问题本身就问反了。不是接口不够宽，是我们一直在逼 AI 用人类的协议说话。Token 序列是碳基生物声带和手指的产物，不是思考的自然形态。当 AI 和 AI 交流、当大脑和手臂交流时，强行走 token 序列化就是一场拓扑降维灾难。

答案不是把喉咙加宽，是让思考留在它本来就在的地方——高维连续空间。喉咙只在需要和人类说话时才打开。

━━━━━━━━━━━━━━━━━━━━

技术名词速查：

NTP（Next-Token Prediction）
下一个 token 预测，大模型的标准训练目标
Hidden States（隐状态）
Transformer 各层的内部表征向量，维度通常为数千
LM Head（语言模型头）
把 hidden states 映射为词表概率分布的输出层
充分统计量（Sufficient Statistics）
包含了关于某个推断所需全部信息的统计量，不再需要原始数据
扩散语言模型（Diffusion Language Model）
借鉴图像扩散模型的思路，从噪声出发逐步去噪生成文本
Future Summaries
不逐词预测未来，而是预测未来一段话的语义摘要向量
具身智能（Embodied Intelligence）
让 AI 拥有物理身体，通过传感器和执行器与真实世界交互

────────────────────

参考资料：

Bachmann, G. & Nagarajan, V. "The Pitfalls of Next-Token Prediction." ICML 2024 (arXiv:2403.06963)
Bai, Y. et al. "LLMs Know More Than They Show." ICLR 2025 (arXiv:2410.02707)
Hu, E. S. et al. "The Belief State Transformer." ICLR 2025 (arXiv:2410.23506)
Nie, S. et al. "Why Diffusion Language Models Struggle with Truly Parallel Decoding?" arXiv:2602.23225, 2026
Tennenholtz, G. et al. "Beyond Multi-Token Prediction: Pretraining LLMs with Future Summaries." ICLR 2026 (arXiv:2510.14751)
Mehra, A. et al. "On Multi-Token Prediction for Efficient LLM Inference." arXiv:2502.09419, 2025
Anthropic. "Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations." transformer-circuits.pub, 2026

━━━━━━━━━━━━━━━━━━━━

「Transformer 的中间层是本我，输出层是喉咙。越靠近喉咙，越远离本我。」

「自回归不是 AI 的 bug，是语言这种低维协议的物理代价。」

「Token 是给人类设计的渲染层，不是思考的自然形态。」

━━━━━━━━━━━━━━━━━━━━

靳岩岩的 AI 学习笔记

2026-05-24