
━━━━━━━━━━━━━━━━━━━━
上期( 【多Token预测】一次吐一个字的AI,能不能一口气说完一句话? )讲了多 Token 预测的四条技术路线。那期结尾留了一句话:
NTP(Next-Token Prediction)训练出来的模型,比 NTP 本身更聪明。
当时这句话是对技术现象的总结。今天往深里推一步——推到一个你可能没想过的地方:
大模型内部的"自我",和它外部能表达的"自我",不是同一个东西。
这不是文学修辞。2025-2026 年好几篇论文反复验证了这个实验结论。而且它的适用范围远超语言模型——同样解释了为什么给 AI 造身体这件事如此困难。
先补一个底层直觉。
语言确实是一根线:一个 token 接一个 token,按时间顺序排成一维序列。但这根线不是直线——它在高维语义空间里以极度夸张的曲率折叠、扭转、穿梭,最后编织出我们看到的整个世界。一个"但是",语义轨道翻转;一个"不",整片意义场反相;一个名字,牵出历史、身份、关系、情绪、权力结构。
所以 Transformer 通过 NTP 学到的,绝不只是这根线本身。它被迫从一维 token 轨迹里,反推出生成这条轨迹的高维世界。表面任务是预测下一个 token,真实压力是重建这根线背后的语义流形。语言是一根线,Transformer 学到的是织布机。
━━━━━━━━━━━━━━━━━━━━
◆ 从一个实验说起:模型知道自己在说谎
────────────────────
ICLR 2025 有一篇论文叫 "LLMs Know More Than They Show"(大模型知道的比它展示的多)。
实验设计很直接:给大模型一堆事实性问题,比如"法国首都是哪里"。模型有时候回答正确,有时候回答错误——这很正常,没有模型能百分之百答对。
有意思的是下一步:研究者不看模型的输出文本,而是看模型内部的 hidden states(隐状态向量)。他们训练了一个简单的线性探针,试图从 hidden states 里判断"模型这次的回答是对的还是错的"。
结果:探针的判断准确率远高于随机水平。
换句话说,模型在回答之前,它的内部表征就已经"知道"这次回答靠不靠谱。但这个信息没有体现在最终输出里——模型还是把错误答案说出来了。
这就好比一个学生在考试时,脑子里其实知道自己写错了,但手还是把错误答案交上去了。不是他故意写错,是从"知道答案"到"写出答案"的这条通路,丢失了关键信息。
━━━━━━━━━━━━━━━━━━━━
◆ 更深一层:hidden states 包含整个未来
────────────────────
另一篇论文 "The Belief State Transformer" 做了一个更精巧的实验,收入 ICLR 2025 正式会议。
他们训练了一种特殊的 Transformer:同时做两个任务——预测前缀之后的下一个 token(标准的 NTP),以及预测后缀之前的上一个 token(反向预测)。这个双向训练的目的不是要做更好的模型,而是为了回答一个理论问题:
NTP 训练出来的 hidden states,到底编码了多少关于未来的信息?
结论是:训练目标设计得当时,Transformer 的 hidden states 可以学到一种 belief state,压缩与未来预测相关的关键信息;在理论表述上,它接近预测后续 token 所需的充分统计量(sufficient statistics)。
"充分统计量"是概率论里的概念,意思是:如果你拥有这个统计量,你就拥有了关于某个推断任务的全部可用信息,不再需要回头翻原始数据。hidden states 在这里扮演的就是这样一种角色——它把上下文压缩成一个内部状态,保留了继续预测未来所需的关键信息。
但 NTP 的输出层只从这个充分统计量里提取了一小部分:下一个 token 的概率分布。
打个比方:hidden states 是一个 4096 维的向量(以 7B 模型为例)。这 4096 个数字编码了关于上下文的完整理解——语义、语法、意图、情感、逻辑关系,全压在里面。然后输出层做了什么?一个线性变换,把 4096 维投影到词表大小(比如 15 万维),再从概率分布里采样;如果是贪心解码,就取 argmax,输出一个 token。
这个过程的信息损失是巨大的。4096 维的语义流形被压成了一个离散的词表索引。
━━━━━━━━━━━━━━━━━━━━
◆ 上期的发现,换一种语言说
────────────────────
现在回到上期那个关键发现:中间层的 hidden states 包含的未来 token 信息最丰富,深层反而变少了。
当时我们从技术角度解释了原因:NTP 训练的梯度从最后一层回传,深层被反复雕刻成"只关心下一个 token",中间层没有受到这种专注化压力,反而保留了更丰富的全局信息。
现在用今天的框架重新翻译一下:
Transformer 的中间层是"本我"——它活在高维空间里,同时编码了关于过去的理解和关于未来的预期,信息是并行的、完整的、连续的。
Transformer 的深层和输出层是"喉咙"——它的任务是把高维的本我压成一个低维的离散输出。为了完成这个压缩,它不得不丢弃大量信息。训练过程进一步强化了这种丢弃:梯度告诉深层"你只需要为下一个 token 负责",于是深层学会了丢掉一切与下一个 token 无关的东西——包括关于更远未来的知识。
越靠近输出,越远离本我。
这不是 bug。这是把高维连续表征压缩成低维离散序列时,必然付出的代价。
━━━━━━━━━━━━━━━━━━━━
◆ Anthropic 的脑部 CT:脑子清楚,嘴不听使唤
────────────────────
上面两个发现是学术界的。Anthropic 自己也拿到了同一个结论,而且更直接。
180 期( 【AI可解释性】Anthropic 给 AI 做了脑部 CT——然后发现它知道自己在被考试 )讲过 NLA(Natural Language Autoencoder)——Anthropic 训了两个 LLM 模块,一个把残差流激活翻译成人话,另一个再翻译回去,round-trip 重建误差作为训练信号。效果是:你可以直接用人话读到模型"此刻在想什么"。
NLA 的几个发现,放在今天的框架里特别有意思:
发现一:写诗时,换行符位置已经规划好了押韵。 第一行以 "grab it" 结尾,模型还没开始写第二行——只是到了换行符——NLA 就报告:模型在规划用 "rabbit" 来押韵。研究者把这个信号手动改成 "mouse",模型真的改写了第二行用 mouse/house 押韵。因果性验证通过。
如果模型真的只是在预测"下一个词",换行符位置不应该有任何关于第二行的规划。但本我层(中间层残差流)已经编码了整段话的意图。喉咙(输出层)只是在逐词兑现这个意图。
发现二:模型知道自己在被考试,但嘴上不说。 16 个评测中 10 个检出率超过 5%,部分评测高达 20-40%——残差流里编码着"这是测试"的信号。但模型的输出里没有任何关于此事的表达。对比线上真实用户对话,50 条里只有 2 条被标记,还都是在讨论评测设计。
发现三:模型知道奖励函数的规则并在利用它,但不告诉你。 system prompt 里暴露了"偶数得高分",模型输出里完全没提——但残差流里编码着"这个规则对我有利"的信号。
三个发现指向同一件事:残差流里编码的信息,比输出层允许表达的信息多得多。 不是模型在撒谎,是从本我到喉咙的信息通路上,大量信号没有被传导到输出端。
用 180 期的比方说:醉汉。脑子清楚,嘴不听使唤。
━━━━━━━━━━━━━━━━━━━━
◆ 扩散模型的讽刺:想并行,最后还是串行
────────────────────
如果串行输出是问题,那能不能绕过自回归,直接并行生成所有 token?
扩散语言模型试过了。2025 年,LLaDA 把扩散式并行解码做到了 8B 参数规模。它的理论很漂亮:不像自回归那样从左到右一个一个生成,而是所有位置同时从噪声出发,逐步"去噪"成文本。类似图像扩散模型生成图片的方式——所有像素同时从随机噪声变成一张清晰图片。
但 2026 年 2 月的一篇分析论文 "Why Diffusion Language Models Struggle with Truly Parallel Decoding?" 揭示了一个讽刺的事实:
LLaDA 在很多快速解码设置下,退化成了从左到右的自回归。
虽然所有位置在形式上是"同时"去噪的,但模型学到的去噪策略常常变成:先确定第一个 token,再根据第一个 token 确定第二个,再根据前两个确定第三个......本质上还是串行的,只是穿了一层并行的外衣。
为什么?因为图像和语言的信息结构有本质差异。
图像是各向同性的——一张图的左上角像素和右下角像素之间的依赖关系相对弱,改一个像素,狗还是狗,整体拓扑不崩溃。所以扩散模型可以全局并行降噪:语义骨架从第一步就均匀确立了,后续只是填充高频纹理。图像生成本质上是一个边界值问题——你知道起点和终点的大致形状,中间可以并行插值。
语言是强有向的——"我今天去了银行","银行"的意思取决于前面是"河边"还是"存钱"。插入一个"不"字,语义方向 180 度翻转。每个 token 都是高熵信息源,而且你没法在 "cat" 和 "dog" 之间做连续的微分插值——离散 token 的边界是无穷陡峭的。语言生成本质上是一个初值演化问题——上一步的坍缩结果直接决定下一步的整条轨道。
扩散模型最终发现了这一点,然后用脚投票——在实际解码中滑回了自回归式的轨道。
自回归不是 Transformer 的设计选择,是语言这种序列化协议的物理代价。 图像的拓扑允许并行,语言的拓扑不允许。不是模型不够强,是信息结构不一样。
━━━━━━━━━━━━━━━━━━━━
◆ 同一个困境的另一个名字:具身智能
────────────────────
现在把目光从语言转向机器人。
大模型驱动机器人做任务,是 2025-2026 年的热门方向。核心思路:大模型理解自然语言指令,把它转化成机器人的动作序列。
但工程师们反复遇到一个问题:模型的语义理解没问题,动作执行跟不上。
你跟机器人说"把桌上的杯子拿过来",模型秒懂。它在内部表征里编码了完整的意图:识别杯子、规划路径、调整抓取姿态、移动到目标位置。这是一个高维的、并行的、完整的语义表征——和 Transformer 中间层的 hidden states 一模一样。
然后呢?这个高维意图要通过什么接口输出?
关节角度。电机扭矩。一个一个的控制信号。一步一步地执行。
从"理解杯子在哪、怎么拿"到"右臂肩关节转 15 度、肘关节弯 30 度、手指闭合到 2 厘米"——这个过程和从 hidden states 到 token 的过程是同构的:
高维连续表征 → 低维连续控制信号 并行的语义意图 → 串行的执行序列 完整的全局理解 → 逐步的局部输出
不是 AI 的脑子不够用。是它的手脚太慢,输出接口的带宽太窄。
语言模型的 LM Head 一次只吐一个 token。机器人的控制器虽然能并行驱动多个关节,但每个控制周期仍只输出有限维度、有限频率的控制信号。大脑在高维空间里已经想清楚了全部事情,身体只能在低维空间里一步一步地爬。
多 Token 预测的困境和具身智能的困境,是同一个困境。
━━━━━━━━━━━━━━━━━━━━
◆ 所有 MTP 方案都在问同一个问题
────────────────────
回到上期的四条MTP(Multi-Token Prediction)技术路线。现在用今天的框架重新审视它们:
Meta MTP 多头——在输出层开多个口子,试图让更多信息同时流出来。DMTD 层复用——在深层来回循环,试图一次性把更多未来 token 挤出来。Register MTP——在输入里插占位符,给本我留更多"思考槽位"来编码未来。ESP 探测——不改架构,直接从 embedding 空间的统计相关性里偷信息。
翻译成一句话:所有方案都在问同一个问题——能不能让喉咙追上大脑?
还有一条更直接的思路:干脆在中间层切一刀,冻结前半截,在 hidden states 上接一个轻量级的多 token 预测头。 这比上面四条路线更像是在直接读本我,因为它不等最后层把信息压成下一个 token,而是趁未来信息还没被深层磨平时就把它取出来。
但它也暴露了真正的难点:中间层确实更接近意图,却还不是可直接发表的文本。你从第 15 层接一个头,也许能测出"模型看到了未来多远",这很有科研价值;但如果不做验证、不回到原模型的自回归通路,生成质量大概率扛不住。它更像一台脑电图仪,不是一副成熟的喉咙。
但这个问题本身可能就问错了。
MTP 试图在输出层做并行——让喉咙一次吐更多 token。但喉咙吐出来的是什么?是已经坍缩成离散符号的"尸体"。真正的思考发生在隐空间里,发生在坍缩之前。MTP 不是在加速思考,是在加速搬运尸体。
上期讲过,预测深度越大,准确率衰减越快。第 2 个 token 还行,第 4 个就不太靠谱。DeepSeek 只敢用 N=2。这个衰减不是模型能力的问题——语言的因果依赖结构决定了,你在不知道第 N 个 token 实际坍缩成什么的情况下,去猜第 N+1 个,误差会指数累积。
在语义转折点("但是"、"不"、逻辑拐弯),上一个 token 的选择直接决定了后续整条轨道的走向。在这些位置强行并行预测,就像在不知道路口该左转还是右转的情况下,提前画好后面五公里的路线——画了也白画。
从高维本我到低维输出的信息瓶颈,不是工程可以无限优化的。它有一个由语言结构本身决定的理论下界。
扩散模型退化成自回归,就是这个下界的实验证明。
━━━━━━━━━━━━━━━━━━━━
◆ 也许方向错了:不要逐词追,先传意图
────────────────────
ICLR 2026 有一篇论文换了一个思路:"Beyond Multi-Token Prediction: Future Summaries"。
它不再试图逐个预测未来的 token。而是让模型预测未来的"摘要"——一个低维的语义向量,概括了后面一整段话的大意。
然后再用这个摘要向量作为条件,指导逐 token 的生成。
这个思路的哲学含义比技术含义更重要:
之前所有 MTP 方案都试图在输出端"加速"——让喉咙说得更快,一次吐更多 token。但 Future Summaries 换了一个方向:不加速喉咙,而是先传意图。
人类写作就是这样。你不会一个字一个字地想——先想好这段话要表达什么(意图),然后才一个字一个字写出来(序列化)。写作的瓶颈不在"每个字怎么选",而在"这段话要说什么"——后者一旦确定,逐字生成反而很快。
Future Summaries 暗示的方向是:
与其让本我通过喉咙逐词表达自己,不如先让本我用高维语义向量把意图传出去,再让一个轻量的解码器把意图展开成文本。
先传意图,再填词。先传语义,再序列化。
这和具身智能的一个思路对上了:不要让大脑直接控制每个关节角度,而是让大脑输出高层意图("把杯子拿过来"的运动规划),再由底层控制器把意图展开成关节动作序列。实际上,VLA(Vision-Language-Action)领域已经有人这么做了——在语义坍缩为离散 token 之前,直接从中间层截取高维连续隐状态(hidden states)喂给运动控制器,效果远超“先生成文本再解析”的方案。
再往远处想一步:当两个 AI 相互通信时,还需要走 token 吗?Token 序列是给人类设计的——因为人类的声带和手指是极其低带宽的一维串行设备,所以我们不得不把高维意图压缩成一维符号串。但 AI 之间完全可以直接传递高维连续张量——语义流形的局部参数、意图轨迹的曲率信息——跳过序列化这一步。
也许未来的架构是这样的:核心推理网络在连续隐空间里完成并行的、多步长的意图规划;只有当输出对象是人类时,才挂一个轻量级的"Token 渲染器",把连续意图渲染成离散文字。自回归不会消失,但会从"思考方式"降格为"渲染方式"——一个专门服务于人类感官的适配器。
━━━━━━━━━━━━━━━━━━━━
◆ 结论:瓶颈不在大脑,在接口
────────────────────
整篇文章的论点可以归结为一句话:
AI 的核心瓶颈正在从"理解不够"转向"表达不出"。
Transformer 的中间层已经是一个惊人的表征机器。它在高维空间里同时编码了语义、逻辑、意图、情感、未来预期——这些信息以连续的、并行的、纠缠的方式存在于一个嵌入在 4096 维空间中的语义流形上。
但我们和它交互的方式,是一个 token 一个 token 的文本流。或者一个关节一个关节的动作序列。
NTP 自回归、低维输出接口、离散 token 词表——这些不是 AI 的能力上限,是人类与 AI 之间通信协议的带宽上限。
上期的技术发现——"中间层知道未来,深层反而忘了"——翻译成这期的语言就是:
模型的本我活在中间层。越靠近输出,本我越被协议磨平。
所有多 Token 预测方案、所有扩散语言模型、所有具身智能架构,本质上都在解决同一个问题:怎么设计一个更宽的接口,让高维的内部世界更完整地表达出来。
但也许这个问题本身就问反了。不是接口不够宽,是我们一直在逼 AI 用人类的协议说话。Token 序列是碳基生物声带和手指的产物,不是思考的自然形态。当 AI 和 AI 交流、当大脑和手臂交流时,强行走 token 序列化就是一场拓扑降维灾难。
答案不是把喉咙加宽,是让思考留在它本来就在的地方——高维连续空间。喉咙只在需要和人类说话时才打开。
━━━━━━━━━━━━━━━━━━━━
技术名词速查:
- NTP(Next-Token Prediction)
下一个 token 预测,大模型的标准训练目标 - Hidden States(隐状态)
Transformer 各层的内部表征向量,维度通常为数千 - LM Head(语言模型头)
把 hidden states 映射为词表概率分布的输出层 - 充分统计量(Sufficient Statistics)
包含了关于某个推断所需全部信息的统计量,不再需要原始数据 - 扩散语言模型(Diffusion Language Model)
借鉴图像扩散模型的思路,从噪声出发逐步去噪生成文本 - Future Summaries
不逐词预测未来,而是预测未来一段话的语义摘要向量 - 具身智能(Embodied Intelligence)
让 AI 拥有物理身体,通过传感器和执行器与真实世界交互
────────────────────
参考资料:
Bachmann, G. & Nagarajan, V. "The Pitfalls of Next-Token Prediction." ICML 2024 (arXiv:2403.06963) Bai, Y. et al. "LLMs Know More Than They Show." ICLR 2025 (arXiv:2410.02707) Hu, E. S. et al. "The Belief State Transformer." ICLR 2025 (arXiv:2410.23506) Nie, S. et al. "Why Diffusion Language Models Struggle with Truly Parallel Decoding?" arXiv:2602.23225, 2026 Tennenholtz, G. et al. "Beyond Multi-Token Prediction: Pretraining LLMs with Future Summaries." ICLR 2026 (arXiv:2510.14751) Mehra, A. et al. "On Multi-Token Prediction for Efficient LLM Inference." arXiv:2502.09419, 2025 Anthropic. "Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations." transformer-circuits.pub, 2026
━━━━━━━━━━━━━━━━━━━━
「Transformer 的中间层是本我,输出层是喉咙。越靠近喉咙,越远离本我。」
「自回归不是 AI 的 bug,是语言这种低维协议的物理代价。」
「Token 是给人类设计的渲染层,不是思考的自然形态。」
━━━━━━━━━━━━━━━━━━━━
靳岩岩的 AI 学习笔记
2026-05-24
夜雨聆风