能不能让AI像画图一样＂画＂文章?

现在的AI写文章，跟人打字是一个道理：从左到右，一个字一个字往外蹦。

你写了一个"我"，下一个字大概率是"们"或者"想"。模型猜完这个猜下一个，跟排队的流水线似的。这叫自回归，GPT、Claude、DeepSeek，全这么干。

但AI画图不是这样的。

你去给Midjourney输入"一只穿西装的猫"，它不是从左上角1个像素开始，慢慢往右下角推算出来的。它先出整张草图，一团全是噪点的灰雾，然后一步步去掉噪点，轮廓逐渐清晰，细节层层浮现。

这个过程叫扩散。整张图同时生成，不是逐像素"接龙"。

问题来了：既然扩散模型在图像上这么成功，能不能把它用在文字上？

答案是：大家想了很久，试了很多次，一直没做好。直到最近MIT何恺明团队这篇论文出现，才有了真正的转机。论文叫ELF（Embedded Language Flows，嵌入式语言流），以技术报告的形式发表在arXiv预印本上。

先解释一下扩散模型为什么在图像上这么猛，在文字上又为什么这么难。这对理解后面的突破很关键。

扩散模型的思路其实挺直观的。

第一步，加噪声。拿一张清晰的猫图，往上面叠一层随机噪点。噪点叠得越多，猫越看不清，最后变成一片灰白色的雪花屏，跟老电视没信号一样。

第二步，学去噪。让模型看"从雪花屏变回猫"的过程。看得多了，模型就学会了"从噪点到图像"的路线图。以后给它一张纯噪点，它就能一步步变回一张清晰的图。

核心原因在于：图像是连续的。

一张图由数百万个像素构成，每个像素的数值从0到255连续变化。0.5的灰度值是存在的，两个像素之间永远可以插进一个中间值。加噪、去噪，这个连续流动天生丝滑。

但文字是离散的。

一个词就是一个词。"猫"和"狗"之间没有任何中间值。不存在0.7只猫，也不存在"猫"和"狗"的渐变色调。你没法给"猫"这个字加30%的噪点，让它变得模糊一点——它要么是猫，要么不是。

这就产生了一个根本矛盾：扩散模型是一个在连续空间里工作的机器，而文字是离散的零件。机器和零件，不匹配。

读到这里，你心里一定会冒出一个问题：大语言模型和扩散模型各走各的道，不都跑得好好的吗？为什么非要把扩散模型搬到文本上来？

原因在于，自回归模型（就是GPT那种一路猜下一个字的模式）有几个天生绕不开的硬伤。

第一，推理步数多，消耗算力大。自回归模型生成一个字，算一次推理。写1000个字，就要跑1000次推理。而且每次推理都要把前面所有的字重新看一遍，你没法跳过，没法并行。文本越长，耗的算力越大，延迟越高。写一篇5000字的论文，自回归要跑5000步。扩散模型理论上几十步就够了。如果未来AI要写长篇小说、生成完整报告、做实时多轮对话，这个速度差距会是决定性的。

第二，单向蹦字，没法回头。自回归模型是"从左到右"的单向动物。它生成"我爱北京天安门"，写到"天"的时候，只知道前面有"我爱北京"，不知道后面还有"安门"。这意味着它永远没法"回头看一眼"。写了一个病句，只能硬着头皮继续往下写，没法回头改。人类写作不是这样的，我们打草稿、删改、调整语序。扩散模型天生支持双向上下文，可以同时看到整段文字的前后关系，生成结果会更连贯

第三，错误会像滚雪球一样放大。自回归模型每一步都在赌。第1步赌对了99%，第2步在99%的基础上再赌99%……到第100步，准确率可能已经掉到36%。这叫误差累积。一个错词会污染后面所有词的概率分布。扩散模型没有这个问题。每一步都在修正整段文字，不是逐个词往后推。一个地方出错了，下一步去噪的时候可以整体纠正回来。

第四、无法编辑，只能重来。你用ChatGPT生成了一段文字，发现中间某句话不满意。想改那个句子，不改前后文。办不到。你只能重新生成一遍，或者手动编辑。扩散模型的路径天然支持"局部编辑"——把文字转成向量，对向量做局部修改，再翻回来。这意味着未来的AI写作工具可以像Photoshop一样，选中一段文字，调整它的"语气"滑块，它就自动改写；降低"正式程度"，从学术八股变成口语聊天。自回归做不到这些。

这也是为什么学界一直在推动扩散模型应用到文本上，不是为了换玩法，而是自回归的四个天花板都已经能看到，需要一条新路。

文本扩散模型的研究，现在分成两派。

一个叫离散派，这一派的思路是：既然文字是离散的，那就在离散空间里做扩散。比如，每一步随机遮盖一些词，让模型填空复原。有点像把你的话捂住一半，让你猜全句。MDLM、LLaDA这些模型都是这个路线，效果不错，但数学上始终不太自然，扩散天生是为连续空间设计的，硬塞进离散空间，总感觉系了条多余的裤腰带。

另一派叫连续派，他们的思路更优雅，先把词转化成一组连续的数字（嵌入向量），在向量空间里去噪，最后再转回词。理论完美，但实际做起来很拧巴。以前的方法要么每一步去噪都要回头查一次词表，把去噪的脚死死绑在离散的岸上；要么在模型外面挂一个独立的解码器，相当于多养一个额外的神经网络来负责翻译。

两条路都走通了，但都没走彻底。问题不是"扩散模型不适合文本"，问题是没人让连续路线真正"连续到底"。

何恺明团队的新模型叫ELF（Embedded Language Flows），嵌入式语言流。核心策略只有一句话：中间一律不管。

具体来说：

第一步，把一句话的每个词送进一个预训练的编码器（T5），转成一串高维连续向量。这一步的工作有点像先把汉字翻译成一套精确的手势，不再依赖具体字符，而是在更自由的空间里表达语义。

第二步，在这些向量上做扩散。从一团高斯噪声出发，模型沿着学到的"去噪路线图"一步步前进。注意，模型在这期间从不需要回头看词汇表，它的去噪目标始终是"更干净的连续向量"，而不是"哪个词"。好比一个画家在画布上调色，不需要每画一笔就想"我要画的是猫还是狗"。

第三步，只有到最后那一刻，模型才把去噪完成的连续向量，通过一个可学习的映射矩阵，翻回具体的词。

一个网络干两件事：前99%的时间是去噪模式（只算MSE损失），最后1%的时间切换成解码模式（算交叉熵损失）。靠一个mode token来切换。

这个设计的赌注在于：语言的离散性，不影响连续空间里的去噪。 只要给模型足够的自由度，它可以在向量空间里完成所有信息处理，只在最后一刻落回文字。

结果证明，这不但赌赢了，而且是碾压式的赢。

OpenWebText标准评测下，ELF-B只有105M参数，32步采样，生成困惑度（越低越好）压到了24.1。

对比看更清楚。主流的离散扩散模型MDLM和Duo，170M参数，需要512步采样，困惑度还在40左右。ELF的生成质量直接领先将近一倍，采样步数只有它们的十六分之一。

但最吓人的数字，是训练成本。

ELF只用了450亿个token。竞争对手呢？MDLM、Duo、FLM这些模型，各自吃了5000亿以上。差了一个数量级。十分之一的数据，更小的模型，更少的步数，效果更好。

这还没完。因为ELF全程在连续空间里跑，图像扩散领域积累的所有高级技术都可以无缝迁移。比如无分类器引导（CFG），这是图像生成中控制"创意程度"的核心技术，以前在离散扩散模型里一直很难等价实现。ELF直接拿来就能用。各种调度器、采样器、加速方案，全部天然兼容。

往小了说，这证明了扩散模型做语言是可行的。往大了说，这可能是训练效率的一次降维打击。

现在有个问题值得认真想：如果这条路继续走下去，真的成熟了，会是什么样子？

第一个变化是生成速度。

自回归模型一个词一个词地蹦，输入越长，推理越慢。扩散模型可以整段文字同时生成，不受长度限制。写一篇3000字的文章，自回归模型需要推理3000步，扩散模型可能32步就完成了。速度优势会随着文本长度进一步放大，长文档、多轮对话、实时写作辅助的场景都会被重新定义。

第二个变化是编辑能力。

自回归模型生成完了就是完了，回头改一个字几乎不可能。你要修改一段话，只能重写一遍。扩散模型天然支持"插入""删除""改写"——你把文字翻译成向量，对向量做局部修改，再翻回来。相当于文字版的Photoshop，想改哪里改哪里，不用从零开始重新生成。写作者可以像修图一样修文章，比如把某段话的风格从正式改成轻松，或者把文章长度缩短一半，这些操作在扩散框架下都会自然得多。

第三个变化是训练成本。

省掉90%的训练数据，意味着以前只有大公司才能玩得起的语言模型训练，门槛大幅降低。更多中小团队可以探索自己的模型，更多垂直领域的应用会成为可能。

第四个变化是技术生态。

一旦文本扩散模型成熟，图像、视频、音频、文本有望共用同一套扩散框架。一个模型架构处理所有模态，不再是五个不同架构的拼凑。多模态模型的训练和推理成本，可能再次大幅下降。

当然，ELF还在早期。现在的验证规模在1亿到6.5亿参数之间，距离千亿参数的GPT级别还有距离。能不能线性扩展，能不能在更复杂的任务上保持优势，这些都需要时间来证明。

但ELF至少翻开了那张压在桌面下很久的底牌——连续扩散做语言，不是走不通，是之前没人走对过。

说到何恺明，稍微了解AI历史的人都不会陌生。2015年，他在微软亚洲研究院提出了残差网络（ResNet），一举解决了深层神经网络难以训练的瓶颈。这篇论文至今仍是AI领域被引用次数最高的论文之一，其提出的残差连接已经渗透进Transformer、AlphaGo Zero、AlphaFold等几乎所有现代AI系统。2024年他从Meta AI加盟MIT，开始系统研究生成模型。

如果说残差网络解决了"让信息在网络中自由流动"的问题，那么ELF解决的是"让信息在连续空间里自由流动"的问题。同一个理念，从视觉延伸到语言。一个让AI学会"看"的人，现在要让AI学会"想"——而且是换一种方式想。