现在的AI写文章,跟人打字是一个道理:从左到右,一个字一个字往外蹦。
你写了一个"我",下一个字大概率是"们"或者"想"。模型猜完这个猜下一个,跟排队的流水线似的。这叫自回归,GPT、Claude、DeepSeek,全这么干。
但AI画图不是这样的。
你去给Midjourney输入"一只穿西装的猫",它不是从左上角1个像素开始,慢慢往右下角推算出来的。它先出整张草图,一团全是噪点的灰雾,然后一步步去掉噪点,轮廓逐渐清晰,细节层层浮现。
这个过程叫扩散。整张图同时生成,不是逐像素"接龙"。
问题来了:既然扩散模型在图像上这么成功,能不能把它用在文字上?
答案是:大家想了很久,试了很多次,一直没做好。直到最近MIT何恺明团队这篇论文出现,才有了真正的转机。论文叫ELF(Embedded Language Flows,嵌入式语言流),以技术报告的形式发表在arXiv预印本上。

先解释一下扩散模型为什么在图像上这么猛,在文字上又为什么这么难。这对理解后面的突破很关键。
扩散模型的思路其实挺直观的。
第一步,加噪声。拿一张清晰的猫图,往上面叠一层随机噪点。噪点叠得越多,猫越看不清,最后变成一片灰白色的雪花屏,跟老电视没信号一样。
第二步,学去噪。让模型看"从雪花屏变回猫"的过程。看得多了,模型就学会了"从噪点到图像"的路线图。以后给它一张纯噪点,它就能一步步变回一张清晰的图。
核心原因在于:图像是连续的。
一张图由数百万个像素构成,每个像素的数值从0到255连续变化。0.5的灰度值是存在的,两个像素之间永远可以插进一个中间值。加噪、去噪,这个连续流动天生丝滑。

但文字是离散的。
一个词就是一个词。"猫"和"狗"之间没有任何中间值。不存在0.7只猫,也不存在"猫"和"狗"的渐变色调。你没法给"猫"这个字加30%的噪点,让它变得模糊一点——它要么是猫,要么不是。
这就产生了一个根本矛盾:扩散模型是一个在连续空间里工作的机器,而文字是离散的零件。机器和零件,不匹配。
读到这里,你心里一定会冒出一个问题:大语言模型和扩散模型各走各的道,不都跑得好好的吗?为什么非要把扩散模型搬到文本上来?
原因在于,自回归模型(就是GPT那种一路猜下一个字的模式)有几个天生绕不开的硬伤。
第一,推理步数多,消耗算力大。自回归模型生成一个字,算一次推理。写1000个字,就要跑1000次推理。而且每次推理都要把前面所有的字重新看一遍,你没法跳过,没法并行。文本越长,耗的算力越大,延迟越高。写一篇5000字的论文,自回归要跑5000步。扩散模型理论上几十步就够了。如果未来AI要写长篇小说、生成完整报告、做实时多轮对话,这个速度差距会是决定性的。
第二,单向蹦字,没法回头。自回归模型是"从左到右"的单向动物。它生成"我爱北京天安门",写到"天"的时候,只知道前面有"我爱北京",不知道后面还有"安门"。这意味着它永远没法"回头看一眼"。写了一个病句,只能硬着头皮继续往下写,没法回头改。人类写作不是这样的,我们打草稿、删改、调整语序。扩散模型天生支持双向上下文,可以同时看到整段文字的前后关系,生成结果会更连贯
第三,错误会像滚雪球一样放大。自回归模型每一步都在赌。第1步赌对了99%,第2步在99%的基础上再赌99%……到第100步,准确率可能已经掉到36%。这叫误差累积。一个错词会污染后面所有词的概率分布。扩散模型没有这个问题。每一步都在修正整段文字,不是逐个词往后推。一个地方出错了,下一步去噪的时候可以整体纠正回来。
第四、无法编辑,只能重来。你用ChatGPT生成了一段文字,发现中间某句话不满意。想改那个句子,不改前后文。办不到。你只能重新生成一遍,或者手动编辑。扩散模型的路径天然支持"局部编辑"——把文字转成向量,对向量做局部修改,再翻回来。这意味着未来的AI写作工具可以像Photoshop一样,选中一段文字,调整它的"语气"滑块,它就自动改写;降低"正式程度",从学术八股变成口语聊天。自回归做不到这些。
这也是为什么学界一直在推动扩散模型应用到文本上,不是为了换玩法,而是自回归的四个天花板都已经能看到,需要一条新路。

文本扩散模型的研究,现在分成两派。
一个叫离散派,这一派的思路是:既然文字是离散的,那就在离散空间里做扩散。比如,每一步随机遮盖一些词,让模型填空复原。有点像把你的话捂住一半,让你猜全句。MDLM、LLaDA这些模型都是这个路线,效果不错,但数学上始终不太自然,扩散天生是为连续空间设计的,硬塞进离散空间,总感觉系了条多余的裤腰带。
另一派叫连续派,他们的思路更优雅,先把词转化成一组连续的数字(嵌入向量),在向量空间里去噪,最后再转回词。理论完美,但实际做起来很拧巴。以前的方法要么每一步去噪都要回头查一次词表,把去噪的脚死死绑在离散的岸上;要么在模型外面挂一个独立的解码器,相当于多养一个额外的神经网络来负责翻译。
两条路都走通了,但都没走彻底。问题不是"扩散模型不适合文本",问题是没人让连续路线真正"连续到底"。
何恺明团队的新模型叫ELF(Embedded Language Flows),嵌入式语言流。核心策略只有一句话:中间一律不管。
具体来说:
第一步,把一句话的每个词送进一个预训练的编码器(T5),转成一串高维连续向量。这一步的工作有点像先把汉字翻译成一套精确的手势,不再依赖具体字符,而是在更自由的空间里表达语义。
第二步,在这些向量上做扩散。从一团高斯噪声出发,模型沿着学到的"去噪路线图"一步步前进。注意,模型在这期间从不需要回头看词汇表,它的去噪目标始终是"更干净的连续向量",而不是"哪个词"。好比一个画家在画布上调色,不需要每画一笔就想"我要画的是猫还是狗"。
第三步,只有到最后那一刻,模型才把去噪完成的连续向量,通过一个可学习的映射矩阵,翻回具体的词。
一个网络干两件事:前99%的时间是去噪模式(只算MSE损失),最后1%的时间切换成解码模式(算交叉熵损失)。靠一个mode token来切换。
这个设计的赌注在于:语言的离散性,不影响连续空间里的去噪。 只要给模型足够的自由度,它可以在向量空间里完成所有信息处理,只在最后一刻落回文字。
结果证明,这不但赌赢了,而且是碾压式的赢。

OpenWebText标准评测下,ELF-B只有105M参数,32步采样,生成困惑度(越低越好)压到了24.1。
对比看更清楚。主流的离散扩散模型MDLM和Duo,170M参数,需要512步采样,困惑度还在40左右。ELF的生成质量直接领先将近一倍,采样步数只有它们的十六分之一。
但最吓人的数字,是训练成本。
ELF只用了450亿个token。竞争对手呢?MDLM、Duo、FLM这些模型,各自吃了5000亿以上。差了一个数量级。十分之一的数据,更小的模型,更少的步数,效果更好。
这还没完。因为ELF全程在连续空间里跑,图像扩散领域积累的所有高级技术都可以无缝迁移。比如无分类器引导(CFG),这是图像生成中控制"创意程度"的核心技术,以前在离散扩散模型里一直很难等价实现。ELF直接拿来就能用。各种调度器、采样器、加速方案,全部天然兼容。
往小了说,这证明了扩散模型做语言是可行的。往大了说,这可能是训练效率的一次降维打击。
现在有个问题值得认真想:如果这条路继续走下去,真的成熟了,会是什么样子?
第一个变化是生成速度。
自回归模型一个词一个词地蹦,输入越长,推理越慢。扩散模型可以整段文字同时生成,不受长度限制。写一篇3000字的文章,自回归模型需要推理3000步,扩散模型可能32步就完成了。速度优势会随着文本长度进一步放大,长文档、多轮对话、实时写作辅助的场景都会被重新定义。
第二个变化是编辑能力。
自回归模型生成完了就是完了,回头改一个字几乎不可能。你要修改一段话,只能重写一遍。扩散模型天然支持"插入""删除""改写"——你把文字翻译成向量,对向量做局部修改,再翻回来。相当于文字版的Photoshop,想改哪里改哪里,不用从零开始重新生成。写作者可以像修图一样修文章,比如把某段话的风格从正式改成轻松,或者把文章长度缩短一半,这些操作在扩散框架下都会自然得多。
第三个变化是训练成本。
省掉90%的训练数据,意味着以前只有大公司才能玩得起的语言模型训练,门槛大幅降低。更多中小团队可以探索自己的模型,更多垂直领域的应用会成为可能。
第四个变化是技术生态。

一旦文本扩散模型成熟,图像、视频、音频、文本有望共用同一套扩散框架。一个模型架构处理所有模态,不再是五个不同架构的拼凑。多模态模型的训练和推理成本,可能再次大幅下降。
当然,ELF还在早期。现在的验证规模在1亿到6.5亿参数之间,距离千亿参数的GPT级别还有距离。能不能线性扩展,能不能在更复杂的任务上保持优势,这些都需要时间来证明。
但ELF至少翻开了那张压在桌面下很久的底牌——连续扩散做语言,不是走不通,是之前没人走对过。
说到何恺明,稍微了解AI历史的人都不会陌生。2015年,他在微软亚洲研究院提出了残差网络(ResNet),一举解决了深层神经网络难以训练的瓶颈。这篇论文至今仍是AI领域被引用次数最高的论文之一,其提出的残差连接已经渗透进Transformer、AlphaGo Zero、AlphaFold等几乎所有现代AI系统。2024年他从Meta AI加盟MIT,开始系统研究生成模型。
如果说残差网络解决了"让信息在网络中自由流动"的问题,那么ELF解决的是"让信息在连续空间里自由流动"的问题。同一个理念,从视觉延伸到语言。一个让AI学会"看"的人,现在要让AI学会"想"——而且是换一种方式想。
夜雨聆风