🍃作者介绍:AI 应用负责人/AI产品架构师,阿里云专家博主。专注 LLM 应用开发、Agent 系统设计、具身智能与工业 AI 落地。日常在大模型训练、Coding Agent 工具链、AI 产品商业化等方向持续输出实战内容。🐼GitHub主页:https://github.com/XZL-CODE
文章目录
1、前言:AI 圈最近吵的事2、AI 写字到底怎么"写"的3、ELF 登场:用"先画后写"魔法4、它凭什么吊打过去的扩散派5、连续 DLM 这条路走了 5 年6、它在工程上的意义(人话版)7、它真的赢了吗?小白也要知道的争议8、未来:ChatGPT 真的会变成"画"出来的吗9、写在最后

1、前言:AI 圈最近吵的事
先讲一个画面。
如果你今年五月还泡在 AI 圈,可能注意到一件挺有意思的事。一篇 32 页的论文挂上 arXiv,作者团队的最末尾印着三个字——何凯明。论文的题目叫 Embedded Language Flows,简称 ELF。论文挂出来不到一周,X(推特)上、知乎上、各种群里就开始炸锅,吃瓜表情包刷屏。有人喊"扩散派翻身了",有人冷冷甩一句"32 步赢了 1024 步,你比的是个啥",还有人跳出来盖章:这是 AI 写字(也就是大语言模型)下一站的入口。

我看完整篇论文之后的第一反应是:有点东西,但也确实有点滑头。所以这篇博客我想做两件事:
• 把 ELF 用大白话讲清楚:不放公式、不放推导,就用比喻和故事,让没听过 Diffusion / Flow Matching 的朋友也能听明白; • 把围绕它的争议也用大白话翻译一遍:吹的人在吹什么,骂的人在骂什么,你听完自己来判断到底是不是"里程碑"。
这篇文章的目标读者很简单——你能听懂"模型""训练""生成"这三个词,剩下的就交给我。
「明天发布 ELF 深度精读-从数学原理到对抗性审视」
友情提示:本文不假设你懂 Diffusion,也不假设你懂 Flow Matching、CFG、self-conditioning 这些黑话——我们会一个一个用比喻拆开。
2、AI 写字到底怎么"写"的
聊 ELF 之前,得先聊一个被大多数人误以为只有一种答案的问题:
AI 是怎么把一段话"造出来"的?
你大概率以为答案就是"ChatGPT 那种一个字一个字往外蹦"。其实远不止。AI 写字目前江湖上至少有三大门派,三派之间从 2022 年吵到现在还没歇。咱们一个个看。

2.1 哑谜大师派(自回归 GPT 类):一个字一个字猜
这是你最熟悉的一派,ChatGPT、Claude、Gemini、Qwen、DeepSeek 全在这条路上。术语叫"自回归(Autoregressive)",听上去高大上,其实做的事很朴素:
从第一个字开始,看着前面已经写出来的所有字,猜下一个字。猜完,把猜出来的字接上去,再去猜再下一个字。
像不像一个写哑谜的大师?
每一个字都要"接得上"前面的,所以质量稳、文风一致、逻辑顺。GPT-4、Claude 这种水准的对话流畅度,都是靠这条路堆出来的。
• 优点:写出来的东西像人话,模型结构成熟,能 scale 到上万亿参数。 • 缺点:慢。每个字都得等前面写完才能写。你今天用 ChatGPT 让它写 3000 字小说,它没法"并行写",每个字都得严格按顺序蹦出来,所以你能看到字一个个跳,跳到地老天荒。
哑谜大师派的核心痛点就这一个字:慢。
2.2 拼图派(离散扩散 MDLM 类):先盖住再一块一块翻开
第二派叫 离散扩散语言模型(Discrete Diffusion Language Model,简称离散 DLM)。代表作有 MDLM、Duo、E2D2 这些名字。这一派试图解决哑谜大师派的"慢"问题。
它的玩法是:
先把整段话"全盖住",变成一连串问号
?????????????,然后让模型每一步翻开一小块格子,把里面的"?"换成真字。反复多次,直到所有问号都变成字。
像不像在玩 填字游戏 / 一块一块翻牌?
这一派最大的好处是可以并行翻牌——一步可以同时翻好多块,理论速度比哑谜大师快得多。听上去很美?但有个隐藏的烦人之处:
每一步都必须给出"确定的字"。不能写半个字,不能写模糊的字,不能写"差不多是这个意思"的字。
这就好比你玩拼图,规则要求你每翻一块,这一块就立刻焊死,再也不能改。所以为了不出错,你得反复来回翻,得很谨慎地翻。结果就是——为了稳,模型一般要走 1024 步才能凑齐一段质量过关的话。
它快没快?只能说理论上能并行,实际上为了质量并不真的有那么快。
2.3 画家派(连续扩散):本来想这么干,但一直效果不行
第三派的灵感来自 AI 画图。
你用过 Stable Diffusion 或者 MidJourney 吧?画图模型的玩法是:
从一张乱糟糟的彩色雪花图(纯噪声)开始,每一步轻轻"擦一笔",让雪花慢慢"显影"成一张精美的画。
画图领域近几年所有大爆款(DALL·E、Stable Diffusion、Sora、可灵)都走的是这条路,统称 扩散模型(Diffusion) 或者 流匹配(Flow Matching)。
那很自然的问题就来了:
画图能这么"显影"出来,写字能不能也"显影"出来?
研究者从 2022 年就开始尝试这条路,整整 5 年——全都效果不行。要么质量上不去,要么训练特别费劲,要么得加各种七拼八凑的补丁才能勉强工作。
所以业界慢慢形成了一个共识,甚至变成了"行业偏见":
文字是离散的("猫"和"狗"是两个完全不同的符号,中间没有半个猫半个狗),不像图像可以连续变化。所以扩散模型"显影写字"这条路注定吃亏。
整整五年,画家派的存在感都是个"科研笑话"——大家觉得这路就是死胡同。
直到这次 ELF 出场。
3、ELF 登场:用"先画后写"魔法
ELF 走的就是上面说的第三派——画家派。但它做了几个极其聪明的小手术,让这条被认为是死胡同的路,第一次被走通了。
整个 ELF 可以用一句话总结:
AI 不是在写字,是在"画一张关于这段话的模糊语义画"——画完最后一笔,才把画"翻译"成具体的字。
听上去很玄?我们拆成四块讲。

3.1 把字变成"灵魂光球"(T5 embedding 比喻)
第一步要解决的问题是:文字是离散的,怎么让画家派能"连续地画"?
ELF 的招数是——先把字翻译成连续的东西,再去画。
它借用了 Google 一个老模型 T5 当"翻译器"。T5 干什么呢?它把每一个字(更准确说,每一个 token),变成一组512 个数字组成的小向量,术语叫 embedding(嵌入向量)。
听到向量你别慌,咱们用比喻:
embedding 就像把每个字的"灵魂"抽出来,变成一团有方向、有距离的小光球。
"猫"的光球和"狗"的光球离得近(都是宠物,软乎乎、四条腿、会叫);"猫"和"汽车"的光球离得远(差太多了);"猫"和"小猫咪"的光球几乎重合。
一旦字变成光球,奇迹发生了——光球之间可以连续地变化。你可以从"猫"的光球,沿着一条平滑的路径,慢慢飘到"狗"的光球,途中每一个位置都是一个"有意义的中间状态"。
一旦能"连续变化",画家派那一套"轻轻擦一笔"的玩法就有用武之地了。
小补充:ELF 用的是 T5 已经预训练好的 embedding——相当于借了一本现成的高级翻译词典,省去了自己从头学的麻烦。论文里还做过对比:用 T5 预训练 embedding 比让模型从零自己学,效果好得多。
再深一层的细节:T5 出来的"灵魂光球"原本是 512 维(一个光球由 512 个数字描述)。ELF 没有直接在 512 维上"画",而是先把每个光球压缩到一个更小的"瓶颈尺寸" 128 维,在 128 维空间里完成所有画功,最后一秒再展开回去落字。
为什么要压一道? 这就好像画家不会一上来就用 4K 屏幕画底稿,而是先在 A4 纸上勾轮廓——维度低,画起来更稳、更快,flow 也更容易学。论文里专门做过对比:bottleneck=128 比 256/512 都更好。这是 ELF 一个非常"何凯明"风格的小手术——把别人觉得"理所当然要在大维度跑"的事,硬生生压到小维度跑通了。
3.2 从噪声画到清晰画(flow 比喻)
有了光球的世界,怎么"画一段话"?
想象一下:
白纸上撒了一把乱糟糟的彩色光点(纯噪声)。AI 的任务是:每一步把这些光点轻轻"推一推",让它们慢慢聚成清晰的形状,最后形成一张"有清晰图案的画"——也就是一段有意义的文字的 embedding。
每一步推光球的过程,论文里叫 Flow(流)。这也是 ELF 名字里"Flow"的来历——Embedded Language Flows。
整个过程是纯连续的:
噪声 → 模糊画 → 半清晰画 → 清晰画每一步都不需要"必须落到某个具体的字"。AI 只管推光球,不用考虑落字的问题。这是它和"拼图派"最大的不同——拼图派每一步必须落字,而 ELF 全程都在画。
只在最后一步(论文里写作 t=1,咱们就叫"画完那一秒"),AI 才说:
"好,画完了。我现在看看每个位置最像哪个字,然后落字。"
一句话总结 ELF 最关键的设计:
整个过程都是连续的,只在最后一秒才离散化为具体的字。
这就是"先画后写"魔法的真正含义。
3.3 一个员工兼两班(shared-weight 比喻)
这里有个特别巧妙的小设计。
ELF 这个模型其实要干两件不一样的事:
1. 去噪(denoise):每一步把光球推得更清晰一点 2. 解码(decode):最后一步把"画"翻译成具体的字
按常规思路,这是两个完全不同的活,应该养两个独立的网络分别干。之前的几种类似方案(latent diffusion 系列)都是这么做的——画的归画的,翻译的归翻译的。
但 ELF 说:没必要养两个,一个人就能兼两班。

打个比方:
想象公司里有个万能员工。平时他干"推光球"的活;到了下班最后一秒,老板按一个按钮,他立刻切换成"翻译模式"——把今天累积的光球整理成最终的报告文字。
这个"按钮"在论文里叫 mode token——但有个非常巧的细节:
它不是 AI 网络外面的旋钮,而是被"写"在输入序列的最前面,像一句口令。
具体说——每次 AI 拿到一段输入,最前面会插一个特殊的 token:是 denoise 还是 decode,员工一眼看见就知道这一秒该干什么活。
这种做法叫 "in-context prepend(插在开头)",对比之前常见的"专门加一层条件控制层"(搞 AI 的人叫它 adaLN-Zero),有两个朴素的好处:
• 参数省了 30%:模型从 148M 砍到 105M(专门加层会每一层都多一组开销) • 更灵活:员工每读一层网络,都能"回头看一眼口令"再决定怎么处理,而不是只在入口看一次
还有一个被很多人误读的细节——
训练的时候,并不是"每个样本同时算 80% MSE + 20% CE 的混合 loss"。
实际做法是:一个 batch 里,80% 的样本被分去走"推光球"(denoise)的训练,20% 的样本被分去走"翻译"(decode)的训练。两群人不冲突,员工今天 80% 时间练主活、20% 时间练副活。
一个员工兼两班的好处有三个:
• 模型更小:不用养两个独立网络 • 任务互相促进:同一套"对语言的理解"既用来推光球,也用来翻译,两边的训练信号互相加成 • 训练省力:一套权重训完,两件事都会做
这是 ELF 整套架构里我个人最喜欢的一笔——简单、漂亮、有效。
3.4 像图像一样能"加提示词"(CFG 比喻)
到这里 ELF 已经够亮眼了,但它真正吊打离散派的"杀手锏"还在后头。
如果你玩过 Stable Diffusion,一定调过一个参数叫 CFG Scale。它的作用是:
让 AI 更"听话"地按提示词去画。CFG 调大,画面更紧贴提示词;调小,AI 更"自由发挥"。
打个比方:
CFG 就像 AI 戴的一副耳机的音量旋钮。提示词是你说的话,AI 平时听到三分意思就开始自由发挥;你把 CFG 旋大,相当于把音量调大,逼它老老实实按你说的画。
关键来了——CFG 是图像扩散里"大杀器"级别的工具,但是老派离散扩散语言模型用不了它!因为 CFG 需要在"连续空间里"对着模型的输出做平滑的加权操作,而离散派每一步都强行落字,根本没法平滑加权。
而 ELF 全程在连续空间里跑,CFG 直接搬过来就能用。不仅能用,论文里还玩出了花——
ELF 在训练的时候就把 CFG 的"听话效果"烤进了模型,论文叫 training-time CFG。推理时一次前向就拿到了带 CFG 的结果,速度还不打折。
这意味着:
AI 画图领域积累的 5 年所有 trick——CFG、各种 sampler、self-conditioning……ELF 整箱整箱地搬到写字上。
继承了别人 5 年的武器库,谁顶得住?
4、它凭什么吊打过去的扩散派
ELF 的"成绩单"挺刺激的。我们看 3 个数字,每个都翻译成人话。
4.1 训练数据只用 1/10
主流的扩散语言模型,训练数据一般要 500B token(5000 亿)起步。ELF 只用了 45B token——只有同行的 1/10 左右。
翻译成人话:
同样难度的考试,别人复习了 5000 道题才考及格;ELF 复习了 500 道题就考到了同样的分。
这不是节省点电费的小事——在大模型这个动不动训练成本上千万美金的时代,数据省 10 倍 = 训练成本省一个数量级,是核弹级的差距。
4.2 采样从 1024 步缩到 32 步
离散派的 MDLM 要走 1024 步才能生成一段质量过关的话。ELF 只要 32 步。
1024 ÷ 32 = 32 倍——理论上,同样硬件下,AI 生成文字的速度有机会快 30 倍。
这意味着同一个"AI 翻译"、"AI 写作助手"、"AI 长文创作"——你点完确定到看到第一段输出,等待时间从 30 秒变成 1 秒。这种延迟差距,是产品体验的鸿沟。
4.3 不需要蒸馏的"作弊"
补一个小知识:以前扩散模型要做"快速版",几乎都得靠一种叫 蒸馏(distillation) 的技巧——
大白话讲:先训一个慢但厉害的"老师模型",然后让一个快但傻一点的"学生模型"去学老师的输出。学生跑得快,但是它的本事是从老师那"偷"来的。
这是一种事后压缩,工程上多一道工序,性能也容易掉。
ELF 的不同之处是:
它天生就快,32 步是它原装的能力,不是被强行压缩出来的。论文里展示,它的少步生成质量,甚至能反过来打蒸馏过的 MDLM、Duo、FMLM。
天生丽质 vs 整容加速,差距就在这。
5、连续 DLM 这条路走了 5 年
聊到这你可能有个疑问:ELF 看起来不复杂,T5 embedding、Flow Matching、CFG 都是现成的工具。为什么之前 5 年都没人这么干?
这就是这篇论文最让圈内人感慨的地方——这条路其实有人走,但没人走通。让我用故事化的方式串一下时间线:

2022 年初,斯坦福,Diffusion-LM 第一次出手。Li 等人第一次试图把扩散用到文字上。他们在 embedding 空间里跑扩散,可惜效果差强人意,只能干一些填空、改写的小任务,离 GPT 那种通用生成差得远。但这是连续 DLM 的"创世记"——它告诉所有人,这条路至少能"动起来"。
2022 年下半年到 2023 年初,CMU、Google、Stanford 接着上。SSD-LM、CDCD、DiffuSeq、SED……一堆论文涌出来,思路都是"在 embedding 空间里跑扩散"。共同的痛点是——生成质量始终上不去,每一篇论文都得在不同地方加补丁、加约束、加 token 级监督,才能勉强 work。
2023 - 2024,Latent Diffusion 系入场。LD4LG、FLM、LangFlow 等等。这一派的思路是把图像里的"潜空间扩散"那套搬过来,但因为需要养一个独立 decoder、噪声调度也很复杂,整体仍然比离散派慢一截、贵一截。
2024 - 2025,DFM / CFM / FMLM 出现。这几篇已经很接近 ELF 了——它们也用 Flow Matching、也在连续空间里跑。但都有一个共同的尾巴:沿着整条 flow 轨迹都需要 token 级的 cross-entropy 监督。说人话就是——它们还是不敢真正放手让模型"连续地画完",每一步都要拽一下"你下一个字必须是哪个"。
2026 年 5 月,何凯明 + MIT 团队出手。他们做了一个有点反直觉的决定:
既然 t=1 才真正落字,那就只在 t=1 这一刻做 cross-entropy 监督,前面所有时刻都纯靠 MSE。
也就是说——前面所有时刻 AI 都不知道"自己将来要落哪个字",它只管推光球。这听起来太大胆了,跟之前几年所有人在做的"全程拽着模型"完全反着来。
更妙的是,他们把"推光球"和"最后一秒落字"用 同一个模型(shared weight)+ 一个 mode token 做了,整套架构极简。
这就是这件事的精彩之处:
过去 5 年大家都在加东西——加 token 级监督、加独立 decoder、加更复杂的 noise schedule。何凯明团队做的事情,是反过来——大胆删东西。
简洁本身就是力量。当一条路上越走越多人在加补丁、加附件,反而是有人把所有补丁一把撕掉,发现底下的简洁版本其实最稳。
这种"删而不是加"的研究品味,是何凯明过去 10 年所有代表作(ResNet、Mask R-CNN、MoCo、MAE)的共同基因。
再具体点拆给你看:如果你把 ELF 看成"15 件听起来都像新东西的事"——其中真正"作者团队自己想出来的"只有 4 件(最后一秒才落字、一个网络兼两班、选对了预测目标、训练时给字加不同噪声);剩下 11 件全是从图像扩散那边借来的零件(Flow Matching、CFG、self-conditioning、T5 embedding……)。
这就像一场 5 年的接力赛——前面 Stanford / CMU / Google 一棒一棒往前传,每个团队都加了一两个新零件。何凯明这一棒做的事,就是把所有零件第一次"正确组装"起来——不是发明了新零件,而是发现了"正确的装法"。
6、它在工程上的意义(人话版)
学术意义聊完,咱们换个视角——作为一个产品经理 / 工程师 / 普通用户,ELF 对你的现实生活有什么影响?
我列三件最可能发生的事。
第一件:翻译会变快。
论文里专门做了 WMT14 De-En(德英)翻译任务,ELF 在 32 步采样下打过了同等规模的离散 DLM。意味着未来如果工业界跟进,实时翻译、字幕生成、跨语言对话这些场景会先吃到红利——延迟低、能跑在边缘设备上。
第二件:写作助手的"等待感"会消失。
你点"帮我写一段开篇",现在 ChatGPT 还要等一两秒第一个字才蹦出来;如果 ELF 路线成熟,等待时间可能直接降到 0.1 秒级。这是用户体验的鸿沟——你想想刷短视频如果每个视频要等 3 秒加载,和现在的秒切换之间,差的是一整个时代。
第三件,也是最关键的:长文创作和可控生成可能洗牌。
现在让 ChatGPT 写一篇 5000 字的长文,逻辑跑偏、前后矛盾、写着写着主题就漂走——这些问题都来自"一个字一个字猜"的方式:它根本看不到全局。
ELF 这种"先画全局再落字"的方式,理论上能更好地把握长文的整体结构——因为它"画完一整张画"之后才落字,而不是边写边憋下一个字。配合 CFG 那种'提示词放大器',未来可能出现一种新形态的写作助手:你给一段提示词,它一次性出一整篇结构完整、风格统一的稿子——而且速度还快。
但说一句诚实话:
ELF 不是"全场碾压"。2026 年春天,跟它前后脚出现的还有 LangFlow、DFM、CFM、FMLM、FLM 几个"连续派反击作"。ELF 跟 LangFlow 几乎打平(一个 24 分一个 24.6 分),少数指标上还被走了"蒸馏捷径"的 FMLM 反超一小截。
ELF 真正的卖点不是"绝对最强",而是——用最轻的装备(无蒸馏、训练数据少 10 倍、模型只有 105M)跑出了 top 3 的成绩。它赢得最优雅,不是赢得最狠。
如果这件事真的能 scale 到 ChatGPT 那个量级,那 AI 写字这个领域接下来 3 年会被洗一遍。
不过——
"如果"两个字下面,藏着这次围绕 ELF 最大的争议。
7、它真的赢了吗?小白也要知道的争议
这一节是这篇博客最关键的一节。
吹的我们前面吹够了,咱们也得听一下骂的人在骂什么。AI 圈每篇爆款论文出来都有反对声音,ELF 也不例外——而且反对的声音里,有几个真的挺扎实的。
我从论文社区目前讨论最多的争议里,挑了 6 个最值得讲的,每一个都给你一个生活化比喻——其中 3 个还会展示"作者一方怎么说 / 质疑方怎么怼 / 我怎么判"的对照格式,方便你自己拿主意。最后再给你一条"番外争议"加餐。

7.1 "Gen PPL 用 GPT-2 算" = 拿小学生当裁判去评高中生作文
ELF 论文里有个关键指标叫 Gen PPL(Generation Perplexity,生成困惑度)——简单说就是用一个"裁判模型"去打分,看 AI 写的东西有多自然。
ELF 拿出来当裁判的是 GPT-2 Large。
但 GPT-2 是 2019 年的模型,还不到 2 个 B 参数。今天 ChatGPT、Claude 这种动辄上千亿参数的大模型已经横扫一切,让 GPT-2 当裁判——
这就好比让一个小学生去评高中生的作文。小学生看得懂"句子通顺",但不一定看得懂"逻辑严密"和"文采高级"。
所以"32 步 Gen PPL = 24"这个数字虽然看起来很漂亮,但裁判的水平就在那。换一个更强的裁判,ELF 还能不能这么强?没人知道。这是悬而未决的疑问。
7.2 "模型最大 652M" = 在小池塘里游得快,到大海里能不能游得快还不知道
ELF 论文里最大的模型 ELF-L 是 652M 参数——以今天的标准看,这是个非常小的模型。
ChatGPT 是 100B+,Claude 大概也在这个量级。ELF 还没有人在 7B、70B 上验证过。
这就好比一只鱼在小池塘里游得飞快,你说它是"鱼类之王"——但谁知道它到了大海里,是不是连普通的金枪鱼都追不上?
scaling law(大模型 scale 越大效果越好的规律)会不会在 ELF 这条路上变形?没人知道。论文里展示了 105M → 342M → 652M 的 scaling 曲线,前景看起来不错,但这只是 3 个点连出来的一条线——能不能外推到 70B,没人敢打包票。
这是 ELF 最大的不确定性。
7.3 "音量旋钮开到顶" = 更清楚,还是更死板?
这条争议有点技术,但用比喻一秒就懂。
CFG 调大,AI 更听话,生成的句子更"标准"、PPL 更低(更顺)。但同时,entropy(多样性指标)也跟着降低——意思就是它写出来的东西越来越像"模板答案",多样性变差了。
就像你听音乐,把音量旋钮转到顶——每个音符都听得清清楚楚,但整首歌的层次感、情绪起伏全没了,听上去像背景白噪音。
这场争议很典型,作者方和质疑方都有话讲——
• 作者一方说:"这是正常的 质量 - 多样性 trade-off。你要更顺的句子,就得放弃一点多样性,写作里所有人都要面对这个取舍。" • 质疑方说:"PPL 和 entropy 同步往下走,是 mode collapse(模式塌缩) 的经典特征——模型不是更聪明了,是更不敢出花样了。论文里没有报真正的多样性指标(比如 Self-BLEU),这种嫌疑就排除不掉。" • 我的判断:这是真正悬而未决的争议。等社区独立复现的时候补上 Self-BLEU 这种"花样多不多"的指标,才能给这事定案。
7.4 "代码 5/11 才开源" = 新菜谱刚发出来,还没人按这个菜谱炒过菜验证味道
论文挂在 arXiv 是 2026 年 5 月 11 日。代码仓库 lillian039/ELF 同期才开放——也就是说,截至这篇博客写出来的时候,社区独立复现的工作还没有真正出来。
这就好比一本新菜谱刚发表:"只要按这个步骤炒,每个人都能做出米其林三星的菜"——但还没人按这个菜谱炒过菜呢,到底味道如何,得等一段时间才知道。
AI 学术圈过去几年出现过好几次"论文数字漂亮但社区复现不出来"的事故。ELF 还在"等社区复现"阶段——这种时候得对漂亮数字保持一份"等等再说"的克制。
7.5 "对手发烧带病比赛" = ELF 真的反杀 AR 了吗?
ELF 在 WMT14 De-En 翻译上拿了 BLEU 26.4——这个数字"反杀"了同等规模的 AR(自回归)baseline 的 25.2。听上去爽不爽?爽。但仔细看,又是一场对照争议——
• 作者一方说:"Table 1 里数字白纸黑字,BLEU 26.4 > 25.2,我们就是赢了。" • 质疑方说:"你们的 AR baseline 用的是 greedy decoding(贪心解码) + 固定学习率(论文 Table 8),这是 DLM 圈传统的'弱 AR baseline'。一个正经调过的 99M 参数 Transformer NMT 能打到 BLEU 27+。你赢的是个没热身、还发着烧上场的对手。" • 我的判断:ELF 在"DLM 圈内的 SOTA"是没问题的,但"反杀 AR"这个 narrative 要打折听。它是同等懒训练设定下赢,不是真正的最强 AR。
比喻续一秒:你跟职业拳击手比赛赢了——但对手当时正发着烧、还没热身、戴着旧手套。赢确实是赢,但你不能因此宣称"职业拳击手不过如此"。
7.6 "对手用的是老枪" = 你赢的是不是只是"朴素 AR"?
最后一个争议,是 ELF 速度 narrative 里最容易被忽视的一刀。
ELF 说自己 32 步就写完了,AR(ChatGPT 那种)要一个字一个字蹦——所以快。听上去 ELF 完胜,是吧?但是——
过去 3 年,AR 圈早就发展出了一堆"加速 AR"的新技术:
• Speculative decoding(投机解码):让一个小模型先猜一堆字,大模型一次性确认 — 2-3 倍加速 • Medusa:让 AR 一次性预测好几个字 — 2-2.5 倍加速 • Lookahead decoding:边写边并行猜未来几个字 — 1.5-2 倍加速
这些方法叠加起来,ChatGPT 那种 AR 模型也可以跑得飞快——实际速度跟 ELF 的 32 步可能差不多,甚至更快。
而 ELF 论文里——完全没和这些"加速 AR"对比。它对比的是"朴素的、一个字一个字蹦的 AR"。
比喻:AI 写字这场速度赛,ELF 说"我跑得比对手快"。但对手用的是一把老枪(朴素 AR)。如果对手换上 2023 年之后的新枪(speculative decoding / Medusa / Lookahead),可能跟 ELF 打个平手,甚至反超。
我的判断:ELF 的速度优势在"朴素 AR"那把尺子上是真的,但论文完全没和加速 AR 对比——这是 ELF "比 AR 快"这个核心 narrative 里最没回答的一刀。如果你信"ELF = 下一代 AR 杀手",那这刀就直接戳到了痛处。
7.7 番外争议:"训练省 10 倍",还是只省了 6 倍?
最后一条加餐,是最近社区讨论度最高的一个争议。
ELF 论文里有一张非常吸睛的图——只用 45B token 训练就达到 SOTA,远低于同行的 524B,号称"训练效率高 10 倍"。这数字一出来圈里都炸了。
但是几天之后,一些细心的读者发现了一个细节——
• 作者一方说:"Token 数白纸黑字,10× 红利写在论文 Fig.7c。" • 质疑方说:"你们每个训练步要做 两次模型 forward(一次开 self-conditioning、一次关 self-conditioning),实际算力只省了 6 倍左右,不是 10 倍。" • 我的判断:还是省,但没那么爆炸。"省 6 倍训练 + 推理 32 步"已经够猛了,何必非要包装成"10 倍"?这种"标题党"式包装,是 ELF 论文最让人不太爽的一个点。
比喻:两个工厂,A 厂雇 10 个工人,B 厂只雇 1 个工人——但 B 厂那 1 个工人每天加班干双倍活。最后实际产出比是 1 : 6,不是 1 : 10。B 厂还是赢,但赢得没有海报上那么夸张。
一句话总结这一节:
ELF 是个非常漂亮的工作,但它不是"通杀级"的工作。它的数字漂亮,方向对,但是裁判可能有点小、池塘有点浅、菜还没人按菜谱炒过、对手发着烧、地图还是 2019 年的、海报上吹的 10 倍其实是 6 倍。
可以看好,但别神化。看好它的方向,警惕它的包装。
8、未来:ChatGPT 真的会变成"画"出来的吗
聊完吹和骂,咱们来个最终预测。
ChatGPT 短期会不会被 ELF 这种连续扩散方式替代?
我的判断:12 个月内不会,但5 年内的格局可能完全不一样。
理由分三层。
第一层(6 个月内):ELF 还得等社区独立复现。代码开源到稳定的开源实现 + 各种 ablation 真正被外部跑出来,至少要等到 2026 年底。所以短期内 GPT、Claude、Gemini 这一票还是 AR(哑谜大师派)的天下。
第二层(1 - 3 年内):会先在**"特定场景"看到 ELF 风格的产品**——
• 机器翻译:ELF 论文已经验证了在翻译上有竞争力,未来 1 - 2 年大概率会有商业产品采用类似架构; • 代码补全 / 代码生成的草稿模式:因为代码有强结构,连续扩散 + 全局规划可能反而比 AR 写得更整齐; • 结构化长文生成:法律文书、合同模板、技术报告这种"模板感强"的长文,ELF 风格"先画后写"可能比 ChatGPT 更稳。
第三层(3 - 5 年内):可能出现统一多模态生成模型。这是 ELF 最让人激动的地方。
AI 画图 / 视频 / 3D / 音频 现在都在用扩散 / Flow Matching;如果 AI 写字也用同样的范式,那么一个模型用同一套底层方法生成文字、图像、视频、3D就变得真正可能。
这不只是工程上的简化——这意味着多模态之间的"理解"和"生成"是浑然一体的,AI 可以"看着图片想下一段故事的视频画面",无缝衔接。
但话说回来——
这事会不会真的发生,取决于 ELF 这条路能不能 scale 到 GPT-4 级别。
而这个问题,目前没有人有答案。包括何凯明自己也没有给出。
9、写在最后
最后我想说三个朴素的观察。
第一个:科研里很多看起来"理论上不行"的事情,其实只是"还没人用对方法"。
"连续扩散写字不行"这个说法流传了 5 年,被 ELF 一篇论文翻案了。
这给所有做 AI 的人提了个醒——不要太轻易相信"理论上不行"这种结论。很多时候,所谓"理论上不行",只是因为之前的尝试者没有想到正确的设计。
第二个:AI 画图、AI 写字、AI 视频,正在加速融合。
ELF 是融合趋势里一个清晰的标志位。未来 3 - 5 年,"图像生成"和"语言生成"会越来越像同一件事,工具箱会打通,研究者会同时做两边。这件事对从业者最直接的影响——
如果你今天只懂语言模型不懂扩散模型,或者只懂扩散模型不懂语言模型,未来都会被夹击。
第三个:好的研究不一定是"加东西",更经常是"砍东西"。
ELF 最让我服气的不是它的数字,是它的克制——
• 没有加复杂的 noise schedule • 没有加独立 decoder • 没有加蒸馏 • 没有沿着整条 flow 做 token 级监督 • 没有花里胡哨的 trick
它就靠 1 个网络 + 1 个 unembed 矩阵 + 一个 mode token,把一件被认为是死胡同的事情做通了。
简单不是因为容易,是因为真的把问题想透了。
读完 ELF,你大概率会有一种感觉——
"啊,原来这件事可以这么简单。"
这种感觉,是何凯明过去 10 年所有代表作的共同烙印。ResNet 是这种感觉、MAE 是这种感觉、MoCo 是这种感觉、MeanFlow 是这种感觉——ELF 也是。
总结这篇博客:
ELF 是一篇值得记住名字的论文。它告诉我们——AI 写字下一站可能不是"更大的 ChatGPT",而是"先画后写"的画家派。
它的方向很对、数字很漂亮、设计很优雅;但它的裁判有点小、池塘有点浅、地图还是 2019 年的——这一切都意味着,这是一个起点,不是终点。
故事的下一章会怎么写?要看接下来 12 个月,社区能不能把这套方法在 7B、70B 上验证一次。
如果验证成功,AI 写字的下一站,就开门了。
夜雨聆风