谷歌把AI写字的逻辑改了。不开灯一个个写,而是256个字同时"亮"出来

有一个你每天都在用的技术,底层逻辑已经十年没变过了。
GPT 是这么写字的:一个字一个字往外蹦。"我" → "今天" → "天气" → "不错"。每个字都依赖前面所有的字。像一条项链,串在一条线上。
这个技术叫"自回归"。从 2017 年 Transformer 提出到现在,几乎所有的大语言模型都是这么干的。
Google 刚开源了一个模型,不这么干了。
它叫 DiffusionGemma。用的是文本扩散技术。不一个字一个字来,而是一次生成 256 个 token。
就像拍照和画画。自回归是画画,一笔一笔勾勒。扩散是拍照,整个画面一次曝光。
01 256 个 token,一次"亮"出来

什么叫"一次生成 256 个 token"?
传统模型的工作方式是这样的:开始是一串随机噪声,然后模型去噪。去一遍,出来一个字。再去一遍,出来第二个字。去 100 遍,出来 100 个字。
扩散模型的工作方式是这样的:开始也是随机噪声,然后模型去噪。但它不一次去一个字,而是一次去 256 个字。一次前向传播,256 个位置的噪声同时被扫掉,256 个 token 同时"亮"出来。
就像一盏大灯,一开,整个房间都亮了。而不是用手电筒一个一个角落照。
这个差异直接体现在速度上。在 H100 上,DiffusionGemma 跑到 1000+ tokens/s。在 RTX 5090(一张消费级显卡)上,700+ tokens/s。比同类自回归模型快 4 倍。
而且不只是快。扩散模型有自回归模型不具备的能力。
一个是双向注意力。 自回归模型只能看"过去"(已经写出来的字),不能看"未来"(还没写的字)。扩散模型可以同时看所有位置。这意味着它在写第 50 个字的时候,已经"知道"第 200 个字要写什么。
一个是自我修正。 自回归模型写错了就错了,只能删掉重来。扩散模型可以在去噪过程中自己发现"这里不太对",自己改回来。
这两个能力带来的体验差异是巨大的。尤其是在内联编辑和代码填充这种需要"前后文都看"的场景。
02 26B 的模型,只要 3.8B 的算力

DiffusionGemma 是一个 26B 参数的 MoE(混合专家)模型。但它推理时只激活 3.8B 参数。
这个比例很夸张。26B 的大脑,只用 3.8B 的能耗。
怎么做到的?MoE 架构。模型里有多个"专家"子网络,每次推理只激活其中一小部分。其余专家在待命状态,不耗算力。跟 Cohere 的 North Mini Code 是同一个逻辑,但扩散模型的"激活比"更极端。
量化后,只需要 18GB 显存。
这意味着什么?一张 RTX 4090、RTX 5090,甚至一张高配的消费级显卡,就能在本地跑。不需要 H100,不需要数据中心,不需要每月付云服务费。
Apache 2.0 协议开源。免费商用。免费修改。免费分发。
谷歌在 Gemma 系列上已经累计了 1.5 亿次下载。DiffusionGemma 的实验性质更强一些——它是"实验模型",不保证生产可用——但方向已经非常明确了。
下一代文本生成,不一定非要是自回归的。
03 十年没变的"写字方式",有人来挑战了

自回归模型统治文本生成已经快十年了。
从 GPT-1 到 GPT-5.5,从 Claude 1 到 Claude Fable 5,底层都是"一个字一个字往外蹦"。能力越来越强,但生成逻辑没变过。
这带来了一些根本性的问题。
第一个,速度上限。 自回归的速度有一个天花板。因为必须串行,没法并行。你可以优化每一步的计算速度,但 100 个 token 必须计算 100 步。这个天花板限制了所有自回归模型。
第二个,单向性。 前面说的,只能看过去不能看未来。这个问题在某些场景(比如代码填充、翻译、校对)尤其明显。
第三个,不可逆性。 自回归模型写错了只能重来。因为它是"往前走"的,没有回头路。
扩散模型在这三个问题上都有根本性的优势。并行生成,速度天花板高得多。双向注意力,没有"前后"限制。迭代去噪,天然支持自我修正。
当然,扩散模型也不是银弹。
自回归模型在逐字的精确控制上更有优势,在长文本的连贯性上也更成熟。DiffusionGemma 是一个实验模型,还有很多问题要解决。但它证明了一件事:自回归不是唯一的路。
十年不变的东西,终于有人来松土了。这本身就是好消息。
最后
DiffusionGemma 在 HuggingFace 上。搜 google/diffusion-gemma。
Apache 2.0 协议。免费商用。18GB 显存就能本地跑。
如果你有一张 RTX 4090 以上的显卡,去下载它。感受一下 AI 一次"亮"出 256 个字是什么体验。
跟 GPT 完全不同的写字方式。免费的。开源的。本地的。
以上信息基于 Google DeepMind 官方博客及 HuggingFace 等评测数据。
夜雨聆风