
先问你个问题:Midjourney 给你出一张图,你觉得它是怎么"画"的?
我一开始的想象是:它像个超快的画师,从一张白纸开始,一笔一笔把线条、颜色填上去。
后来我才知道,完全不是。它根本不"画"。它是从一整张电视雪花点开始,一步一步把噪声"擦"掉,图像从模糊到清晰,慢慢"显影"出来的——更像在一块毛玻璃上,一点点擦出一幅画。
这件事我琢磨明白之后,顺手把"AI 到底有几种、怎么生成、怎么训练"也一起缠清楚了。这一期就用一个特别省事的框架讲给你:AI 生成万物,说到底只有两个门派。
欢迎来到3分钟速通大模型的第2期,这一期,我们来聊聊这些 AI 到底是怎么把东西"无中生有"造出来的。
AI生成其实就两个门派
你肯定刷到过这种讲法:"AI 分文生文、文生图、图生图、自回归模型、扩散模型……" 一长串名词糊过来,听完还是一团浆糊。
问题出在:这串词里,"文生文、图生图"说的是它能干什么(输入输出是文字还是图),"自回归模型、扩散模型"说的是它内部怎么生成——两个根本不是一回事的维度,被人硬摆在一起列清单,当然越听越乱。
换个抓手就清楚了。不管模型五花八门,它们"生成"东西的活法,其实只有两套:
- •接龙派
(学名:自回归) - •去噪派
(学名:扩散)

下面一个一个看。
第一个,接龙派
内容是一个字一个字"猜"出来的
代表选手:ChatGPT、DeepSeek,所有写字的 AI。
它写东西的方式,说穿了就俩字:接龙。
根据你给的开头、加上它读过的半个互联网,它去猜最该接的下一个字;猜完这个字,把它接上,再猜下一个;就这么一个接一个往外蹦,像一个永远不卡壳的文字接龙高手。你看它一个字一个字往外蹦的样子,就是真的在"接龙"。

那它这身接龙的本事是怎么练的?
也很朴素:把海量文本里的词随机遮住,逼它猜被遮住的是什么,猜错了就纠正它。亿万次之后,它就练出了一种语感——"这个词后面,最该接哪个词"。说白了就是做了亿万道完形填空。而每做错一道、纠正一次,被调的其实是模型内部那亿万个参数——你常听的"多少 B 参数",指的就是它们;训练,本质就是把这些参数一点点调准的过程。
第二个,去噪派
内容是从一团雪花点里"擦"出来的
代表选手:Midjourney、Sora,所有出图、出视频的 AI。
这一派的活法,跟接龙派完全相反,也是文章开头说到的那个点。
它不是从白纸开始一笔笔画。它是从一整张纯随机的雪花噪点开始(对,就是老电视没信号那种),然后一步、一步、再一步,把噪声"擦"掉一点。每擦一轮,图就清晰一点;擦着擦着,一只猫、一个宇航员,就从那团雪花里慢慢"显影"出来了。
生成不是"画上去",是"从噪声里擦出来"。

那它怎么学会"擦噪声"的?
反过来教它就行:拿一张清清楚楚的猫图,故意一点一点给它加雪花噪声,直到糊成一片;让它去学"每一步我加了什么噪声、原来该长什么样"。它把"加噪"这个过程学到能倒着走,就等于学会了——从一团纯噪声里,反推出一张全新的图。
加噪它见得多了,去噪自然就会了。
为什么文字用接龙、图片用去噪?
你可能会问:凭什么文字用接龙、图片用去噪,不能反过来吗?
有个挺直觉的原因:文字是一个一个字排着的序列,天生就适合一个接一个地猜;而图片是一大片像素一次性铺开的,与其一个像素一个像素去猜,不如从整体的噪声里"一起雕",更顺手也更自然。
所以你再听到那些词,就能一眼归位了:
文生文 → 接龙派;文生图、图生图、文生视频、文生音乐 → 主流都是去噪派。
一张图、一段视频、一段音乐,本质上都是"高维的、要整体生成的东西",所以主流都交给了去噪派。
但其实没那么绝对
大多数科普讲到这就收了。但既然是认真聊,我得补一句——这两派之外还有交叉,并非绝对:
- •
早期画图用的是第三种"对抗派"(学名 GAN):两个网络互相较劲,一个拼命造假、一个拼命抓假,你来我往把图练真。现在被去噪派抢了大半风头,但它是图像生成的老前辈。 - •
最近"用接龙的方式画图"又回潮了——把图片切成小块当成"字",用接龙的思路一块块生成,一些原生多模态模型在走这条路。 - •
视频那边(比如 Sora)其实是"去噪 + Transformer"的混血,业内叫 DiT。
但大盘上,接龙派管文字、去噪派管图像视频音频,这个底子是稳的。记住这两派,你看任何一个 AI 生成产品,基本都能对上号。
一张图记住:两派打天下
把这一期收口成一张你能存下来的图:

接龙派(自回归)—— 猜下一个 —— 文字(ChatGPT)
去噪派(扩散) —— 从噪声擦出来 —— 图 / 视频 / 音频(Midjourney、Sora)
旁支:对抗派(GAN)、自回归画图回潮、视频混血(DiT)
下次再有人跟你聊"这个模型那个模型",你心里先过一遍:它是猜下一个的,还是从噪声里擦的?八九不离十就归好类了。
入门 AI,真不用一上来就啃论文。先抓住"它到底怎么造东西"这条主线,很多名词自己就通了。
这是第二期。后面我们接着往里走,一个一个把大模型的"怎么造、怎么练"聊透。
夜雨聆风