AI生图模型的发家史(附学习文档)

GPT image 2.0 上线一段时间了，从网友的一片哇声中就可以感觉到2.0的优秀了。

2.0的优秀并不是因为[够漂亮]，而是[够聪明]，可以像人类一样处理复杂的设计任务。

GPT-image-2.0 优秀在哪里：

第一，出图之前先查信息

让它做一个品牌海报，它会先找对应品牌的标准色、logo、物料风格，所以生成的东西就能和品牌调性保持一致。

在之前，这些信息需要人手动作为输入提供给AI，现在它自己干了。

第二，保持图片与图片之间的连贯性

以前想保持角色一致性，需要大量 prompt engineering，反复抽卡。现在，它会自己在思考阶段就把角色设定好，保证图片之间共用一套设定。

因为这些信息都在同一套向量空间中，所以AI能够精准定位，理解每一个元素和它们在空间里的逻辑。

第三，自我审查

画完之后，它会自己检查一遍。

用户的 prompt 里有哪些要求？文字对了没？排版歪了没？颜色合理吗？一条条核查后，才会提供输出。（真就是参照人作图的模式来）

但是本文并不想深入谈论 image 2.0 的应用。

我更好奇的是，为什么image 2.0有如此强的设计能力？之前的模型为什么做不到？它们的生图原理有什么不同？AI生图是怎么实现的，又是怎么一路发展到今天的？

打开我的学习搭子--GPT，开始学习。

AI 生图，基本可以分成三个阶段

第一个阶段，GAN（生成对抗网络）

它的原理，简单说就像一个画家跟一个鉴画师在 PK。画家拼命画得好，鉴画师拼命找茬。两个人互相较劲，画家的水平就被逼出来了。

GAN 是 AI 生图的鼻祖，AI换脸、风格迁移这些早期的玩法，底层都是 GAN。但 GAN 有个致命问题——模型坍塌。也就是 AI 长期用自己生成的数据反复训练自己，导致多样性消失、能力退化、越来越 “傻”，最终输出千篇一律。

并且GAN只能画它见过且训练好的图像。像“一只猫骑着马去火星”这种是理解不了的。

第二个阶段，扩散模型（Diffusion Model）。

这是真正把 AI 生图推向大众的功臣。Midjourney、Stable Diffusion、DALL-E 2/3的底层架构，都是扩散模型。

理解扩散模型，先理解扩散的含义：

这是AI对扩散模型的类比解释：

似懂非懂中。。。。。。

这是我对扩散模型邪修的理解：

类似用摄影机记录一杯水洒落的视频，将视频倒放就可以看到一杯水从玻璃渣恢复成一杯水的样子，

而扩散模型的加噪就像一杯水掉在地上的时候，AI的学习就是非常细致地记录了掉落过程中的每一个样子，

扩散模型的去噪就是将视频倒放，AI就知道如果要变成一杯水，应该把哪些部分还原，然后就能做到把玻璃渣变成一杯水（生图）。

只不过AI在训练时，看了很多杯水洒落的视频，从而学会“当水洒落到某种程度时，它的噪声大概具有什么样的概率分布特性”。

。。。

这个原理有点深奥，感兴趣可以找资料进一步学习。

推荐视频：[B站]可视化直观地理解Diffusion(扩散模型)

另外，扩散模型能做图，那它是怎么理解用户提示词的呢？

靠的是翻译官-- CLIP。

CLIP（Contrastive Language-Image Pre-training），OpenAI 在 2021 年发布的跨模态对比学习模型，核心是把图像和文本映射到同一个向量空间，实现 “用语言理解图片”。

简单说，CLIP 有一个文本编码器和一个图像编码器，它把4亿对图文丢进去做对比学习，学会了怎么把「文字描述」和「视觉特征」对齐。

所以当提示词写「一只戴墨镜的猫」的时候，CLIP 把这句话转成扩散模型能理解的特征向量。

CLIP的作用，就相当于给 AI 装上了一个「语言视觉翻译器」，把图片翻译成大模型能理解的语言。让AI生图真正能听懂“人话”。

这个时期的生图逻辑基本就是Prompt + CLIP + 扩散模型：用 CLIP 或者更强的语言模型去理解用户的提示词，再把理解结果喂给扩散模型生图。

这是image 2.0 之前的基本生图范式，核心思路就是「理解归理解，生成归生成，分工协作」。

因为环节之间是分开的，所以信息之间是割裂的，就像PM（文字模型）写需求文档，发邮件给设计部（生图模型）。设计部看不懂PM的黑话，所以经常画错。

然后，到了今天的image 2.0——多模态。

以前是 输入文字 -> CLIP 翻译 -> 扩散模型生图
现在是输入文字 -> 多模态模型 -> 直接输出图像 Token

把图像Token化，让大模型像处理文字一样去处理图像。

音频也好，图像也好，文字也好，都切成一个个 Token。然后用 Transformer 去理解 Token 和 Token 之间的关系。

多模态，就像公司招了一个全栈大牛。自己跑市场，自己写需求，自己做设计。写需求的时候，脑子里已经构思好了每一像素该怎么画。所以理解更准确。

推荐视频：【B站】为啥所有AI都数不清手指？多模态底层原理揭秘

至此，我们就能理解为什么image 2.0 会「思考」了：收到 prompt → 先想想 → 规划 → 搜索资料 → 再画 → 画完检查 → 输出。

这基本就是之前大模型处理文字信息的路径。

也是人类作图的基本路径：先构思>再设计，而不是简单的信息拼接。

结尾

GPT-image-2.0的惊艳，就体现在它具备的“构思”的能力

它不只是一个画画的机器了

而是有“设计感”的设计师

虽然强如2.0，也还是有很多不完美，很多时候会出现信息错误（比如把飞机机舱窗口变为方形的）

但不可否认，AI 正变得越来越像人。

行外看热闹，行内看门道，

花点时间了解一点其中的知识，

就会发现这些知识真的太难了，

但并不“魔幻”

了解了一些基本原理，才能更好地应用它，理解它

未来AI会发展成什么样，不得而知

但，好奇心仍然是人类区别于AI的一个重要特质

作为PM，这一点在今天仍然无比重要

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧

谢谢看我的文章，我们，下次再见。