AI生图模型的发家史(附学习文档)GPT image 2.0 上线一段时间了,从网友的一片哇声中就可以感觉到2.0的优秀了。2.0的优秀并不是因为[够漂亮],而是[够聪明],可以像人类一样处理复杂的设计任务。让它做一个品牌海报,它会先找对应品牌的标准色、logo、物料风格,所以生成的东西就能和品牌调性保持一致。在之前,这些信息需要人手动作为输入提供给AI,现在它自己干了。以前想保持角色一致性,需要大量 prompt engineering,反复抽卡。现在,它会自己在思考阶段就把角色设定好,保证图片之间共用一套设定。因为这些信息都在同一套向量空间中,所以AI能够精准定位,理解每一个元素和它们在空间里的逻辑。用户的 prompt 里有哪些要求?文字对了没?排版歪了没?颜色合理吗?一条条核查后,才会提供输出。(真就是参照人作图的模式来)但是本文并不想深入谈论 image 2.0 的应用。我更好奇的是,为什么image 2.0有如此强的设计能力?之前的模型为什么做不到?它们的生图原理有什么不同?AI生图是怎么实现的,又是怎么一路发展到今天的?它的原理,简单说就像一个画家跟一个鉴画师在 PK。画家拼命画得好,鉴画师拼命找茬。两个人互相较劲,画家的水平就被逼出来了。GAN 是 AI 生图的鼻祖,AI换脸、风格迁移这些早期的玩法,底层都是 GAN。但 GAN 有个致命问题——模型坍塌。也就是 AI 长期用自己生成的数据反复训练自己,导致多样性消失、能力退化、越来越 “傻”,最终输出千篇一律。并且GAN只能画它见过且训练好的图像。像“一只猫骑着马去火星”这种是理解不了的。第二个阶段,扩散模型(Diffusion Model)。这是真正把 AI 生图推向大众的功臣。Midjourney、Stable Diffusion、DALL-E 2/3的底层架构,都是扩散模型。类似用摄影机记录一杯水洒落的视频,将视频倒放就可以看到一杯水从玻璃渣恢复成一杯水的样子,
而扩散模型的加噪就像一杯水掉在地上的时候,AI的学习就是非常细致地记录了掉落过程中的每一个样子,
扩散模型的去噪就是将视频倒放,AI就知道如果要变成一杯水,应该把哪些部分还原,然后就能做到把玻璃渣变成一杯水(生图)。
只不过AI在训练时,看了很多杯水洒落的视频,从而学会“当水洒落到某种程度时,它的噪声大概具有什么样的概率分布特性”。
推荐视频:[B站]可视化直观地理解Diffusion(扩散模型)另外,扩散模型能做图,那它是怎么理解用户提示词的呢?CLIP(Contrastive Language-Image Pre-training),OpenAI 在 2021 年发布的跨模态对比学习模型,核心是把图像和文本映射到同一个向量空间,实现 “用语言理解图片”。简单说,CLIP 有一个文本编码器和一个图像编码器,它把4亿对图文丢进去做对比学习,学会了怎么把「文字描述」和「视觉特征」对齐。所以当提示词写「一只戴墨镜的猫」的时候,CLIP 把这句话转成 扩散模型 能理解的特征向量。CLIP的作用,就相当于给 AI 装上了一个「语言视觉翻译器」,把图片翻译成大模型能理解的语言。让AI生图真正能听懂“人话”。这个时期的生图逻辑基本就是Prompt + CLIP + 扩散模型:用 CLIP 或者更强的语言模型去理解用户的提示词,再把理解结果喂给 扩散模型 生图。这是image 2.0 之前的基本生图范式,核心思路就是「理解归理解,生成归生成,分工协作」。因为环节之间是分开的,所以信息之间是割裂的,就像PM(文字模型)写需求文档,发邮件给设计部(生图模型)。设计部看不懂PM的黑话,所以经常画错。- 以前是
输入文字 -> CLIP 翻译 -> 扩散模型 生图 - 现在是
输入文字 -> 多模态模型 -> 直接输出图像 Token
把图像Token化,让大模型像处理文字一样去处理图像。音频也好,图像也好,文字也好,都切成一个个 Token。然后用 Transformer 去理解 Token 和 Token 之间的关系。多模态,就像公司招了一个全栈大牛。自己跑市场,自己写需求,自己做设计。写需求的时候,脑子里已经构思好了每一像素该怎么画。所以理解更准确。
推荐视频:【B站】为啥所有AI都数不清手指?多模态底层原理揭秘至此,我们就能理解为什么image 2.0 会「思考」了:收到 prompt → 先想想 → 规划 → 搜索资料 → 再画 → 画完检查 → 输出。也是人类作图的基本路径:先构思>再设计,而不是简单的信息拼接。GPT-image-2.0的惊艳,就体现在它具备的“构思”的能力虽然强如2.0,也还是有很多不完美,很多时候会出现信息错误(比如把飞机机舱窗口变为方形的)就会发现这些知识真的太难了,
但并不“魔幻”
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧