我们在#24期创作了一只可爱的午后橘猫。从提示词到一幅画的生成,中间发生了什么?这篇文章帮你拆开AI文生图的核心技术链。
路标
在AI四层生态中,我们走到了模型层的多模态生成分支。本文聚焦“文生图”,以“午后橘猫”为贯穿案例,拆解AI将文字转化为图像,跨模态生成的完整过程。

什么是多模态?
多模态,就是让AI同时理解文字、图像、声音等多种信息形式。
理解多模态,就抓住了AI从“看懂世界”到“创造世界”的关键一步。
它为什么关键?
这项技术直接决定了人机交互的自然度、创意表达的效率和AI工具的实用性:无需学画画就能生成专业图像,灵感落地仅需几秒,让AI工具从“玩具”升级为配图、海报设计等生产力工具。
对普通用户而言,手机里的文生图App、AI修图工具,甚至相册智能生成,底层都依赖这套技术。理解它,就能更精准“指挥”AI画出想要的效果。

它是怎样工作的?(技术链五步)
1. 文字编码——把“人话”转成数字
AI无法直接识别汉字语义,需通过CLIP文本编码器(先将文字、图像分别编码,再实现跨模态语义对齐),将“午后橘猫,毛茸茸的轮廓”这类文字,转化为数字形式的向量。
CLIP核心做三件事:分词(拆分句子为“午后”“橘猫”等语义最小单元token)、向量化(每个token对应高维向量)、语义对齐(输出文字语义数字化的条件嵌入,作为后续导航)。
“午后”的向量含“暖光、明亮”信息,“毛茸茸”含“柔软、边缘模糊”信息,直接影响后续图像生成的色调和质感。
2. 潜空间压缩——先做“草稿”再作画
完成文字编码后,AI会通过VAE(变分自编码器)压缩图像:一张3×512×512的图,会被压缩成4×64×64的潜空间表示(数据量仅为原来的1/48),相当于画家先画草稿,既提升效率,又便于修改。
这意味着“橘猫”先在64×64的抽象特征图中优化,再放大补全细节,避免直接画像素的高计算量。

3. 扩散去噪——从“雪花屏”到“橘猫”
这是核心步骤:AI从随机噪声“雪花屏”开始,通过15-50次迭代去噪,结合文字指令引导方向,核心依赖U-Net神经网络(预测噪声、融合文字与图像语义)。
通过交叉注意力机制,文字会精准引导画面——模型实时计算每个像素区域与提示词中每个词的关联权重:权重高的区域(如“橘色”)被强化为橙色,权重低(如“背景虚化”)的区域被模糊处理。就这样,“橘色”强化毛色,“毛茸茸”优化边缘,“背景虚化”聚焦主体。
CFG(提示词强度)旋钮控制模型对提示词的服从度:常用7-12,值越高AI越严格遵循你的描述,略显刻板;调低到3-5则更灵活,常有意外惊喜。

迭代过程中,橘猫从模糊色块逐渐显形,30步后细节清晰,最终强化背景和毛发质感。
(这一步就是我们在#24期介绍过的,学术界所说的“扩散模型”:从随机噪声逐步去噪,生成目标图像。)
4. 图像解码——从草稿还原高清图
去噪完成后,VAE解码器将潜空间的压缩数据,还原成3×512×512的高清像素图,解码器质量直接决定眼睛、毛发等细节的自然度。
5. 参数如何影响你的猫
Steps(迭代步数):20-30步满足日常需求,步数越多细节越丰富,精细创作可至50步。
CFG Scale:常用7-12,值越高AI越严格遵循提示词;调低到3-5则更自由,常有意外之喜。
Seed(随机种子):固定种子可生成相同橘猫(适合系列创作),更换种子则形态不同。

当前水平与瓶颈
当前能做到的:稳定生成2K图像,支持复杂构图,能精准处理“潮湿的皮毛”等抽象描述,可局部修改图像(例如圈出猫的眼睛,说“眼睛再大一点”,AI只改局部)。
仍在攻克的瓶颈:难以实现细微特征控制(如“左耳稍耷拉”),物理规律适配不足(倒影、毛发动态异常),长文本实体易错位,文字渲染易乱码(如“午安”笔画粘连)。
近期里程碑:ChatGPT Images 2.0支持网页搜索生成,Wan-Image优化光照和文字渲染,国产模型在中文理解上更具优势。
未来与领跑者
发展趋势:
短期(1-2年)2K-4K成标配,对话式修改成主流;
中期(3-5年)实现图层级可控生成;长期AI可自主理解物理规律。
行业领跑者:
海外——OpenAI(DALL·E)、Midjourney、Stability AI(Stable Diffusion);
国内——通义万相、文心一格、千问等。

与你有关
理解技术后,可更高效设计提示词:错误示例“橘猫”(模糊);优化后“午后柔光下,毛茸茸的橘猫,趴在窗台,背景虚化”(补充感官词汇)。
既然理解了AI画图的原理,那么有两个实际问题值得注意:
1. 提示词技巧:多加具象词汇(材质、光线、情绪),固定Seed保持主体一致。
2. 版权与创作记录:仅输入简单提示词难以主张版权,保留提示词迭代优化记录、调整参数截图、草稿文件——这些是你的“创作指纹”。
溯源与结语
从2020年扩散模型的提出,到2022年Stable Diffusion开源让普通人也能“画猫”,再到今天多模态融合、2K分辨率普及——这条技术路只用了不到六年。
每一次迭代,都不是模型自己变聪明了,而是研究者不断给AI提供更清晰的“路标”:更好的文本编码、更高效的潜空间、更精准的注意力机制。
AI画图是用户(定义需求、优化提示词)与工程师(技术开发)协同的AI辅助创作,每一次提示词输入,都是技术与创意的结合。

关于本文
本文为“AI认知地图”系列之一,不堆砌术语、不制造焦虑,聚焦文生图核心逻辑,帮你看懂AI画图的底层原理。
(本文为编者与AI工具DeepSeek、豆包多次对话获取信息,经人工整合撰写)
(本文插图除标明原创外,为豆包AI助力生成)
夜雨聆风