AI 生图不是堆提示词:一次二创视觉工作流复盘

20 多天，18 个作品，累计大约 10 万播放。

这个数据不算什么大爆款。尤其我的账号本身从零开始，所以它更像一次小规模实验：我想看看，现在的生图模型，能不能不只是生成一张“好看的图”，而是把角色、故事、构图、光影和平台反馈串成一条完整的创作流程。

这段时间，我主要用 Image 2 生成图片，用 Gemini、Codex 帮我梳理背景、拆人物设定、生成和调整 prompt，然后再自己筛图、改方向，发布到抖音和小红书。

做完一圈之后，我最大的感受是：

AI 生图最重要的，可能不是 prompt。

至少不只是 prompt。

我一开始以为，只要把提示词写得足够细，模型就能给出足够好的图。后来发现不是。很多时候，真正决定一张图质量的，是你在写 prompt 之前，有没有想清楚：

这个角色为什么要出现在这里？

他处在什么故事时刻？

画面应该表达性格，还是表达时代？

构图要让人第一眼看到什么？

光影、服装、背景和道具，是不是都在服务同一个气质？

如果这些没有想清楚，prompt 写得越长，反而越容易乱。

先看几组数据

这次有几组数据比较有代表性：

方向	数据	我的判断
钟离｜远古	小红书 1770 观看、242 赞、52 收藏；抖音 6176 播放、475 赞、104 收藏	播放不是最高，但点赞和收藏都比较稳，说明角色气质和故事感被认可
魔神时期	多数单条播放不到 2000 左右，但两边点赞率能接近 10%	更像深度叙事内容，分发不一定最强，但懂设定的人会认可
电影版构图系列	抖音侧系列累计约 5 万播放、1200 多赞、377 收藏	强视觉冲击更容易获得分发
卡片类型系列	小红书侧系列累计约 1.8 万播放、600 多赞、165 收藏	卡片化、设定化、封面清晰，更适合收藏
万叶系列	小红书 151 观看、25 赞、0 收藏；抖音 538 播放、18 赞	图不差，但题材热度、封面冲击和收藏理由都不够强

这些数据放在一起，我后来才意识到一件事：

一张图“好看”、一张图“被平台推”、一张图“让人点赞”、一张图“让人收藏”，其实不是同一件事。

AI 可以很快把“好看”做出来，但如果要让内容被看见、被认可、被收藏，光靠好看不够。它还要有题材热度、封面冲击、故事理解和用户保存的理由。

第一类实验：先有故事，再有画面

我比较满意的一组，是“魔神时期”相关的系列。

这组图不是直接写“某个角色，神明，宏大，电影感”，然后交给模型发挥。

我会先查相关的故事背景，理解角色在那个时期的处境，再去定义每张图应该表现什么。

有的图重点是登场，有的图重点是审判，有的图重点是继承，有的图重点是战争之后的回望。

也就是说，我不是先想画风，而是先想“这一张图在讲哪一个瞬间”。

这组作品的数据不算最高，很多作品播放在不到 2000 左右，但两边平台的点赞率能接近 10%。它不一定最适合平台分发，但懂角色、懂故事的用户会更愿意认可。

这里我学到的第一件事是：

二创图不是把角色放进一个漂亮背景里。

真正有效的二创，是把角色放回他的故事里。

钟离｜远古：从“仙气”改到“人物气质”

另一个让我印象很深的案例，是“钟离｜远古”。

这组数据相对比较稳定：小红书 1770 观看，242 点赞，52 收藏；抖音 6176 播放，475 点赞，104 收藏。

一开始我想做的是“钟离 + 古代仙侠 + 飘逸感”。

我让 Gemini 先帮我拆了一遍仙侠类型：凡人修仙、江湖游侠、世外隐仙、蜀山降魔、上古神王。最后比较适合钟离的方向，是“世外隐仙的气质 + 上古神王的威严”。

这个判断本身是对的，但第一次 prompt 还是容易跑偏。

因为当我写“仙气”“飘逸”“丝绸”“飘带”“柔光”的时候，模型很容易把它理解成薄纱、飘带、柔美、女相。

画面可能好看，但不像钟离。

后来我才意识到，钟离这个角色的核心不是“飘”，而是“稳”。

他不是单纯的仙侠美男，而是岩神、契约、历史、秩序、沉静和厚重。

所以后面的 prompt 开始从“仙气”转向更具体的视觉约束：

structured black and gold robes broad shoulders matte basalt texture solemn expression cinematic side light weathered stone terrace no floating ribbons no glossy digital sheen

也就是把抽象审美翻译成具体控制项：服装不要飘带，要硬挺结构；光影不要全是柔光，要有侧光和骨骼感；材质不要塑料金光，要有玄武岩、黑曜石、哑光暗金；神情不要只是“平静”，而是“深沉、睿智、庄严”。

这次迭代让我意识到一个很重要的问题：

模型并不知道你心里的“高级感”是什么。

你写“神圣”，它可能给你大金光。

你写“仙气”，它可能给你飘带和薄纱。

你写“干净”，它可能把质感也洗掉。

所以生图不是不断堆形容词，而是把感觉拆成材质、光源、动作、轮廓、背景密度和人物气质。

失败案例：图不差，不代表适合平台

也有一些我自己觉得没那么成功的，比如“万叶”系列。

这组小红书大概 151 观看，25 点赞，0 收藏；抖音 538 播放，18 点赞。

单看图，其实不算差。

它有人物、有红叶、有风元素，也有比较完整的画面。但数据一般，尤其收藏弱。

我后面复盘，可能有几个原因：人物热度和版本节奏有关；封面第一眼没有特别强的视觉钩子；构图也相对常规，更像一张好看的角色图，而不是一个让人愿意停下来、放大看、收藏的主题图。

这件事对我挺有提醒：

AI 生成质量只是基础。

平台传播还取决于题材热度、封面第一眼、系列感和收藏价值。

一张图“好看”，和一张图“适合传播”，不是一回事。

第二类实验：产品能不能自然进入画面

我还做过一组“产品场景融合”的实验，比如芙宁娜、钟离和电子产品相关的图。

这类图我不太想把它叫成“带货图”。

我更愿意把它看成一次 AIGC 商业视觉实验：生图模型能不能把现代电子产品自然放进角色场景里，而不是像贴图一样硬塞进去。

比如一个折叠屏手机，不能只是放在桌上。

它要进入角色正在做的事情里，进入场景光影里，进入桌面物品关系里。

如果角色在雨夜写歌，那么产品可以是歌词、乐谱、屏幕、音乐界面的一部分。

如果角色在往生堂日常里，那么产品要自然变成桌面工作流的一部分，而不是跳出来抢戏。

这个方向让我觉得，AI 生图后面真正有价值的地方，不只是“生成漂亮图”，而是生成可用于不同场景的视觉素材。

它更像一个内容生产流程，而不是单次创作。

第三类实验：参考热门风格，确实会拉高播放

还有两组数据比较有代表性。

一组是“电影版构图”系列，在抖音侧系列累计约 5 万播放，1200 多点赞，377 收藏。

另一组是“卡片类型”系列，在小红书侧系列累计约 1.8 万播放，600 多点赞，165 收藏。

这两组都有一个共同点：我参考了当时比较火的一些内容风格。

卡片类型更像角色收藏卡、神格卡、设定卡，结构清晰，视觉符号集中，很适合小红书收藏。

电影版构图则更强调冲击力：近景、透视、武器延伸、人物像要从画面里冲出来。它在抖音这种快速滑动场景里更容易抓住第一眼。

但这里也有一个反差：

高播放不一定等于高共鸣。

像魔神时期和钟离远古，播放未必最高，但点赞率和收藏反馈更好。卡片类型、电影版构图更容易拿平台流量，但它们的吸引力更来自封面和形式。

所以我现在会把内容分成两类看：

强风格、强封面、强构图，负责拉流量。

故事理解、人物关系、情绪表达，负责留下用户。

如果只做前者，内容容易变成模板。如果只做后者，平台可能不给你太多展示。

真正难的是在两者之间找平衡。

小规模商业反馈

除了播放、点赞和收藏之外，还有一个小信号让我觉得这件事不是纯自娱自乐。

这 20 多天里，陆续有 5 个左右相关的人来问能不能定制类似图片。最后我只接了其中一个。

原因也很简单：我还不想把它变成单纯接单，也不想为了效率牺牲质量。

但这个反馈让我意识到，AI 生图如果只是发好看的图，价值会比较薄。

真正有价值的是把主题、角色、风格、交付标准和迭代过程变成一套可复用流程。

我后面也做过传统文化主题和角色矩阵结合的定制化尝试。因为相关图片还没公开，这里先不展开。

我没有选择纯流量路线

现在 AI 生图账号里，有一类内容涨得很快。

它们会选择更强感官刺激、更偏幻想消费的方向，比如恋爱关系、亲密氛围、特定服装风格，再通过粉丝群、下载链接、广告观看、定制服务或者二创产品做转化。

这条路短期数据可能更快，也确实有市场。但它的问题也很明显：容易被平台审核、容易被举报，也更容易把内容做成单一刺激。

我不是完全否定这种路径。它能跑通，说明用户需求是真实存在的。

但我自己更想试另一条路：不靠单纯刺激感，而是看 AI 能不能理解角色、世界观、故事节点和商业场景，把一张图做成“有设定、有构图、有情绪、有反馈”的视觉内容。

所以这次我更关心的不是“怎么写一个爆款 prompt”，而是“怎么搭一条能反复迭代的视觉工作流”。

我现在怎么看 prompt

做完这些之后，我对 prompt 的理解变了。

以前我会觉得 prompt 是“咒语”。

现在我更觉得，prompt 是一份临时的视觉需求文档。

它不应该只是堆：

masterpiece, best quality, ultra detailed, cinematic, beautiful

这些词不是完全没用，但如果只有这些，模型很容易给你一张“看起来很 AI”的图。

更重要的是，你要告诉模型：主体是谁，他此刻是什么状态，画面的第一视觉中心是什么，背景服务什么情绪，服装应该是什么材质和结构，光从哪里来，哪些东西不要出现。

最后比较有效的方式，是先用 Gemini、Codex 把角色和故事聊清楚，再把抽象感觉翻译成明确的视觉控制项，最后用 Image 2 生成，再人工筛选和微调方向。

写在最后

这次实验对我最大的改变，是让我不再把 AI 生图看成“写 prompt 出图”。

它更像一条小型内容生产链路：

先理解主题。

再拆角色和故事。

再定义画面目标。

再写 prompt。

再生成、筛选、发布、看数据。

最后反过来修正下一组内容。

AI 降低了绘制门槛，但没有降低判断门槛。

甚至某种程度上，它把判断力变得更重要了。

因为现在图很容易生成，真正难的是知道哪张图值得生成，哪张图应该保留，哪张图看起来好但不适合发，哪张图数据高但没有长期价值。

如果重新总结这 20 多天，我会说三点：

第一，不要只问模型“帮我画一张好看的图”。先问自己，这张图为什么存在。

第二，prompt 不是越细越好。主次、材质、光影、构图和人物气质，比堆高质量词更重要。

第三，平台数据不是唯一目标，但它是很好的反馈。播放、点赞、收藏、评论和定制咨询，都能帮你判断这套视觉方向有没有继续做下去的价值。

大概就是这样。

这篇不是一个“爆款生图教程”，更像是我对一次 AIGC 视觉内容实验的复盘。

我现在越来越觉得，AI 时代真正重要的不是单次生成能力，而是把模型能力组织成稳定流程的能力。

从这个角度看，AI 生图不是终点。

它只是我们理解 AI 内容生产、产品化和工作流设计的一个入口。