很多人聊 AI 出图,话题永远停在"画得好不好看"。
我也是这么以为的。直到我真的拿 AI 给一个项目批量出图——我做的一个少儿英语场景单词卡的项目,要给一堆生活场景画配图,厨房、超市、动物园,一个场景一张卡。这种活的痛点根本不在画得好不好,在另外一件事上:同一个小人,出第一张可爱,出到第二十张,你认不出他是同一个人了。
说实话,画得好看 AI 早就会了。真正难的、也是只有你真去批量出过才会撞上的,是另外两件事:改一处就把整张画崩掉,和同一个形象保持不住一致。
我前阵子翻自己的语音笔记,看到这么一条心法,今天就掰扯清楚——它特别反直觉,但我是踩坑踩出来的:宁可整张重出,也别把原图提交上去让它改。
改一处崩整张,是真的会崩
先说我最痛的那个坑。
那会儿我主要用 Nano Banana 出图。一套场景卡生成出来,总有那么几张带点瑕疵——可能是杯子画歪了,可能是小人手里多了根线条。我就很自然地想:那就改一下嘛。
结果就是,改着改着,一改整个画面全变了,崩掉了。
我本来只想动那只杯子,它给我连小人的脸、背景的色调、整体的构图一起换了一套。你以为是做个微调,它理解成了重画一张。改完往往比改前还糟。
我后来才反应过来:对 AI 来说,"在这张图上改一个地方"这个动作本身就是危险的。你给它一张图、再给它一句"把杯子挪一下",它不是拿橡皮在原图上擦掉重画,它是把你这张图重新理解一遍、再重新生成一遍。理解的过程就有损耗,生成的过程就有随机。你动的是一个字,它重算的是一整张。
所以"精修一处"听起来最省事,其实是最容易崩的那条路。
宁抽卡不修改,到底怎么做
那不改怎么办?答案就一句:别在原图上改,回到提示词上改,整张重新生成。
我现在出一套图的流程是这样的。
先让 AI 生成个几张,我不看细节,只看一件事——整体风格对不对。色调、画风、那个气质,是不是我要的。
如果风格有偏差,我就先让它调方向,把风格掰回来,这一步还是在"风格"层面折腾,不碰具体内容。等风格对了,我才让它按这个风格把整套生成出来。
然后是关键的那一下:哪一张文本出错了、或者版式我不喜欢,我调对应那张的提示词,整张重新生成,而不是把原来那张图提交上去让它改。
听起来好像更费——重出一张不是比改一处更慢吗?但你真做过就知道,重出的成功率比修改高太多了。改一处是在走钢丝,重出一张是回到平地。我宁可多生几版挑一版顺眼的,也不去赌那一次"它这回能只改我说的地方"。
说到底,修改是有损的,重出才是干净的。这跟"画得好不好"半点关系没有,纯粹是 AI 出图这个东西的脾气。
把形象锁成一张图,比每次靠嘴描述稳
光"重出"还不够。重出也得保证重出来的还是同一个小人——不然你这套卡片二十张,二十个画风。
我现在保持 IP 一致,靠的是一张"底图"。
具体是这样:我先让 AI 生成一套这个 IP 的三视图,正面侧面背面,再加上一些周边的小物件,全部塞在同一张图里,然后把这张图压缩一下存好。这张图就是这个形象的"身份证"。
之后每生成一张新卡片,我都把这张 IP 图当参考图上传上去,走图生图。再配一段通用前置提示词,专门描述这个 IP 的整体长相——发型、配色、五官比例那些。最后才根据这一张具体要画什么,追加这一张独有的细节:他在厨房、他拿着苹果、他笑着。
前面那段通用提示词和那张底图,每次都不变;变的只有最后那点细节。
你可能会问,为什么非得压一张图当参考,光靠文字描述形象不行吗?因为文字描述形象,本身就是一种有损压缩——你说"圆脸大眼睛的小男孩",一千个人画出来一千个样,AI 也一样,它每次都在你这句话的范围里重新发挥一遍。但你给它一张实打实的参考图,它有个锚,发挥的余地一下就小了。一张图顶你写一百个字,还更准。
工具进化了,现在抽卡比以前少多了
上面这些,是我从 Nano Banana 那个年代一路踩过来的笨办法。这两年工具变了,有些活轻松不少。
最大的变化是,AI 现在会自己边生边检。我现在主要用订阅的 Codex 和 ChatGPT 网页版,背后是 gpt-image-2。它生成的过程中会自己检查每一张符不符合要求、有没有瑕疵,发现瑕疵它直接自己重新生成,不用我盯着一张张挑了。我只负责最后整体的总检查——扫一眼整套,看大方向有没有跑偏。中间那些重生的活,它自己干了。
对比一下就有感觉。Nano Banana 那会儿,一张图我可能得抽 2~3 次才出一张能用的,跟抽卡一样,挺熬人。现在 gpt-image-2 这套出来之后,抽卡明显少了,基本只在版式不喜欢、或者文本出错的时候才需要重出。
顺手说两个真实的小坑。一个是限流:Codex 有 5 小时的限制,ChatGPT 网页版也会限,批量出到一半卡住是常事,撞上了我就拿 API 兜底——但 API 偏贵、要额外付费,能用订阅就先用订阅。另一个是清晰度,这个我想得跟以前不一样了。以前调 API 我无脑拉 high,后来发现 middle 也够用,有些场景 low 出来都能用,现在我基本在 low 和 medium 之间切。原因很实在:小红书、公众号上的图,大部分根本用不到那么高的分辨率,你就算传个高清上去,平台也照样给你裁、给你压。为不会被看到的清晰度多付钱,不值当。
难的不是画得好,是稳定
写了这么多,其实就一个意思:AI 批量出图这件事,难的从来不是让它画得好看,是让它稳定——同一个形象出一套不走样,改一个地方不连累整张。而稳定的诀窍,恰恰是反过来的:少在原图上较劲,多在提示词和参考图上较劲;别迷信"精修一处",老老实实整张重出。
一套图我现在大概出 7~15 张,按公众号文章的长度动态加减。这些都是我自己一张张试出来的,不是什么权威方法,你完全可以有自己的路子。
下次再出图崩了,先别急着在那张图上改——退回去,改提示词,整张重来。会快很多。
夜雨聆风