为什么 AI 出图越改越糟?因为修改本身就是有损的

很多人聊 AI 出图，话题永远停在"画得好不好看"。

我也是这么以为的。直到我真的拿 AI 给一个项目批量出图——我做的一个少儿英语场景单词卡的项目，要给一堆生活场景画配图，厨房、超市、动物园，一个场景一张卡。这种活的痛点根本不在画得好不好，在另外一件事上：同一个小人，出第一张可爱，出到第二十张，你认不出他是同一个人了。

说实话，画得好看 AI 早就会了。真正难的、也是只有你真去批量出过才会撞上的，是另外两件事：改一处就把整张画崩掉，和同一个形象保持不住一致。

我前阵子翻自己的语音笔记，看到这么一条心法，今天就掰扯清楚——它特别反直觉，但我是踩坑踩出来的：宁可整张重出，也别把原图提交上去让它改。

改一处崩整张，是真的会崩

先说我最痛的那个坑。

那会儿我主要用 Nano Banana 出图。一套场景卡生成出来，总有那么几张带点瑕疵——可能是杯子画歪了，可能是小人手里多了根线条。我就很自然地想：那就改一下嘛。

结果就是，改着改着，一改整个画面全变了，崩掉了。

我本来只想动那只杯子，它给我连小人的脸、背景的色调、整体的构图一起换了一套。你以为是做个微调，它理解成了重画一张。改完往往比改前还糟。

我后来才反应过来：对 AI 来说，"在这张图上改一个地方"这个动作本身就是危险的。你给它一张图、再给它一句"把杯子挪一下"，它不是拿橡皮在原图上擦掉重画，它是把你这张图重新理解一遍、再重新生成一遍。理解的过程就有损耗，生成的过程就有随机。你动的是一个字，它重算的是一整张。

所以"精修一处"听起来最省事，其实是最容易崩的那条路。

宁抽卡不修改，到底怎么做

那不改怎么办？答案就一句：别在原图上改，回到提示词上改，整张重新生成。

我现在出一套图的流程是这样的。

先让 AI 生成个几张，我不看细节，只看一件事——整体风格对不对。色调、画风、那个气质，是不是我要的。

如果风格有偏差，我就先让它调方向，把风格掰回来，这一步还是在"风格"层面折腾，不碰具体内容。等风格对了，我才让它按这个风格把整套生成出来。

然后是关键的那一下：哪一张文本出错了、或者版式我不喜欢，我调对应那张的提示词，整张重新生成，而不是把原来那张图提交上去让它改。

听起来好像更费——重出一张不是比改一处更慢吗？但你真做过就知道，重出的成功率比修改高太多了。改一处是在走钢丝，重出一张是回到平地。我宁可多生几版挑一版顺眼的，也不去赌那一次"它这回能只改我说的地方"。

说到底，修改是有损的，重出才是干净的。这跟"画得好不好"半点关系没有，纯粹是 AI 出图这个东西的脾气。

把形象锁成一张图，比每次靠嘴描述稳

光"重出"还不够。重出也得保证重出来的还是同一个小人——不然你这套卡片二十张，二十个画风。

我现在保持 IP 一致，靠的是一张"底图"。

具体是这样：我先让 AI 生成一套这个 IP 的三视图，正面侧面背面，再加上一些周边的小物件，全部塞在同一张图里，然后把这张图压缩一下存好。这张图就是这个形象的"身份证"。

之后每生成一张新卡片，我都把这张 IP 图当参考图上传上去，走图生图。再配一段通用前置提示词，专门描述这个 IP 的整体长相——发型、配色、五官比例那些。最后才根据这一张具体要画什么，追加这一张独有的细节：他在厨房、他拿着苹果、他笑着。

前面那段通用提示词和那张底图，每次都不变；变的只有最后那点细节。

你可能会问，为什么非得压一张图当参考，光靠文字描述形象不行吗？因为文字描述形象，本身就是一种有损压缩——你说"圆脸大眼睛的小男孩"，一千个人画出来一千个样，AI 也一样，它每次都在你这句话的范围里重新发挥一遍。但你给它一张实打实的参考图，它有个锚，发挥的余地一下就小了。一张图顶你写一百个字，还更准。

工具进化了，现在抽卡比以前少多了

上面这些，是我从 Nano Banana 那个年代一路踩过来的笨办法。这两年工具变了，有些活轻松不少。

最大的变化是，AI 现在会自己边生边检。我现在主要用订阅的 Codex 和 ChatGPT 网页版，背后是 gpt-image-2。它生成的过程中会自己检查每一张符不符合要求、有没有瑕疵，发现瑕疵它直接自己重新生成，不用我盯着一张张挑了。我只负责最后整体的总检查——扫一眼整套，看大方向有没有跑偏。中间那些重生的活，它自己干了。

对比一下就有感觉。Nano Banana 那会儿，一张图我可能得抽 2~3 次才出一张能用的，跟抽卡一样，挺熬人。现在 gpt-image-2 这套出来之后，抽卡明显少了，基本只在版式不喜欢、或者文本出错的时候才需要重出。

顺手说两个真实的小坑。一个是限流：Codex 有 5 小时的限制，ChatGPT 网页版也会限，批量出到一半卡住是常事，撞上了我就拿 API 兜底——但 API 偏贵、要额外付费，能用订阅就先用订阅。另一个是清晰度，这个我想得跟以前不一样了。以前调 API 我无脑拉 high，后来发现 middle 也够用，有些场景 low 出来都能用，现在我基本在 low 和 medium 之间切。原因很实在：小红书、公众号上的图，大部分根本用不到那么高的分辨率，你就算传个高清上去，平台也照样给你裁、给你压。为不会被看到的清晰度多付钱，不值当。

难的不是画得好，是稳定

写了这么多，其实就一个意思：AI 批量出图这件事，难的从来不是让它画得好看，是让它稳定——同一个形象出一套不走样，改一个地方不连累整张。而稳定的诀窍，恰恰是反过来的：少在原图上较劲，多在提示词和参考图上较劲；别迷信"精修一处"，老老实实整张重出。

一套图我现在大概出 7~15 张，按公众号文章的长度动态加减。这些都是我自己一张张试出来的，不是什么权威方法，你完全可以有自己的路子。

下次再出图崩了，先别急着在那张图上改——退回去，改提示词，整张重来。会快很多。