Ai生图搞了几天:不是工具的问题,是我不会说人话
最近在做一条老链接的图片更新,这次把工作全部丢给AI,忙了几天,踩了一堆坑,也出了一些让我意外的结果,先说结论,再说过程。
5条结论
第1条:大白话 > 结构化Prompt。我花了几个小时收集到的结构化Prompt,喂给AI,出来的90%都是废图,后来删掉所有模板,用一句大白话,一次就过。
第2条:GPT和Gemini都能打,差距没那么大。同一句大白话,两个工具都出了能用的图,以前觉得Gemini不如GPT-image——现在改变观点了,不是工具不行,是我给它的指令方式不对。
第3条:场景图、功能layout、文字渲染,AI都很强。场景氛围图基本一次过,功能拆解图带callout标注也能做,GPT甚至能直接在图上渲染英文文字,排版还像模像样。
第4条:局部修改才是真正的效率杀手锏。AI不只是生成新图。你可以对已有的图说“去掉右下角那个东西”、“把中文改成英文”、“中间那个产品太大了去掉”——它能精准执行局部修改,其他元素不动,迭代成本极低。
第5条(最重要): 你产品独有的结构设计,AI大概率会猜错,这条是我这次最大的认知升级。
下面详细说。
第一次测试:工程化陷阱
我想专业一点,搞了一套完整的生图系统——结构化Prompt、GEM配置文件、风格锚点库、亚马逊合规细则,整整2-3个小时,喂给AI,出图,要么颜色偏,要么结构错,要么比例变形,只有个别场景图还行。
第二次测试:大白话的胜利
我把所有模板删了,打开GPT-image,拖进实拍图,敲了一句话:“你现在是一位亚马逊美工专家,结合附件实拍图片,做一套主副图,主图白底产品占85%,副图突出场景、卖点、功能、属性、人群,正好五张”。出来的图居然直接能用,同样的话给Gemini试了一遍,也能用。
等一下,同一个AI,结构化Prompt出废图,大白话出好图?那我之前那几个小时在干嘛?
局部修改的惊喜,这才是我没想到的。出图之后,GPT那边有张图右下角多了个不相关的产品,我说了一句:“去掉右下角那个白色盒子的产品”,GPT直接把它抹掉了,其他元素全保留,连阴影都处理干净。
Gemini那边也一样,一张人群场景图,中间产品太大挡住了场景,我说:“太大了挡住了场景,去掉,其余的不动”,精准执行,三栏场景完整露出来。
还有一次,Gemini出了中文版的副图(商务人士/通勤族/学生党),我说了一句:“你做的亚马逊美国站,请把文案全部调整成英文”。它直接把图上所有中文替换成英文,场景和构图保留。
这才是AI生图真正省时间的地方——不是一次生成完美图片,而是快速迭代到位。“去掉这个”,“改成英文”,“中间太大了删掉”,一句话一句话改,比重新生一张快10倍。
但是,有一道坎,我的产品有个独特的结构设计,一个折叠展开的机械部件,不是市面上常见的形态,我给了AI各种角度的实拍照片,明确描述了怎么展开。
GPT生了一张,错的,Gemini生了一张,也错的,给了对的参考图,还是错的,两个工具犯了一模一样的错误——它们把这个部件脑补成了市面上最常见的同类结构。
AI不是在看图还原,是在看图猜测,它用训练数据里见过最多的形态,来替代你的独有设计,你的设计越独特,它猜错的概率越高,给100张参考图也没用,这不是bug,是原理性限制。
最优解:混合制
AI负责:场景图、功能layout、氛围图、英文文字、局部修改迭代;实拍负责:产品独有结构、微距特写、手持对比;PS/Figma负责:精确标注、合规检查,多版本复用。
两组数据让大家感受一下:
工程化阶段:3小时,1-2张场景图可用。
大白话+混合制:1.5小时(Ai 1小时 + 实拍15min + PS 15min),全部图片都可用。
4个反直觉
反直觉1:Prompt越复杂效果越差,大白话才是最好的Prompt。
反直觉2:GPT和Gemini差距没那么大,使用方式才是变量。
反直觉3:AI最强的不是一次完美,是快速局部修改。
反直觉4:你的产品越有差异化,AI对你的帮助越有限。
最后一个最狠,产品独特是你的竞争力,但恰恰是AI搞不定的部分,所以独有设计的图,只能靠你自己,这不是AI的短板,这是你的护城河。
接下来
我把这次测试的方法论拆成了3篇实操文档,放在星球“Ai生图模块”:
第1篇:决策判断 —— 做不做/怎么做/自己做还是外包
第2篇:3步工作流 + 3条红线 —— 读完就能操作
第3篇:字典层 —— 翻车应对/合规细则/工具对比
公众号不展开了,星球里见。

夜雨聆风