Ai生图搞了几天:不是工具的问题,是我不会说人话-夜雨聆风

Ai生图搞了几天:不是工具的问题,是我不会说人话

最近在做一条老链接的图片更新，这次把工作全部丢给AI，忙了几天，踩了一堆坑，也出了一些让我意外的结果，先说结论，再说过程。

5条结论

第1条：大白话 > 结构化Prompt。我花了几个小时收集到的结构化Prompt，喂给AI，出来的90%都是废图，后来删掉所有模板，用一句大白话，一次就过。

第2条：GPT和Gemini都能打，差距没那么大。同一句大白话，两个工具都出了能用的图，以前觉得Gemini不如GPT-image——现在改变观点了，不是工具不行，是我给它的指令方式不对。

第3条：场景图、功能layout、文字渲染，AI都很强。场景氛围图基本一次过，功能拆解图带callout标注也能做，GPT甚至能直接在图上渲染英文文字，排版还像模像样。

第4条：局部修改才是真正的效率杀手锏。AI不只是生成新图。你可以对已有的图说“去掉右下角那个东西”、“把中文改成英文”、“中间那个产品太大了去掉”——它能精准执行局部修改，其他元素不动，迭代成本极低。

第5条（最重要): 你产品独有的结构设计，AI大概率会猜错，这条是我这次最大的认知升级。

下面详细说。

第一次测试：工程化陷阱

我想专业一点，搞了一套完整的生图系统——结构化Prompt、GEM配置文件、风格锚点库、亚马逊合规细则，整整2-3个小时，喂给AI，出图，要么颜色偏，要么结构错，要么比例变形，只有个别场景图还行。

Gemini那边也一样，一张人群场景图，中间产品太大挡住了场景，我说：“太大了挡住了场景，去掉，其余的不动”，精准执行，三栏场景完整露出来。

还有一次，Gemini出了中文版的副图（商务人士/通勤族/学生党），我说了一句：“你做的亚马逊美国站，请把文案全部调整成英文”。它直接把图上所有中文替换成英文，场景和构图保留。

这才是AI生图真正省时间的地方——不是一次生成完美图片，而是快速迭代到位。“去掉这个”，“改成英文”，“中间太大了删掉”，一句话一句话改，比重新生一张快10倍。

但是，有一道坎，我的产品有个独特的结构设计，一个折叠展开的机械部件，不是市面上常见的形态，我给了AI各种角度的实拍照片，明确描述了怎么展开。

GPT生了一张，错的，Gemini生了一张，也错的，给了对的参考图，还是错的，两个工具犯了一模一样的错误——它们把这个部件脑补成了市面上最常见的同类结构。

AI不是在看图还原，是在看图猜测，它用训练数据里见过最多的形态，来替代你的独有设计，你的设计越独特，它猜错的概率越高，给100张参考图也没用，这不是bug，是原理性限制。

最优解：混合制