我花了 36 小时训练 AI 画游戏图标,结果发现这事根本不需要训练

一个穷到想砍游戏的独立开发者，用 AI 救活自己项目的 36 小时

这是我今年最贵的一次教训。

不是钱贵——是时间贵。36 个小时，够我写 5000 行代码，够我通关两遍《博德之门 3》，但我全用来干了一件事：把 AI 训练成"会画觅长生风格游戏图标"的模型。

然后我发现，这 36 小时是白花的。

不是方向错了一点点——是从一开始就完全走反了。正确答案不在训练里，不在 LoRA 里，不在我翻烂的 Stable Diffusion 教程里。

正确答案只有一行字，我把它放在文章最后。

如果你也是独立开发者、也在为美术资源发愁、也想过用 AI 省下那几万块外包费——

这篇文章里的每一个坑，都是我花时间替你踩完的。

我差点砍掉了整个游戏

先讲一下背景。

我在做一个 Godot 的仙侠 Roguelike。一个人。没有团队，没有美术，没有钱。

代码我能写，玩法我能设计，数值我能算——我卡在了"游戏里那 500 张物品图标谁来画"这一步。

灵石、丹药、法宝、灵草、矿石、功法书、符咒、令牌、神兵、飞剑……

我在淘宝问了几个美术外包，最低报价是：一张图标 50 块，500 张两万五。

两万五。

这笔钱对我来说意味着什么？意味着我接下来三个月的饭钱，意味着我女朋友下一次旅游的预算，意味着我做独立游戏这件事能不能继续。

那天晚上我真的在考虑要不要砍掉仙侠题材，改做一个不需要美术的纯文字游戏。

然后我想起来——我电脑里有张 RTX 3060 Ti 显卡。我还装过 ComfyUI。

于是一个"绝望中的妄想"跳了出来：

能不能让 AI 把觅长生那套美术风格学过去，然后我用它批量生成几百张图标？

那一刻我觉得自己像是发现了救命稻草。

我错得离谱。

【第 12 小时】我训练了一个会画双剑的 AI

我的第一反应——也是 99% 的人第一反应——是训练一个 LoRA。

网上每个教程都说 LoRA 能让 AI 学会任何风格：给它 60 张图，训几个小时，它就能画出跟你参考图一样的风格。

听起来完美。我信了。

凌晨 1 点开始训练，早上 9 点跑完。20 个小时。生成结果从我"救命稻草"变成了"炸裂现场"。

我输入 prompt："一把魔法宝剑"。 AI 给我画了——两把剑。

我换 prompt："一颗金色丹药"。 AI 给我画了——一个碗，装着十几颗丹药。

我换 prompt："一本古籍"。 AI 给我画了——一本古籍，旁边放着一颗丹药。

我疯了。

我试遍了所有"让它只画一个"的 prompt 技巧："single"、"one"、"only one"、"isolated"，加进 negative prompt 里的 "multiple"、"two"、"many"——

全部失败。

那一刻凌晨三点。

我坐在书桌前盯着屏幕，脑子里反复一个问题：为什么我花 20 小时训练的 AI，连"画一把剑"都做不到？

【第 18 小时】我终于想明白了一件事

我去翻原始训练集——觅长生里那 60 张道具图。

看了不到 10 张我就愣住了。

觅长生里所有"剑"的图，都是双剑或剑+剑鞘。
觅长生里所有"丹药"的图，都是一碗装着多颗。
觅长生里所有"古籍"的图，都带着一颗丹药放在旁边作为装饰。

因为游戏 UI 里就是这样设计的——剑是成对的武器系统、丹药是一瓶为单位、古籍旁边要有配饰才好看。

AI 没有错。它忠实地学会了觅长生里的"事实"。

——"那我换训练集不就行了？找单把的剑、单颗的丹药，重新训一遍？"

我当时也是这么想的。然后我越想越不对劲。

因为我游戏里要的不是"训练集里那种剑"。

我要的剑，有长剑、短剑、弯刀、双手剑、带鞘剑、插在地上的剑、悬空的飞剑、缠着符咒的剑、刚出炉的铁剑——十几种不同造型，每种还要 5 个品级。

我要的丹药，有圆球状的、丸状的、液体瓶装的、发光的、带云纹的、破损的残丹——也是十几种。

这些东西，觅长生里根本没有。

我就算找到全网最"干净"的训练集，也只能教会 LoRA 画它见过的东西。它没见过"插在地上缠着符咒的长剑"，它就画不出来。

就算我把训练集扩到 500 张、覆盖所有造型——那我先要有这 500 张图，才能训练。但我要的就是"我没有这 500 张图"这个问题本身被解决。

这是一个死循环。

然后我才意识到一个所有 LoRA 教程都不会告诉你的残酷真相：

💡 LoRA 只能复制它看过的东西。
它不会创造，不会泛化，不会举一反三。
你训练集里没有的画面，它一辈子也画不出来。

这意味着对于"批量产出多样物品"这个需求——LoRA 的逻辑是反的。

LoRA 适合的场景是："我有一个很具体的风格，要画几张它见过类似的东西"。比如画同一个角色的不同表情、同一种建筑的不同朝向。

但不适合我的场景："我要画几百种造型完全不同的物品，每种只要风格一致"——因为 LoRA 的构图记忆会把每一种都拉回到训练集里最像的那张图。

我花了 20 小时的训练，从第一秒就注定无法满足我的真实需求。

不是参数调错了，不是训练集太少，不是显卡太弱——是"用 LoRA 解决多品类多造型的批量生产"这个思路本身就是错的。

【第 21 小时】我换了方案，炸得更狠

我马上想到 IPAdapter。这是另一个 AI 圈里被吹上天的工具，号称能"只学风格不学构图"。

理论上完美。实际上？

我给它喂觅长生的紫色灵石参考图，让它生成"蓝色灵石"——出来的还是紫色。
我让它生成"扁平 2D 图标"——出来的是 3D 手办渲染图。
我让它生成"纯白背景"——出来的带着一层灰色阴影衬底。

我又花了 3 小时调参数。所有的 weight、所有的 weight_type、所有的 mask 设置。

全部失败。

我甚至病急乱投医，叠加了一个"中国水墨画 LoRA"——结果 AI 画出了一张宣纸上的水墨国画，还带着书法印章。

笑中带泪。

那一刻，我意识到一件更深层的事：

🔥 Stable Diffusion 的基础模型，天生就带着一种美学偏执。
它脑子里的"图标"就是 3D 渲染手办。
它脑子里的"绘画"就是精致插画。
不管你加多少 LoRA、上多少 IPAdapter——你都无法让它画出它没见过的东西。

底模不对，一切白搭。

而我，花了 24 小时才撞到这个结论。

【第 27 小时】一个反问，让我 24 小时的挣扎归零

那一刻我真的差点放弃。

我甚至在想——要不要接受现实，把仙侠改成像素风？或者干脆砍游戏？要不要去送外卖？

瘫在椅子上盯着天花板发呆的时候，我突然想到一件事。

全世界那么多游戏公司，每天都在用 AI 生产美术资源。

但他们不可能每家都从零训练一个 LoRA——工作室一天出几十张图，哪有时间天天训练模型？

那他们用的是什么？

我突然意识到一件事：我陷进"我要训练一个 AI 帮我画图"这个执念里，整整 24 个小时。我从来没想过——

也许这个世界上，早就有人训练好了我需要的 AI。

我的角色不是"训练者"，而是"使用者"。

这个念头一冒出来，我就打开浏览器，搜了一个之前从没试过的词：

game icon SDXL civitai

英文、具体领域、对的平台。就这么简单。

搜索结果第一个——Game Icon Institute。

一个专门为游戏图标训练的 SD 1.5 底模，2.7GB，不需要 LoRA，不需要 IPAdapter，不需要任何魔法参数。

我下载，转换格式，丢进 ComfyUI。写了一个最朴素的 prompt："a single blue crystal spirit stone"。

点击生成。

然后我盯着屏幕看了——

—— 很久很久。

因为出来的那张图——扁平、干净、单一物体、纯白背景、蓝色就是蓝色——完全就是我要的东西。

没有两把剑。没有一碗丹药。没有 3D 手办。没有紫色污染。没有宣纸。

就是一张干净的游戏图标。

和 27 个小时之前，我"幻想 AI 能画出来的那张图"，一模一样。

那一刻我感觉到的不是高兴，是愤怒。

因为我意识到一件事——之前那 27 个小时全部是白费的。不是某一步错了，是从第一步就错了。

我花 20 小时训练的 LoRA，它做的事情，这个底模原厂就会。而且做得比我好得多。

这 36 小时教会我一件事

它不是"AI 画图技巧"。它不是"LoRA 训练心得"。它不是"ComfyUI 工作流"。

它是——

💎 "不要去教 AI 画你想要的东西。
去找到一个已经会画的 AI，
然后告诉它要画什么。"

这句话值 36 小时。

它也颠覆了我对 AI 的所有认知——我们被"AI 需要训练"的叙事洗脑太久了。

真相是：AI 生态已经成熟到一个程度，你需要的任何垂直风格，99% 的情况下都早就有人训练好了。你不用训练，你只需要搜。

花 20 小时训练一个你自己搞不定的模型，还不如花 10 分钟在 Civitai 上输入对的关键词。

如果你也要走这条路，记住这 5 条

1. 先搜，再训

你想要的风格 99% 早就有人训练好了。游戏图标、像素画、扁平 UI、卡通角色、国风武器——都有现成的底模。

英文搜 + 具体领域词 + Civitai。 10 分钟能省你 10 个小时。

2. 底模决定天花板

方向错了，调什么都救不回来。SDXL base 偏精致插画，你就别指望它画扁平图标。

先裸 prompt 生成 3 张，看底模的"默认画风"在哪个方向。方向对了再微调，方向错了立刻换。

3. LoRA 不是万金油

LoRA 学的是"风格+构图+元素"的整体印象，不是纯风格。你训练集里是什么样，生成出来就是什么样。

想用 LoRA 做"风格锁定 + 构图自由"？做不到。别试。

4. 批量生产不追求 100%，追求 60%

新手调一张图要半小时。老手的逻辑是："一次生 20 张，挑 12 张"。通过率 60% 在流水线里就算合格。

把时间花在"自动化生成 → 人工挑图 → 自动化入库"上，而不是死磕单张完美度。

5. 用表格管理一切

100 张以上的生产线，必须用表格。一行一个物品，状态字段自动更新。人工只管"挑图"这一步，其他全部脚本化。

我最终用的表格长这样（CSV 格式，Excel/WPS 直接打开）：

序号	品类	名称	描述提示	数量	状态	终版文件
001	灵石	朴素灵石	small rough green raw crystal	5	已终版	lingshi_01.png
002	灵石	普通灵石	small polished green gem	5	已定稿
003	丹药	回春丹	a single red healing pill	5	待生成

加上几列"初版目录/定稿文件/生成时间/备注"就是全部。

围绕这张表，只需要两个脚本：

脚本 A：读表里"待生成"的行 → 批量生成 → 状态改成"已生成"
脚本 B：读表里"定稿文件"有值的行 → 去背景+裁剪+缩放 → 入游戏项目目录

人工的唯一工作，是从生成的一堆备选图里挑一张满意的，把路径复制到"定稿文件"列。其他全自动。

CSV 就够了。别搞数据库、别搞 JSON 配置、别搞 YAML。 这种规模的生产，表格是最优解。

写在最后

现在的我，填一行表格，脚本会处理剩下的一切。

一个物品从"我想要"到"在游戏里看到"——18 秒
500 张物品的完整生产周期——2 到 3 天
总成本——0 元

那两万五的外包费，我省下来了。

我的游戏，继续做下去了。

而更重要的是——我再也不怕下一个需要美术的独立游戏项目了。

36 个小时的弯路，换一个永远不会忘的认知。

我觉得很值。

如果你也在用 AI 做独立游戏——或者刚打算开始——欢迎留言交流。我会把这套完整的流水线（包括 prompt、工作流、脚本）整理成免费的技术文档发出来。

因为独立开发者的时间，不应该浪费在重复踩同一个坑上。

— 如果这篇文章让你省下了几十个小时，帮忙点个三连~