AI搭子手册 019 | 朋友让我批量提取印花 PNG,我顺手测了 6 个生图大模型

大家好，我是刘宸。

这里是「AI搭子手册」，咱们一起看懂AI。

最近我接到一个朋友的实际需求。

他说他们经常会拿到一些拍照图片，里面可能是模特真实穿着衣服，也可能是衣服挂拍图。

但他们真正需要的，不是这张衣服照片。

而是照片里衣服上的印花图案。

更准确地说，是要把衣服上的印花提取出来，变成一个可以用于设计排版的 PNG 素材。

这个需求我一听，第一反应就是：

这不就是生图大模型现在很擅长的图像编辑任务吗？

首选当然是 GPT-image-2。

毕竟从现在的图像理解、局部编辑、复杂指令遵循能力看，它确实是第一梯队。

但朋友又补了一句：

每天要处理的量很大，如果都用最贵的模型，成本可能扛不住。

这句话就很现实了。

很多 AI 应用落地时，真正的问题不是“最强模型能不能做”。

而是：

在大量、重复、真实业务场景里，能不能找到一个效果和成本都合适的方案。

所以我就顺手做了这次小评测。我把目前市面上最火的6位“选手”拉出来，来了一场硬核实测。

这次入局的阵容相当豪华，不仅有刚刚登顶王座的 GPT-image-2，还有谷歌家的两大悍将 Nano banana pro 和 Nano banana 2。此外，我还专门测试了Chat模型里“直接对话生图”的能力，这次入局的是自带推理光环的Grok对话，以及国产第一梯队的千问和豆包。

我找了一张 T 恤图片，上面有一组完整印花图案。

然后用同一段提示词，让 6 个大模型都完成同一个任务：

从衣服照片里，只提取衣服上的完整印花 / Logo 图案，并整理成可直接用于设计排版的平整 PNG 素材。去掉衣服、模特、衣领、袖子、阴影、背景保留原始颜色、字体、线条和元素位置把衣服褶皱、弯曲、透视造成的变形尽量铺平输出成类似设计源文件里的平面 Logo / 印花图最好是透明背景 PNG不要重绘、不要美化、不要擅自补全不存在的细节

这不是一个单纯看“谁画得好看”的测试。

它更像一个真实设计工作流里的问题：

我有一张实拍图，你能不能帮我把里面的图案提取成可复用的设计素材？

先说我的预期

测试之前，我其实是有预期的。

如果只看能力上限，GPT-image-2 大概率是最强的。

其次我比较看好 nano banana。

其他模型，我预期会有差距。

所以这次测试，我不是为了简单证明谁赢谁输。

因为大概排序我心里本来就有数。

我真正想看的是：

如果把它放进一个真实需求里，强模型到底强多少？便宜模型到底差在哪里？

尤其是这种偏生产的任务。

它不只是生成一张图。

它还涉及图像理解、任务边界、原图还原、平面化处理、透明背景、交付格式。

这些东西，才是 AI 真正进入工作流之后会遇到的细节。

一、抽取效果评测

先看最核心的部分：

模型能不能把衣服上的印花，从照片里抽取出来。

这一项里，GPT-image-2的结果：

以及 nano banana pro的表现最接近实际可用。

banana 2 也能做，整体方向是对的。

它们基本理解了我要的不是一张新的 T 恤图，也不是重新设计一个类似风格的插画。

而是把原图里的印花单独取出来，并尽量铺平成一个独立素材。

从结果看，文字、鲸鱼、浪花、云朵、花朵、彩带、小装饰这些主要元素都保留了下来。

原图里因为衣服自然下垂和褶皱造成的弯曲，也被处理得比较平。

尤其是最核心的鲸鱼图案和上方“AI可思议”这几个字，没有被严重改写。

这点很关键。

因为这类任务最怕模型进入“重绘模式”。

它觉得你要一个更干净的图案，于是帮你重新画一个更漂亮的。

听起来很贴心。

但对设计素材提取来说，这就是跑题。

我要的是原始图案，不是模型自由发挥之后的新版本。

对话模式的生图效果就差点意思了。

Grok 的问题，则更像是“理解了方向，但交付不够准”。

而千问也是类似的结果。

这类结果不是完全没用。

但它离“设计师可以直接拿去排版”还有一步。

豆包甚至直接给我了原图。。。

它更像是把任务理解成了：

帮我优化这张衣服图片。

其实不用解释太多。

大家一看就能知道，哪个更像“可用素材”，哪个只是“看起来处理过”。

二、透明 PNG 效果评测

再看第二个问题：

它们到底有没有生成真正的透明 PNG。

这一项结果就比较尴尬了。

严格来说，都没有。

有些结果肉眼看起来像透明背景。

因为它用了常见的灰白棋盘格。

但检查文件后会发现，那并不是真正的透明通道。

棋盘格已经被画进图片里了。

也就是说，它生成的是一张“看起来像透明 PNG 的普通图片”。

这件事对普通用户可能没那么敏感。

但对设计软件来说，差别很大。

不过这也让我想明白了一个问题。

透明 PNG 这一步，未必应该强行交给生图大模型完成。

大模型很容易把“透明背景”理解成一种视觉效果。

于是它画了一个棋盘格背景。

但代码不会误解这个概念。

代码只看文件通道。

所以更合理的做法可能是：

先让大模型完成它擅长的部分。

理解原图识别印花区域还原图案结构修正褶皱和透视尽量保持原始视觉元素

然后再让后处理流程（python代码就可以实现）完成它擅长的部分。

识别背景生成 alpha 通道清理边缘裁剪透明边距输出标准 PNG 文件

这样可能比逼模型一步到位更靠谱。

这次测试，我的结论

如果只看抽取效果，第一梯队还是很清楚。

GPT-image-2 最强，nano banana 系列紧随其后。

Grok、千问、豆包这类结果，则更能体现“会说”和“会交付”之间的差距。

有些模型在对话里说得很对。

但最后文件并不能直接进入设计流程。

这也是我觉得这次测试最有价值的地方。

AI 进入真实工作流之后，评判标准会变得非常具体。

不是“看起来不错”就够了。

最后，重点其实不是模型，而是工作流

现在大家用 AI，越来越容易走向一个方向：

打开 Codex、Claude Code 这类编程软件，然后直接告诉它：

你帮我做一个自动处理流程。

这当然很爽。

因为它真的能写代码、调接口、跑脚本、改文件，很多过去需要工程师做的事情，现在普通人也能让 AI 帮忙完成。

但我越来越觉得，真正好用的方式不是完全放手让 AI 自由发挥。

而是你自己先把流程想清楚。

比如这次印花提取任务，就不能简单地说：

帮我把图片变成透明 PNG。

更好的拆法是：

先用生图模型做印花抽取和平面化再用代码检查图片有没有 alpha 通道如果没有透明通道，就进入背景去除流程再做边缘清理、裁剪、尺寸规范化最后输出统一命名、统一格式的文件

这样 Codex 或 Claude Code 用起来才会更得心应手。

因为你不是让它凭感觉发挥。

你是在让它帮你搭一个明确的生产流程（这也算是Harness吧）。

模型负责理解和生成。

代码负责确定性处理。

规则负责兜底。

人负责判断最终结果能不能用。

这才像是真正能跑起来的 AI 工作流。

未来真正好用的 AI 应用，也许不是一个超级模型解决所有问题。

而是一个个围绕真实业务搭好的小工作流。

你越理解自己的流程，AI 工具就越像搭子。

你越只想让它自由发挥，它就越容易给你一个“看起来完成了、实际还差一步”的结果。

AI可思议，陪你看懂AI。

记得关注，别走丢！