需求背景
现在的大模型,光靠网上扒来的图喂不饱了。

特别是要教模型"看懂物理世界"——一根生香肠烤过之后什么样、一个白瓷杯生锈之后什么样、一块完整玻璃碎了之后什么样。这种"同一个东西、发生某种物理变化前后"的成对图片,网上几乎没有现成的,得自己造。
以前造这种图靠人:拍、找、P,一张张手工修,成本高、慢,量还上不去。
AIGC 出来之后思路变了:把原图加一句指令("把右下角那根香肠变成烤过的")发给 AI,让它生成改后的图。但这里有个绕不过去的坑——
AI 容易"手抖":你只想改那一根香肠,它顺手把旁边的番茄、菜板纹理、背景也改了 改多了就污染数据:训练数据要的是"只有目标变了、其他完全没变"的干净对照,多余变化会让模型学歪 靠 PS 擦回来:常见做法是 AI 整图重绘完,再用 PS 把多余变化一点点擦掉——费人工,还擦不干净

难点不在"能不能改",在"只改该改的,其他一个像素都别动"。
客户背景
这次对接的是一家做 AI 训练数据的服务商,给互联网大厂的大模型供图。
他们的任务标准很明确:做 物理变化类 的图——符合生活常识的那种变化,生的变熟的、新的变旧的、干的变湿的。要求很死:同一张图,只有指定的那个物体按指令变化,画面其他部分保持原样,才能当干净的训练样本。除此之外还要做 风格迁移——把一张图的风格迁到另一张图上。
客户要的不是"会改图的 AI",是一条"改得准、改得干净、还能批量跑"的流水线。
解决方案
整条流水线全程跑在 ComfyUI 里,本地私有化部署——给大厂做数据,源图和指令不出客户环境,这点是底线。

AIGC 批量改图自动化流水线(ComfyUI 私有化部署)
核心思路就一句:不整图重绘,只动该动的那一块。
一、指令解析 + 目标定位
先把"把右下角那根香肠变成烤过的"拆成两件事:改哪个(右下角的香肠)、怎么变(生 → 烤熟)。指令复杂时用 DeepSeek 先标准化一遍。
定位用 SAM(Segment Anything),自动把"右下角那根香肠"精确框出来,生成一张蒙版。这一步是整条流水线"不污染"的关键——先圈定范围,后面只在圈里动手。
二、局部指令重绘
只在蒙版区域内重绘,用指令编辑模型把香肠变成烤过的。这类模型这两年很能打:
Qwen-Image-Edit(阿里,开源):明确支持"只改目标、其余区域完全不变"的精修,中文指令也友好,能本地跑 Flux.1 Kontext(Dev 版开源):结构保持强,适合需要锁住主体形状的改动 闭源 API 里 Nano Banana(Google Gemini 2.5 Flash Image) 修得也准,但有水印、内容限制和单次费用,私有化批量场景不如开源省心
蒙版外的像素原封不动,"擦多余变化"这一步从源头就不存在了,训练数据天生干净。
三、物理质感要对
"烤过的"得真像烤过的——焦痕、油光、收缩的纹理。靠模型本身,必要时叠一个对应质感的 LoRA 或参考图来强化,确保符合生活常识,而不是糊一层颜色上去。
四、风格迁移(另一条支线)
把 A 图的风格迁到 B 图:用 IPAdapter 取 A 的风格、ControlNet 锁住 B 的结构,在 ComfyUI 里组合。结构不变,风格变了。
五、批量 + 质检
ComfyUI 走 API / 批处理,一批"图 + 指令"自动跑,输出"原图—改后图"的成对数据。每张自动做一次 diff 比对,看蒙版外是不是真没动,再人工抽检确认。
六、合规边界(做训练数据这块要讲清楚)
源图版权:用来改的原图必须是客户自有或已获授权的,不拿来路不明、带版权的图当源;生成图的用途和权属在合同里写清楚 数据保密:给大厂做数据通常有保密要求,所以整条流水线本地私有化部署,源图、指令、成品都不出客户内网 AI 标识:按《人工智能生成合成内容标识办法》,该标的标;训练数据多为内部使用,但只要对外发布就按规标注 人工兜底:AI 批量生成 + 人工抽检确认,不做全自动黑箱
正确姿势:AI 负责产能,人负责把关和合规。
市场前景
先看盘子:

真正的付费方拆下来:
主场景:给大模型供图的 AI 数据服务商、标注公司、大厂数据团队——图像类是大头 可迁移:这套"按指令精修、只改局部、批量跑"的能力,换个指令就能用到别处
这条流水线不只服务训练数据。同一套"局部精修 + 批量 + 不动其他"的逻辑,能直接迁到:电商商品图(换颜色、换材质、改细节、统一风格)、广告与场景图批量产出、游戏与影视美术的贴图和概念图、设计公司的图片批处理。光是要批量做商品图的电商商家,国内就是千万级的盘子。
觉得有用的话,点个赞或者在看。点这里,可私聊。
夜雨聆风