老猫企业AI实操
AI生成电商产品图片
要让消费者在图中看到自己!
问你一个问题:你打开亚马逊,搜索一个产品,结果页刷出来20个Listing,你会点哪一个?
不是最好看的那个。不是最便宜的那个。是那个让你觉得——"这就是给我用的"的那个。
上个月我帮一个做瑜伽垫的朋友优化Listing图片。他原来的场景图是一个身材完美的欧美模特,在落地窗前做高难度瑜伽动作。图片质量没得说,构图、光影、色调全是专业级别。
结果主图点击率1.6%,低于品类平均的2.8%。我问他:你的目标客户是谁?他想了想说,应该是25-40岁的女性吧。
"应该是"三个字,其实就已经暴露问题了。
你连买家是谁都不确定,怎么可能让她在图里看到自己?
AI生图的第一步不是写prompt,是搞清楚"我在给谁生图"。
01 大多数人用AI生图的逻辑是反的
我观察了做亚马逊的朋友们怎么用AI生图,流程基本是这样的:
看产品卖点 → 想一个"好看的场景" → 写prompt → 生图 → 挑一张上架。
这个流程的问题在哪?
它的出发点是产品,不是人。
你的产品面料好,所以你生一张"柔软面料特写"。你的产品防水,所以你生一张"雨天户外"。逻辑没错,但买家看到这些图的感受是什么?"哦,又一个产品。"
你想想,亚马逊搜索结果里一页20个产品,每个都在展示自己的卖点。你的"面料好""防水强",跟隔壁那个有什么区别?买家分不出来。所以他看哪个便宜点哪个。
但如果你的图里,出现的是一个跟他很像的人,在一个他很熟悉的场景里,正在经历他此刻最头疼的那件事——他会停下来多看一眼。这一眼,就是转化的起点。
02 COSMO算法:帮你搞清楚买家是谁
说到这你可能会问:怎么知道买家是谁?靠猜?
靠猜注定翻车。我之前做婴儿睡衣的时候就猜错过——以为目标客户关心"面料柔软",结果人家关心的是"半夜换尿布方不方便"。这两个关注点,生出来的图是完全不同的画面。
后来我在工作流里接入了亚马逊的COSMO算法分析。说白了,COSMO就是亚马逊自己用来理解买家搜索意图的AI系统。我把它的分析维度拆出来,让AI自动跑一遍人群画像。它分析的不是"大概",是13个具体维度:

COSMO 13维分析——拆开讲最关键的4个维度:
维度1:买家画像 — 这个产品的买家是谁?年龄、性别、身份、生活方式。不是"25-40岁女性"这种模糊描述,而是"28岁、独居、刚开始健身、在互联网公司上班、晚上8点在客厅练瑜伽"。
维度2:使用场景 — 她在什么时间、什么地点、什么状态下使用这个产品?不是"在家",而是"下班回家后,换上家居服,在客厅铺上瑜伽垫,一边听播客一边做15分钟拉伸"。
维度3:情绪触发 — 她为什么现在买?不是"想健身",而是"上周体检报告说颈椎有问题,同事推荐她做瑜伽缓解"。
维度10:痛点 — 她对现有方案最不满的是什么?不是"质量差",而是"之前买的瑜伽垫太滑,做下犬式的时候手一直往前滑,特别烦"。
你看出来了没有?每个维度分析到最后,出来的不是一个抽象的"目标人群",是一个具体的人、一个具体的瞬间。
这个人和这个瞬间,就是你的图片应该展示的内容。
03 从人群分析到场景再现——具体怎么做的
讲个具体的案例。
上个月做亚马逊的一款婴儿连体睡衣。COSMO分析跑完以后,系统给出的人群画像是这样的:
核心买家:30岁左右的美国新手妈妈,第一个孩子6-12个月大
核心场景:凌晨2-3点,宝宝哭醒需要换尿布,妈妈睡眼惺忪摸黑起来
情绪触发:上一件睡衣的拉链每次卡住,换尿布要折腾5分钟,宝宝哭得更厉害
核心痛点:凌晨换衣服太麻烦,想要"一拉就开、一按就合"的设计
VOC高频词(SORFTIME数据):easy to change / zipper stuck / 3am diaper change / one-hand operation
有了这些信息,场景图的画面就自动浮现了:
不是"阳光明媚的婴儿房+白胖可爱的宝宝"——这种图只是"好看"。
而是"凌晨微光中,疲惫但温柔的妈妈,单手轻松解开睡衣按扣,给宝宝换尿布"——这个画面里有时间、情绪、动作细节,是一个新手妈妈立刻就能代入的瞬间。
这就是"让消费者在图里看到自己"。
04 不同品类,COSMO分析出来的画面完全不一样
我用这套系统跑过好几个品类,每次出来的画面都让我意外哈。因为你以为的"合理场景",和COSMO分析出来的"真实场景",差距比你想的大得多。

瑜伽垫:
你以为的场景:专业瑜伽教室,身材完美的模特,高难度体式
COSMO分析的场景:下班后的客厅地板上,穿着T恤短裤的普通女生,笨拙但认真地做基础拉伸
为什么:SORFTIME数据显示60%的买家是健身新手,她们看到完美模特的第一反应是"这不是给我用的"
效果:换图后点击率从1.6%提升到4.2%
蓝牙降噪耳机:
你以为的场景:年轻人戴耳机跑步,阳光洒在脸上
COSMO分析的场景:开放式办公室里,隔壁同事在大声打电话,这边一个人戴着耳机从容地开视频会议
为什么:差评里"通话噪音"是排名第一的痛点词,买家真正的购买动机不是"听歌",是"开会不被吵"
儿童保温杯:
你以为的场景:可爱小朋友在公园里开心喝水
COSMO分析的场景:妈妈把保温杯放进孩子书包侧兜,杯子6小时后拿出来水还是温的——妈妈露出放心的表情
为什么:买家是妈妈不是孩子。妈妈的痛点是"担心孩子在学校喝凉水",所以场景要展示的是妈妈的安心感,不是孩子的开心感
你发现了没有?每个品类的"正确场景",都不是你凭经验能想到的。它藏在COSMO的人群分析和SORFTIME的VOC数据里。
05 系统怎么自动做这件事
你可能觉得:这套分析我手动也能做,一个个产品去查评论、分析人群,也不是不行。
也不是不行。但你想想,一个产品分析下来至少2小时。你有30个SKU需要上图,那就是60个小时——光分析人群就要两周。
更别说分析完还要写prompt、调参数、生图、挑选、上架。
所以这套流程在我的n8n工作流里是自动化的:
Step 1 输入产品ASIN和白底图 → 系统自动调用COSMO分析13个维度
Step 2 SORFTIME抓取竞品TOP20的评论数据 → 提取VOC高频痛点词
Step 3 两组数据交叉 → 生成「人群画像+情绪场景+视觉策略」方案
Step 4 自动匹配模特类型(年龄/肤色/体态/穿着风格)和场景参数
Step 5 生成精准prompt → 场景图、模特图批量出图
Step 6 AI合规检查 → 自动交付到飞书表+Google Drive
运营只需要在飞书表格里填一行。剩下的,从分析到出图,全自动完成。
一个产品从输入ASIN到拿到全套Listing图片,8-12分钟。成本4-8元。

06 一个踩过的坑:人群分析对了,画面细节错了
这套系统不是一开始就跑得很顺的。说个坑哈。
有一次做一款厨房围裙,COSMO分析出来的核心买家是"35岁美国主妇,在家做烘焙"。场景是"厨房里,女主人戴着围裙,面前摆着刚烤好的蛋糕,她擦了擦额头的面粉,露出满足的微笑"。
分析得挺好的,对吧?结果AI生的图里,厨房是那种中式开放厨房,灶台上放着铁锅和酱油瓶。
你让一个美国主妇在中式厨房里做蛋糕。。。
这种细节,COSMO的人群分析不会告诉你。它告诉你"谁"和"什么场景",但不会帮你检查"美式厨房长什么样"。
后来我加了一层规则:根据目标市场自动匹配环境细节——美国市场用开放式岛台厨房+烤箱+大冰箱,日本市场用小巧紧凑型厨房+电饭煲,欧洲市场用原木风厨房+壁挂式咖啡机。
人群分析解决的是"谁在什么时刻做什么事",环境细节解决的是"这件事发生在什么样的空间里"。两层都对了,图才真实。
07 说到底
做了这么多产品的图,我越来越觉得一件事:
AI生图最容易犯的错,是站在卖家视角自说自话。
你觉得你的面料好、设计好、功能强,但买家只关心一件事——"这东西跟我的生活有什么关系"。
COSMO分析帮你搞清楚买家是谁、在什么瞬间需要你的产品。SORFTIME数据帮你验证这些痛点是不是真的、竞品有没有在打这个点。
两个数据源交叉完,AI生出来的图就不再是"好看的产品照",而是一个让买家觉得"这就是我的生活"的画面。
人群对了场景才对,场景对了情绪才对,情绪对了买家才点。
图片不是卖产品,是帮买家看见自己。
关注公众号「老猫企业AI实操」,后台回复「COSMO分析」,获取COSMO 13维人群分析模板和3个品类的完整场景策略示例。
如果你对老猫文章中介绍的自动化工作流或者AI工具使用感兴趣,可以联系微信号:OldcatAI2026
我们一起来实践企业团队AI落地实操。
— END —
老猫企业AI实操 | 用AI让运营更高效
夜雨聆风