熬了2个大夜,这是晨念Agent实战的第46篇。
窗外已经黑透了,键盘敲得快冒烟,但这个设计思路必须得说——它是一个真实的客户定制案例。
客户是做门定制的源头工厂,每天要在微信发朋友圈营销。车间实拍、安装现场、客户好评、发货晒单……图片拍了,但文案不知道怎么写。只会说"又装完一套"、"今天发货"。
说白了,他需要的不是ChatGPT那种"帮我写一段文案"——他需要一个懂门业、懂工厂营销、能看图说话的AI搭档。
而且辛辛苦苦薅秃脑袋瓜子发了三个月朋友圈,一条询盘没接到
我们用OpenClaw给他搭了一套完整的解决方案。

一、问题来了:GLM-5看不懂图
客户用的是阿里云百炼Coding套餐,一个月40块钱。
老实说,这个套餐性价比极高——GLM-5、Qwen系列随便用,常规业务场景完全足够。
但有一个坑:GLM-5没有图片识别能力。
它是纯文本模型,朋友圈文案的核心场景恰恰是"用户发图,AI看图写文案"。这不废了吗?
别听外面那些割韭菜的瞎吹"换GPT-4V就行"——换模型意味着成本翻倍、推理变慢、GLM-5的推理优势全丢。
听晨念一句劝:不要一个模型干所有事。
让每个模型做它最擅长的事,通过API串联成完整流程。
这就是"API嵌套"的设计思路。
二、架构:GLM-5 + 百炼视觉API
GLM-5负责推理、判断、文案生成。
阿里云百炼视觉模型负责"看图"。
两个API各司其职,通过脚本串联。
用户发图(微信)
↓
OpenClaw ClawBot
↓
图片缓存 → 用户说"朋友圈文案"
↓
调用视觉识别脚本
↓
阿里云百炼视觉API(看图)
↓
返回JSON:{场景类型, 产品类型, 亮点}
↓
GLM-5读取Skill + 词库
↓
输出三种风格文案
成本多少?
Coding套餐一个月40元,常规使用完全够用。单次调用成本可以忽略不计。
老规矩啊,架构图放出来了,照着抄就行。
三、核心设计:图片缓存机制
这里有个坑。
用户可能连续发多张图,你不能发一张处理一张——那样会乱。
正确姿势:先把图片路径缓存到本地JSON,等用户说触发词("朋友圈文案"/"发朋友圈")再批量处理。
{
"images": ["/path/to/image1.jpg", "/path/to/image2.jpg"],
"lastUpdate": "2026-04-05T23:00:00Z"
}
💡 踩坑预警:多图场景千万别一次性把所有图片传给视觉API。一次性传入会导致信息丢失。逐张调用,手动整合。我昨天在这里卡了半小时,血的教训。
四、词库分片加载:别浪费Token
这个Skill配了一个巨大的词库:
15款产品完整信息 14种装修风格矩阵 10种客户类型话术 10种痛点场景 晒单/发货/转介绍词汇 节日钩子词
全加载进去?Token爆炸。
智能加载策略:识别出什么产品,就只加载那个产品的章节。
简单来说,按需加载,不浪费。
五、输出:三种风格供挑选
每次输出三套文案,覆盖不同人群:
约束也量化死了:
Emoji:1-3个,禁止连续2个以上 标签:文末1-2个 禁用词:微商感话术、小红书语气、最高级绝对化用语
💡 再提醒一句:"错过后悔一辈子""最后10套"这种微商话术,门业老板用了只会显得不靠谱。克制才是高级。
六、真实效果展示
光说不练假把式。来看实际效果。
场景:客户发了一张安装现场图,说"朋友圈文案"。
优化前(老板自己写的):
又装完一套,法式烤漆门,感谢信任。
AI生成的三种风格:
风格A【生活美学风】
奶油白的门框配着午后的光,整个空间都温柔了。
业主说"推开门就像进了韩剧现场",法式线条不张扬,但气质藏不住。三底两面油漆,触感像婴儿皮肤一样细腻。
风格B【专业硬核风】
又一套法式烤漆门落地交付。
橡木指接板芯材+三底两面油漆工艺,72小时慢烤,色牢度10年不褪。业主对比了三家,最后选了这套——品质经得起放大镜检验。
风格C【老板随手拍】
装完业主说:比展厅看的还好看。
法式奶油风,又拿下一套。
对比一下:
客户现在每天发图、说"朋友圈文案"、三选一、发布。从"想半天写不出来"到"30秒搞定三条"。
七、技术实现:视觉识别脚本
核心逻辑(简化版):
const response = await fetch(API_ENDPOINT, {
method: "POST",
headers: {
"Authorization": `Bearer ${apiKey}`,
"Content-Type": "application/json"
},
body: JSON.stringify({
model: "qwen-vl-plus",
messages: [{
role: "user",
content: [
{ type: "image_url", image_url: { url: imageBase64 } },
{ type: "text", text: ANALYSIS_PROMPT }
]
}]
})
});
API端点自适应:
sk-sp-xxx | Coding套餐(40元/月) | |
sk-xxx |
八、为什么用OpenClaw?
这个客户定制案例的核心价值:
- 完整的Agent框架
:微信机器人 + Skill系统 + 多模型协作 - Skill可迭代
:词库、提示词、约束条件都可以独立更新 - 成本极低
:Coding套餐40元/月 + 百炼视觉API,常规业务完全够用 - 私有化部署
:数据在自己的服务器,不经过第三方
本质上,OpenClaw + 百炼Coding,是当前性价比最高的AI落地组合之一。
九、总结
这是一个典型的OpenClaw客户定制案例。
客户有明确的业务场景(门业朋友圈营销),有明确的痛点(不会写文案),我们用OpenClaw + 百炼Coding给他搭了一套完整的解决方案。
核心设计理念:不强求一个模型干所有事,而是让每个模型做它最擅长的事,通过API串联成完整流程。
成本?一个月40块的Coding套餐,常规业务场景完全足够。
代码、配置、词库都在上面了。
去跑跑看。
夜雨聆风