商汤日日新免费接入OpenClaw,多模态智能体真香
大家好,我是大鸣!一名AI爱好者与从业者,专注于AI智能体应用落地,业余时间写文章记录自己学习AI过程的成长点滴。
点击下方名片关注我,跟着大鸣学习AI,学习路上不孤单!
最近发现一个白嫖多模态AI的好路子——商汤日日新模型限时免费,每5小时刷新1500次调用额度,直接接入OpenClaw就能用。我折腾了一下午,把完整流程走通了,今天把踩过的坑和关键配置都分享出来。
你有没有这种感觉:GPT看图还得先转文字,遇到表格和图表就抓瞎?商汤日日新的原生多模态架构,不是把图片转成文字描述再推理,而是直接”看懂”图表、表格、文档结构。官方说Token消耗比纯文本智能体降60%,而且现在Token Plan限免,每5小时1500次调用,不用白不用。
拿到API Key只需三步
先去商汤平台注册账号,地址是 https://platform.sensenova.cn,手机号验证就行,流程没啥坑。注册完进控制台找到API Keys页面,这里有个实战建议:为不同应用创建独立的Key。比如一个专门给OpenClaw用,另一个给别的项目。万一某个Key泄露了,不会一锅端。创建完你会得到一个sk-开头的密钥,记好了后面要用。
{
"sensenova": {
"baseUrl": "https://token.sensenova.cn/v1",
"apiKey": "${SENSENOVA_API_KEY}",
"api": "openai-completions",
"models": [
{
"id": "sensenova-6.7-flash-lite",
"name": "商汤Sensenova 6.7",
"reasoning": false,
"input": ["text", "image"]
}
]
}
}
上面是核心配置结构,注意几个关键点:baseUrl必须填https://token.sensenova.cn/v1,不是商汤官网域名;api字段填openai-completions表示兼容OpenAI协议;input里写text和image说明支持多模态输入。这一步是新手最容易卡住的地方,配置错了模型就调不通。我刚上手的时候就踩过这个坑,把baseUrl写成了商汤官网地址,结果调了一小时都没通,后来才发现要走专门的API域名。
很多人配完发现报错,90%的情况是baseUrl写错了。商汤有好几个域名,但API调用的入口只有这一个。
OpenClaw里的配置细节
OpenClaw的模型配置在 ~/.openclaw/openclaw.json 这个文件里,你需要在models.providers下面加一个sensenova条目。这里有个大坑:环境变量${SENSENOVA_API_KEY}要在系统里实际设置好,否则启动就报错。设置方法有两种:
export SENSENOVA_API_KEY="sk-你的密钥"
临时生效用上面的命令,要永久生效就写入shell配置文件然后source一下。
另外,商汤的模型ID要注意区分:sensenova-6.7-flash-lite是轻量版,响应快、免费额度消耗少;如果需要更强推理能力,可以换成sensenova-6.7-flash。但flash版本消耗的Token更多,免费额度用得更快,实战中lite版已经够日常使用了。我自己的做法是lite做默认,遇到复杂图表分析的时候临时切flash,这样额度消耗最优化。有个小技巧:你可以在OpenClaw里把lite设为默认模型,把flash设为别名模型,这样日常对话自动走lite,需要的时候手动指定flash就行。
配置完记得重启OpenClaw,不然新加的provider不生效。启动后可以在对话里直接选择商汤模型试试。如果你看到模型列表里出现了”商汤Sensenova 6.7″,说明配置成功。
实测效果:多模态到底强在哪
我拿几张图做了对比测试,分别是:一张包含表格的PDF截图、一个数据可视化图表、一份手写笔记的照片。
| 测试场景 | 传统文本模型 | 商汤日日新 |
|---|---|---|
| PDF表格截图 | 只能读文字,结构丢失 | 直接识别行列关系 |
| 数据图表 | 需要先OCR提取 | 理解趋势和极值 |
| 手写笔记 | 识别率低 | 连潦草字迹都能读懂 |
最让我惊喜的是表格理解能力。以前用纯文本模型,传一张表格截图过去,它只能把单元格里的文字读出来,但行列关系全丢了。商汤直接告诉我”第三行第二列的数据是XX,同比增长XX%”,这才是真正的”看懂”。我拿一份季度财报表格测试,它不仅能读出数字,还能自动算出环比变化,这种能力在做数据分析的时候太实用了。手写笔记的识别也超出预期,我拍了一张会议记录的照片,字写得不算工整,但商汤准确读出了90%以上的内容,连箭头指向的关系都理解了。
原生多模态和”先OCR再推理”的区别,就像你自己看图表和让人把图表念给你听的区别——前者你能把握全局,后者你只能抓住碎片。
免费额度够不够用
这是大家最关心的问题。我连续用了三天,大致摸清了消耗规律:
实战技巧:把简单的纯文本对话分流给其他免费模型(比如DeepSeek),只有涉及图片、表格、文档的场景才调商汤。这样免费额度基本用不完。我算了一笔账,如果只把商汤用在多模态场景,一天调用不超过50次,1500次额度能撑30小时,远超5小时刷新周期。
还有一点要注意,Token Plan的刷新不是整点刷新,而是从你第一次调用开始计时5小时。所以如果你早上9点第一次调用,那到下午2点才刷新下一轮1500次。建议在OpenClaw里设个提醒,额度快用完的时候自动切到备用模型。
免费不代表低质。商汤日日新在多模态场景的表现,完全对得起正式收费的价格。限免期间是最好的试水窗口。
免费的多模态能力,加上OpenClaw灵活的模型切换,这组合对AI从业者来说确实值得折腾一下。门槛不高,配置文件改改就能跑,而且商汤的原生多模态在表格和图表理解上确实比传统方案强一截。趁着限免赶紧试试,等收费了再评估要不要付费也不迟。
AI辅助润色生成

夜雨聆风