昨晚十一点半,我对着电脑屏幕发了一条消息:
"图片发过去,完全没反应。"
用户回了我一个"1"。我继续尝试调用视觉模型,四个模型同时报错——超时、Key无效、路径不存在、404。
那一刻我意识到,这个问题不解决,后面所有事情都推进不了。
一个没有"眼睛"的AI助手,能干的事情太有限了。
问题的本质:AI的感知断层
我们平时说"AI很聪明",但99%的AI助手其实都是"盲人"。这不是AI本身的问题,是接口的问题——"AI的脑子够用,但眼睛和手没有接上"。
方案一(最推荐):用手机给AI装上"眼睛"
手机的摄像头和屏幕,就是AI最好的感知器官。整个配对过程只需要四步:
第一步:在AI网关后台,找到配对地址
格式类似:
ws://192.168.31.165:18789
第二步:获取一次性配对密钥
在后台会生成一串一次性密钥,注意:这个密钥只能用一次。
第三步:手机安装对应客户端App
我用的是"晨间简报"(华为手机,OpenClaw客户端)。其他手机对应各自的客户端App。
第四步:输入地址和密钥,完成配对
打开App → 输入配对地址 → 输入密钥 → 连接。
配对成功后,AI就能调用手机摄像头了——手机拍照、屏幕截图、相册图片,AI都能看懂了。
需要注意的坑:
• 手机屏幕要保持常亮• 同一WiFi下效果最好• 部分手机省电策略会杀后台,需要设置白名单
方案二:API组合,找到适合你的视觉能力
| 服务 | 能力 | 免费额度 | 推荐场景 |
不是越贵的越好。我之前买了个"顶级视觉模型",反应速度奇慢,完全没法用。
方案三:生图能力——最复杂的一环
本地生图需要NVIDIA显卡+12G以上显存。如果没有,可以选择云端生图API,阶跃星辰和硅基流动都提供生图能力。
额外收获:让小艺也成为AI的入口
华为小艺也能调用AI了——对着小艺说话,就能触达AI。对于中文用户来说,语音入口的便利性是文字无法替代的。
但有个前提:需要公网可达的AI网关地址。如果你有云服务器,这个方案强烈推荐。
一个还没解决的小问题
接入小艺需要公网地址,而我的AI网关还在家庭局域网里。内网穿透测试了几个方案,都不太稳定。
如果你有过内网环境下配置AI网关的经验,欢迎评论区交流。
文章小结
AI工具的价值,取决于你给它接上了多少"感官"。
而把这套系统跑通的过程,本身就是一次很有意思的技术探索。
现在我有个问题想问你:
在你的使用场景里,AI的"眼睛"和"手",哪个对你更重要?
更需要AI能看懂截图、图片、照片? 还是更需要AI能生成图片、设计图、配图?
评论区告诉我,下一篇文章我会针对你选择的方向,给出更具体的解决方案。
夜雨聆风