小龙虾为啥要么看不了图,要么胡说八道?
本质原因不在模型,而在链路。这套流程其实是在给 OpenClaw 补齐“看图能力”。当用户发送图片后,系统并不会直接理解,而是通过 Tool / 脚本将图片转为 base64,并按规范封装请求,调用外部视觉模型(如 MiniMax VLM)进行解析,获取描述或结构化信息,再返回给 Agent 继续推理或回复用户。
关键认知是:视觉能力并非模型自带,而是通过“工具 + 接口”拼装出来的一条能力链路。一旦这条链路没有打通或不稳定,就会出现“看不了”或“胡说八道”。如果没有接入对应接口,就必须自行引入其他视觉模型,才能实现稳定的图片理解能力。
#openclaw #openclaw图片理解 #openclaw看图 #minimax模型
本质原因不在模型,而在链路。这套流程其实是在给 OpenClaw 补齐“看图能力”。当用户发送图片后,系统并不会直接理解,而是通过 Tool / 脚本将图片转为 base64,并按规范封装请求,调用外部视觉模型(如 MiniMax VLM)进行解析,获取描述或结构化信息,再返回给 Agent 继续推理或回复用户。
关键认知是:视觉能力并非模型自带,而是通过“工具 + 接口”拼装出来的一条能力链路。一旦这条链路没有打通或不稳定,就会出现“看不了”或“胡说八道”。如果没有接入对应接口,就必须自行引入其他视觉模型,才能实现稳定的图片理解能力。
#openclaw #openclaw图片理解 #openclaw看图 #minimax模型
夜雨聆风