只能聊天的OpenClaw不够用?2个方案,让你的“龙虾”会看图!

各位极友，我是小极君～

从只认文字到看懂图片，AI用了好几年。但是让你NAS里的OpenClaw识图，今天的教程就能搞定！

以前给OpenClaw发张图，它礼貌回复“收到一张图片”。现在，它能看图说话：识别基金截图、解读奇怪图标、帮你整理商品信息……今天这篇，@690研究所教你两种方案，让OpenClaw拥有图片理解能力。一种本地部署，用GLM-OCR模型，数据不出家门，完全免费；另一种调用MiniMax的MCP，理解能力更强，适合对效果有更高要求的场景。手把手教程，从部署到调用，一步不落。👇

OpenClaw如果能理解图片，其实对很多用户日常的使用是帮助很大的。问题解答和解析就不再仅限文档、表格这些文字类信息，照片、商品图、截图等都能全方面识别解读，想想都刺激！

比如你买的基金，想让OpenClaw帮你做好每日监控记录，但如果你是开超市用户，一个一个输入名字、代码多少还是有点麻烦，这时候通过OpenClaw的图片理解就能直接一键识别添加。

再比如我这里相机上出现了一个莫名其妙的图案，我也不知道他是什么意思，我就能直接拍图画出来发给他，就能帮你解答。

但市面上很多模型都支持文本大模型，并不支持识图，那我们OpenClaw用户该怎么办呢？

最近看到有报道说智谱发布的GLM-OCR量化模型非常小，仅仅只有0.9B参数，整个模型体积也仅仅只有2.2GB左右，支持vLLM、SGlang和ollama部署。诶！那这种模型其实是非常非常适合部署在本地的。

咱们这使用的设备是极空间的Z4Pro+性能版，内存16G。另外极空间的应用中心中也是上线了OpenClaw，我们就直接用极空间应用中心的OpenClaw来演示，就不重新部署了。养虾不求人，不排队，极空间应用商店直接就能玩！

部署GLM-OCR

极空间的应用中心已经是自带了ollama应用，那我们只需要简单的点一下安装就能使用。但是ollama应用内是没有模型的，我们还需要拉取GLM-OCR模型。

进入极空间的Docker—找到appstore_ollama—点击SSH按钮，通过ssh链接进去

输入ollama run glm-ocr，就能直接拉取GLM-OCR模型，拉取需要等待一段时间，耐心等待即可。（当然，还有llama3.2-vision(10.7B)、llava:7b、moondream:latest等等模型，我都试过一遍了，效果都没有GLM-OCR好，各位小伙伴不用去折腾了）

这样GLM-OCR就已经部署在极空间本地了，那下一步是进行调用。

OpenClaw调用GLM-OCR

那其实调用GLM-OCR是非常简单的。我们的OpenClaw是通过Docker形式部署的（应用商店），那自然OpenClaw跟Ollama是处于同一个Docker网络下，调用就很简单了。

只需要询问你的小龙虾，它就能告诉你Ollama的地址是多少，这也就意味着小龙虾能够调用Ollama。

直接将图片发送给小龙虾，并且告诉他调用glm-ocr模型进行ocr识别，就这样简单的一句话就能调用Ollama去识别了。

那同样的需要注意，这个模型是跑在咱们极空间本地的，如果你的极空间设备性能比较弱，可能识别的时间会比较长，我这里测试的话大概在6s左右能ocr完成，那同时也需要注意，在ocr识别期间，性能占用会稍高一些，这些都是正常的。

当然！！有的小伙伴可能觉得：我都运行OpenClaw了，我都接入大模型了，怎么还要让我来本地部署OCR模型来做OCR识别呢？就不能直接调用模型的能力么？

那咱们前面说了，其实现在很多的模型都是文本大模型，但也有一些是原生多模态，但在OpenClaw、Claude code等工具中调用时，如果走的是coding plan这时候就需要安装MCP来实现图片理解了。

OpenClaw中该如何去调用模型的图片理解MCP呢？

调用图片理解MCP

我这里就以我常用的API服务商minimax的模型来举例，那MiniMax的整体性价比还是很不错的，我订阅的是Plus套餐，每五小时1500次的模型调用次数，基本上是足够的，同时也支持联网搜索和图片理解MCP的使用，大概是四十块钱一个月，如果使用强度不高的话，可以选择starer套餐，每五小时600次的模型调用，同样支持联网搜索和图片理解MCP。

正常在linux或者win wsl上安装mcp很简单，咱们只需要将minimax的MCP相关文档发给OpenClaw，它就能自己安装。但如果是Docker方式安装的，则不行。

（出现幻觉时，就会开始瞎说）

那Docker方式部署的OpenClaw就不能调用模型的图片理解能力了么？

我这里找到个方法，能够在Docker部署的OpenClaw中实现图片理解。输入以下代码

docker exec -it $(docker ps -q --filter "name=openclaw") /bin/bash -c "npm install -g @ameno/pi-minimax-mcp"

这时，OpenClaw会自动搜索并安装，但OpenClaw没有原生mcp支持，OpenClaw会给出对应的解决方案。

（这里测试图片太大了，导致图片理解超时，让它在测试一遍就显示成功了）

安装好之后你可以测试一下能不能正常调用，如果出现问你要api key的情况，记得告诉它，你用的就是：minimax的api key，api key你应该知道的。

可以看到调用流程是完全正确的（成功之后在飞书中发送原图就行），这个图片理解效果真的比咱们本地部署的GLM-OCR强太多了！

当然这个mcp也支持联网搜索，现在你的OpenClaw也支持联网搜索功能了。

最后

如何使用、如何安装这个mcp，那我这里直接将整个流程打包成了skill并上传到clawhub上了，如果有用minimax的token plan的用户，只需要让你的龙虾在clawhub上找到：minimax-mcp-docker这个skill并安装就能使用了~

安装 minimax-mcp-docker 这个 skill 的命令：先安装 skill（ clawhub install）：clawhub install minimax-mcp-docker安装 npm 包依赖：npm install -g @ameno/pi-minimax-mcp配置 API Key：mkdir -p ~/.openclaw/credentialsecho '{"api_key": "伱的API Key", "api_host": "https://api.minimaxi.com"}' > ~/.openclaw/credentials/minimax.jsonchmod 600 ~/.openclaw/credentials/minimax.json

也能通过手动安装的方式进行安装。那如果没有minimax订阅的，也可以走我的邀请进行订阅，可以打九折。（性价比很高！）

如果有小伙伴不想花钱，觉得本地部署的GLM-OCR也够用了，我这边也将如何调用GLM-OCR进行识别的skill打包上传了Clawhub。但需要注意，事先需要在本地安装并运行Ollama，并拉取GLM-OCR模型。

从本地部署GLM-OCR到调用MiniMax MCP，这篇教程把OpenClaw的图片理解能力彻底打开了。

如果你对数据隐私比较在意，本地跑GLM-OCR就够了，2.2GB的模型体积，极空间Z4 Pro+跑起来毫无压力。如果你追求更强的识别效果，MiniMax的MCP方案值得一试，图片理解能力远超本地模型。

两种方案，各取所需，成功让龙虾“睁眼看世界”~