从零开始给OpenClaw装上感官记忆和双手:第4课睁眼看世界

进度：4/12，这是让你的 AI 从"文字助手"升级为"视觉助手"的关键一步。

你的 AI 还是"瞎子"吗？

想象一下这些场景：

朋友发来一张风景照问你「这是哪里」，你只能回复「看不到图片，能描述一下吗？」
同事甩过来一张复杂图表让你分析，你只能让他把数据打出来
看到一张搞笑meme图，你想让 AI 解释笑点，它却说「我无法查看图片内容」

尴尬吧？

前几节课，我们给 OpenClaw 装上了大脑、嘴巴、耳朵。但它还缺一双眼睛——看懂图片的能力。

好消息是：给 OpenClaw 开启图片理解，比你想的简单得多。不需要安装额外软件，只需要确认你的模型支持「多模态」即可。

这节课完成后，你的 AI 将能：

👁️ 识别图片内容——「这张图里有几只猫？」
📊 分析图表数据——「这张柱状图显示了什么趋势？」
🖼️ 理解截图信息——「这个报错是什么意思？」
📝 提取文字信息——「这张图里的文字内容是什么？」

准备工作

✅ 已经配置好的 OpenClaw（前三课的内容）
✅ 一个支持多模态的模型
✅ 一张测试图片
✅ 大约 5 分钟时间

**不需要：**额外安装 skill、申请 API Key、复杂配置

第一步：确认你的模型支持图片理解

什么是多模态模型？

简单说：能同时处理文字和图片的模型。

在 OpenClaw 的模型配置中，通过 input 字段标识：

text —— 只支持文字
image —— 支持图片
text + image —— 多模态

**主流多模态模型：**GPT-4o、Gemini 系列、Kimi K2.5、Claude 3.5 等

检查当前配置

打开 openclaw.json，找到模型配置：

{
  "input": ["text", "image"]  // ← 看这里！
}

有 "image" → ✅ 已支持，跳到第三步测试
只有 "text" → 📝 继续看第二步

第二步：给模型加上「识图」能力

修改现有模型配置

在 input 数组里添加 "image"：

{
  "input": [
    "text",
    "image"  // ← 添加这一行！
  ]
}

或者换一个新的多模态模型

以 Gemini 为例：

{
  "models": {
    "providers": {
      "google": {
        "models": [
          {
            "id": "gemini-3.1-flash-preview",
            "input": ["text", "image"]
          }
        ]
      }
    }
  }
}

第三步（进阶）：为图片单独配置理解模型

隐藏技巧：如果你的主模型是纯文本的，可以为图片单独配一个多模态模型！

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "newapi/cheap-text-model"
      }
    },
    "imageModel": {
      "primary": "newapi/kimi-k2.5",
      "fallbacks": ["newapi/qwen3.5-plus"]
    }
  }
}

工作原理：

正常对话 → 用便宜的文本模型
发送图片 → 自动切换到多模态模型
无缝切换，省钱又好用

第四步：重启并测试

openclaw restart

测试方式一：直接发图片

在飞书里直接发一张图给 OpenClaw，看它能不能描述内容。

测试方式二：图片+文字提问

发一张图表 + 「这张图显示了什么趋势？」

测试方式三：OCR识别

发一张手写笔记，让它提取文字。

常见问题

Q: 为什么我的 AI 说「无法查看图片」？

检查模型配置里的 input 是否包含 "image"，以及 OpenClaw 是否重启。

Q: 图片理解怎么收费？

按 token 计费，一般截图 1000-2000 tokens，高清照片 2000-4000 tokens。

Q: 支持哪些格式？

PNG、JPG、WEBP、GIF（静态），单张不超过 20MB。

进阶技巧

图片+搜索组合拳：识别植物图片 → 搜索养护方法
截图分析报错：直接发 IDE 报错截图，AI 帮你解决
图表数据提取：把 Excel 图表截图发给 AI，输出 Markdown 表格

总结

🎉 你的 OpenClaw 终于「睁眼看世界」了！

回顾 4 节课的成果：

课程	能力
第1课	大脑（模型配置）✅
第2课	嘴巴（飞书接入）✅
第3课	耳朵（实时搜索）✅
第4课	眼睛（图片理解）✅

下节预告： 第5课《不只看得懂，还能画得出——文生图配置指南》，让 AI 从「看图说话」升级到「无中生有」！

进度：4/12 已完成 ✅