OpenClaw 看图说话:截图变数据

OpenClaw 看图说话：截图变数据

一张报表截图，30秒变成可编辑的 Excel。一张 UI 设计稿，直接生成前端代码。这不是魔法，是 OpenClaw 的多模态能力。

为什么要用 OpenClaw 处理图片？

传统工作流里有一类令人头疼的场景：数据被锁在图片里。

财务发来一张报表截图，你得手动把数字抄到 Excel
设计师给了一张 UI 稿，你得对着图片一行行敲代码
程序崩了，你截了个报错图，还得手打错误信息去 Google
收到一张名片照片，联系人得一个字一个字录入通讯录

这些「看图说话」的任务，以前只能人肉搞定。现在有了 OpenClaw 的多模态能力，直接把图片扔给它，让 AI 替你干。

准备工作：确认视觉模型已配置

OpenClaw 使用独立的 imageModel 处理图片，和主对话模型分开。用这条命令检查当前状态：

openclaw models status

如果输出里 imageModel 显示 (not set)，说明还没配置，需要手动指定一个支持视觉的模型：

# 推荐用 Kimi 的多模态模型（国内访问快、中文识别准） openclaw models set-image moonshot/kimi-k2.5  # 或者用 Google 的免费视觉模型 openclaw models set-image openrouter/google/gemini-2.0-flash-vision:free

配置原则：主模型（model）选速度快的，图片模型（imageModel）选多模态强的，互不干扰。

也可以配置回退链，防止主模型挂了：

// openclaw config edit 打开配置文件，添加以下内容 "imageModel": {   "primary": "moonshot/kimi-k2.5",   "fallbacks": ["openrouter/google/gemini-2.0-flash-vision:free"] }

核心操作：如何把图片传给 OpenClaw

方法一：直接拖拽（最快）

把图片文件或截图直接拖进 OpenClaw 对话框，然后输入你的指令即可。

方法二：粘贴截图（键盘党首选）

截图后（Windows: Win+Shift+S，Mac: Cmd+Shift+4），直接在对话框按 Ctrl+V 粘贴，图片会自动上传。

方法三：通过文件路径引用

请分析这张图片：/path/to/screenshot.png

5 大高频场景实战

场景一：报表截图 → Excel 数据

适用情况：收到报表截图，需要把数据提取出来做进一步分析。

操作步骤：

截取报表图片（或收到对方截图）
拖入 OpenClaw 对话框
输入指令：

请把图片里的所有数据提取出来，整理成表格格式，并生成一个 xlsx 文件保存到桌面。 表格需要保留原有的行列结构，数字列格式化为数字类型，不要文本类型。

效果：OpenClaw 自动调用 xlsx 技能，生成格式完整的 Excel 文件。如果 xlsx 技能未安装，它会提示你安装。

💡 技巧：如果图片里有合并单元格，在指令里加一句「合并单元格请拆分，用原始值填充每行」，识别会更准确。

场景二：UI 设计图 → 前端代码

适用情况：设计师给了一张界面截图，需要快速还原成 HTML/CSS 代码。

操作步骤：

拖入 UI 截图
输入指令：

这是一张 UI 设计稿截图。请根据图片内容生成对应的 HTML + CSS 代码。 要求： - 使用 Flexbox 布局 - 颜色尽量匹配原图 - 中文文案保持不变 - 生成完整的可运行 HTML 文件

效果：几秒内生成完整的 HTML 文件，可直接在浏览器打开预览。

💡 技巧：如果要生成 React 组件，把指令里的「HTML + CSS」改成「React 函数组件 + Tailwind CSS」，效果同样好。

场景三：报错截图 → 解决方案

适用情况：程序报错，直接截图去问 OpenClaw，不用手打错误信息。

操作步骤：

截取报错界面（包含错误信息和堆栈跟踪）
拖入对话框
输入指令：

这是程序报错的截图。请： 1. 识别出完整的错误信息 2. 分析错误原因 3. 给出具体的修复步骤 4. 如果能直接修改代码，请给出修改后的代码

效果：OpenClaw 先 OCR 识别出错误文本，再结合上下文分析，给出可操作的解决方案。

💡 技巧：截图时把报错的上下几行代码也截进去，AI 分析会更准确。

场景四：名片照片 → 通讯录条目

适用情况：拍了名片照片，需要快速录入联系人信息。

操作步骤：

拍名片照片或把图片拖入对话框
输入指令：

这是一张名片照片。请提取所有联系人信息，输出为以下格式： 姓名： 职位： 公司： 手机： 邮箱： 地址： 微信/其他：

效果：自动识别名片上的文字，结构化输出所有信息。

进阶版：如果有 10 张以上名片需要批量处理，配合定时任务，把名片图片放到指定文件夹，让 OpenClaw 自动扫描并汇总到 Excel。

场景五：数学/公式截图 → 解题过程

适用情况：孩子作业截图、考题截图，需要完整解题过程。

操作步骤：

截取题目图片
拖入对话框
输入指令：

请识别图片中的题目，并给出完整的解题步骤。 要求：每一步写清楚用了什么公式，最终答案单独标出。

提升识别准确率的 3 个技巧

技巧一：截图质量决定识别上限

分辨率尽量高，文字清晰可辨
避免图片倾斜，旋转后的截图识别准确率会下降 30%+
深色背景白色文字有时会识别失败，换个配色或截图方式

技巧二：指令要具体，不要模糊

模糊指令	具体指令
帮我分析这张图	提取图片里的所有数字，按行整理成 JSON
识别这张图的内容	OCR 识别图片文字，保留原有段落格式
看看这个 UI	根据这张截图生成 React 组件，使用 Ant Design

技巧三：遇到识别偏差，告诉 AI 具体哪里不对

你识别第3行数据有误，那一行应该是"2024年Q3"而不是"2024Q3"， 请修正后重新生成 Excel。

OpenClaw 支持多轮对话修正，不用重新开始。

常见问题

Q：图片上传失败怎么办？

A：检查文件格式（支持 PNG、JPG、WEBP、GIF），单图建议不超过 20MB。也可以用 openclaw models status 确认 imageModel 是否正常配置。

Q：中文识别出现乱码？

A：切换到支持中文的视觉模型，如 moonshot/kimi-k2.5。Google 的免费模型有时中文识别不稳定。

Q：识别结果和图片内容差距很大？

A：可能是主模型在处理图片（主模型不支持视觉），检查 imageModel 是否已配置为多模态模型。

Q：能处理手写内容吗？

A：能，但准确率比印刷体低。工整楷体大约 85%+ 准确，草书建议放弃……

总结

OpenClaw 的图片识别能力解决的核心问题是：把「看着图手动录入」变成「扔进去自动提取」。

最实用的 3 个场景： 1. 报表截图 → Excel：再也不用手抄数字 2. 报错截图 → 解决方案：不用手打错误信息直接问 AI 3. UI 截图 → 代码：设计稿直出前端实现

配置好 imageModel 之后，拖入图片 + 一句指令，剩下的交给 AI。

#OpenClaw #AI工具 #效率提升 #图片识别 #多模态AI