OpenClaw 看图说话:截图变数据
一张报表截图,30秒变成可编辑的 Excel。一张 UI 设计稿,直接生成前端代码。这不是魔法,是 OpenClaw 的多模态能力。
为什么要用 OpenClaw 处理图片?
传统工作流里有一类令人头疼的场景:数据被锁在图片里。
财务发来一张报表截图,你得手动把数字抄到 Excel 设计师给了一张 UI 稿,你得对着图片一行行敲代码 程序崩了,你截了个报错图,还得手打错误信息去 Google 收到一张名片照片,联系人得一个字一个字录入通讯录
这些「看图说话」的任务,以前只能人肉搞定。现在有了 OpenClaw 的多模态能力,直接把图片扔给它,让 AI 替你干。
准备工作:确认视觉模型已配置
OpenClaw 使用独立的 imageModel 处理图片,和主对话模型分开。用这条命令检查当前状态:
openclaw models status 如果输出里 imageModel 显示 (not set),说明还没配置,需要手动指定一个支持视觉的模型:
# 推荐用 Kimi 的多模态模型(国内访问快、中文识别准) openclaw models set-image moonshot/kimi-k2.5 # 或者用 Google 的免费视觉模型 openclaw models set-image openrouter/google/gemini-2.0-flash-vision:free 配置原则:主模型(model)选速度快的,图片模型(imageModel)选多模态强的,互不干扰。
也可以配置回退链,防止主模型挂了:
// openclaw config edit 打开配置文件,添加以下内容 "imageModel": { "primary": "moonshot/kimi-k2.5", "fallbacks": ["openrouter/google/gemini-2.0-flash-vision:free"] } 核心操作:如何把图片传给 OpenClaw
方法一:直接拖拽(最快)
把图片文件或截图直接拖进 OpenClaw 对话框,然后输入你的指令即可。
方法二:粘贴截图(键盘党首选)
截图后(Windows: Win+Shift+S,Mac: Cmd+Shift+4),直接在对话框按 Ctrl+V 粘贴,图片会自动上传。
方法三:通过文件路径引用
请分析这张图片:/path/to/screenshot.png 5 大高频场景实战
场景一:报表截图 → Excel 数据
适用情况:收到报表截图,需要把数据提取出来做进一步分析。
操作步骤:
截取报表图片(或收到对方截图) 拖入 OpenClaw 对话框 输入指令:
请把图片里的所有数据提取出来,整理成表格格式,并生成一个 xlsx 文件保存到桌面。 表格需要保留原有的行列结构,数字列格式化为数字类型,不要文本类型。 效果:OpenClaw 自动调用 xlsx 技能,生成格式完整的 Excel 文件。如果 xlsx 技能未安装,它会提示你安装。
💡 技巧:如果图片里有合并单元格,在指令里加一句「合并单元格请拆分,用原始值填充每行」,识别会更准确。
场景二:UI 设计图 → 前端代码
适用情况:设计师给了一张界面截图,需要快速还原成 HTML/CSS 代码。
操作步骤:
拖入 UI 截图 输入指令:
这是一张 UI 设计稿截图。请根据图片内容生成对应的 HTML + CSS 代码。 要求: - 使用 Flexbox 布局 - 颜色尽量匹配原图 - 中文文案保持不变 - 生成完整的可运行 HTML 文件 效果:几秒内生成完整的 HTML 文件,可直接在浏览器打开预览。
💡 技巧:如果要生成 React 组件,把指令里的「HTML + CSS」改成「React 函数组件 + Tailwind CSS」,效果同样好。
场景三:报错截图 → 解决方案
适用情况:程序报错,直接截图去问 OpenClaw,不用手打错误信息。
操作步骤:
截取报错界面(包含错误信息和堆栈跟踪) 拖入对话框 输入指令:
这是程序报错的截图。请: 1. 识别出完整的错误信息 2. 分析错误原因 3. 给出具体的修复步骤 4. 如果能直接修改代码,请给出修改后的代码 效果:OpenClaw 先 OCR 识别出错误文本,再结合上下文分析,给出可操作的解决方案。
💡 技巧:截图时把报错的上下几行代码也截进去,AI 分析会更准确。
场景四:名片照片 → 通讯录条目
适用情况:拍了名片照片,需要快速录入联系人信息。
操作步骤:
拍名片照片或把图片拖入对话框 输入指令:
这是一张名片照片。请提取所有联系人信息,输出为以下格式: 姓名: 职位: 公司: 手机: 邮箱: 地址: 微信/其他: 效果:自动识别名片上的文字,结构化输出所有信息。
进阶版:如果有 10 张以上名片需要批量处理,配合定时任务,把名片图片放到指定文件夹,让 OpenClaw 自动扫描并汇总到 Excel。
场景五:数学/公式截图 → 解题过程
适用情况:孩子作业截图、考题截图,需要完整解题过程。
操作步骤:
截取题目图片 拖入对话框 输入指令:
请识别图片中的题目,并给出完整的解题步骤。 要求:每一步写清楚用了什么公式,最终答案单独标出。 提升识别准确率的 3 个技巧
技巧一:截图质量决定识别上限
分辨率尽量高,文字清晰可辨 避免图片倾斜,旋转后的截图识别准确率会下降 30%+ 深色背景白色文字有时会识别失败,换个配色或截图方式
技巧二:指令要具体,不要模糊
技巧三:遇到识别偏差,告诉 AI 具体哪里不对
你识别第3行数据有误,那一行应该是"2024年Q3"而不是"2024Q3", 请修正后重新生成 Excel。 OpenClaw 支持多轮对话修正,不用重新开始。
常见问题
Q:图片上传失败怎么办?
A:检查文件格式(支持 PNG、JPG、WEBP、GIF),单图建议不超过 20MB。也可以用 openclaw models status 确认 imageModel 是否正常配置。
Q:中文识别出现乱码?
A:切换到支持中文的视觉模型,如 moonshot/kimi-k2.5。Google 的免费模型有时中文识别不稳定。
Q:识别结果和图片内容差距很大?
A:可能是主模型在处理图片(主模型不支持视觉),检查 imageModel 是否已配置为多模态模型。
Q:能处理手写内容吗?
A:能,但准确率比印刷体低。工整楷体大约 85%+ 准确,草书建议放弃……
总结
OpenClaw 的图片识别能力解决的核心问题是:把「看着图手动录入」变成「扔进去自动提取」。
最实用的 3 个场景: 1. 报表截图 → Excel:再也不用手抄数字 2. 报错截图 → 解决方案:不用手打错误信息直接问 AI 3. UI 截图 → 代码:设计稿直出前端实现
配置好 imageModel 之后,拖入图片 + 一句指令,剩下的交给 AI。
#OpenClaw #AI工具 #效率提升 #图片识别 #多模态AI
夜雨聆风