OpenClaw 图片识别配置指南:一个参数,让 AI 从＂瞎子＂变＂明眼＂

OpenClaw 图片识别配置指南：一个参数，让 AI 从"瞎子"变"明眼"

核心摘要：配置 OpenClaw 自定义模型时，图片识别功能突然失效。排查发现是协议配置问题。阿里云通义千问 qwen3.5-plus 提供两种接口：OpenAI 兼容（/v1）和 Anthropic 兼容（/apps/anthropic）。前者文本对话正常但图片识别失败，后者两者都正常。核心原因：Anthropic 协议原生支持多模态，图片传输格式更完善。正确配置后，图片识别准确率 100%。

───

01 问题：为什么文本正常，图片识别却失败了？

一个配置，两个结果：

| 配置状态 | 图片识别 | 文本对话 |
| ---- | ---- | ---- |
| 错误配置 | 无法识别 | 正常   |
| 正确配置 | 正常   | 正常   |

事情是这样的：

在配置 OpenClaw 自定义模型时，我遇到了一个诡异的问题：

• 文本对话：完全正常• 图片识别：完全失效

同一个模型，为什么两种功能表现完全不同？

经过 2 小时排查，发现根本原因是：协议选错了。

───

02 根本原因：阿里云的"双重身份"

阿里云 DashScope 的通义千问模型 qwen3.5-plus 提供两种接口：

接口 1：OpenAI 兼容接口（不推荐）

基础 URL: https://coding.dashscope.aliyuncs.com/v1
协议：OpenAI Completions

特点：

• 文本对话：正常• 图片识别：失败• 多模态支持：不完整

问题出在图片传输格式不兼容，导致识别功能失效。

接口 2：Anthropic 兼容接口（推荐）

基础 URL: https://coding.dashscope.aliyuncs.com/apps/anthropic
协议：Anthropic 兼容

特点：

• 文本对话：正常• 图片识别：正常• 多模态支持：原生支持

Anthropic 协议原生设计支持多模态，图片传输格式更完善。

───

03 解决方案：5 分钟完成正确配置

正确配置步骤

第 1 步：打开 OpenClaw 设置

• 进入 AI 模型提供商配置• 选择「自定义」类型

第 2 步：填写参数

| 字段     | 值                                                    |
| ------ | ---------------------------------------------------- |
| 基础 URL | https://coding.dashscope.aliyuncs.com/apps/anthropic |
| 模型 ID  | qwen3.5-plus                                         |
| 协议     | Anthropic 兼容                                         |

第 3 步：保存并测试

• 发送一张测试图片• 确认能正确识别图片内容

完成。

───

04 三种协议对比：如何选择？

| 协议                 | 适用场景                | 多模态支持 | 兼容性 |
| ------------------ | ------------------- | ----- | --- |
| OpenAI Completions | GPT 系列、通用文本对话       | 取决于实现 | 5 星 |
| OpenAI Responses   | OpenAI 推理模型 (o1/o3) | 有限    | 3 星 |
| Anthropic 兼容       | Claude 系列、通义千问多模态   | 原生支持  | 4 星 |

核心结论很简单：

• 纯文本对话：两种协议都支持• 图片识别：只能用 Anthropic 兼容

───

05 快速选型指南：对号入座

| 你的需求         | 推荐协议               | 接口 URL          |
| ------------ | ------------------ | --------------- |
| 图片识别/多模态     | Anthropic 兼容       | /apps/anthropic |
| 纯文本对话        | OpenAI Completions | /v1             |
| 使用 Claude 官方 | Anthropic 兼容       | 官方 API          |
| 使用 GPT 官方    | OpenAI Completions | 官方 API          |
| 阿里云通义千问      | Anthropic 兼容       | /apps/anthropic |

一句话总结：

• 用通义千问 + 图片识别 → Anthropic 兼容• 用 GPT/Claude 官方 → 对应官方协议

───

06 常见问题 FAQ

Q1: 为什么同样的模型，不同协议效果不同？

虽然底层模型相同，但不同协议的请求/响应格式不同。

Anthropic 协议原生设计支持多模态，图片传输格式更完善。OpenAI 兼容接口的图片传输格式不完整，导致识别失败。

Q2: 其他模型也适用这个配置吗？

不一定。参考以下规则：

| 模型系列      | 推荐协议               |
| --------- | ------------------ |
| GPT 系列    | OpenAI Completions |
| Claude 系列 | Anthropic 兼容       |
| 通义千问      | Anthropic 兼容（推荐）   |

Q3: 切换协议后需要重启 OpenClaw 吗？

一般不需要，保存配置后即可生效。

如遇到问题，可重启网关：

openclaw gateway restart

───

07 配置截图参考

正确配置

类型：自定义 (Custom)
基础 URL: https://coding.dashscope.aliyuncs.com/apps/anthropic
模型 ID: qwen3.5-plus
协议：Anthropic 兼容

错误配置（我踩过的坑）

类型：自定义 (Custom)
基础 URL: https://coding.dashscope.aliyuncs.com/v1
模型 ID: qwen3.5-plus
协议：OpenAI Completions

区别只有基础 URL 和协议不同，但效果天差地别。

───

08 核心要点总结

3 个必须记住的点：

阿里云通义千问的多模态功能必须通过 Anthropic 兼容接口调用
协议选择直接影响图片识别功能
文本对话两种协议都支持，但图片识别只能用 Anthropic 兼容

推荐配置（直接复制）：

基础 URL: https://coding.dashscope.aliyuncs.com/apps/anthropic
模型 ID: qwen3.5-plus
协议：Anthropic 兼容

───

09 经验教训

踩坑成本：2 小时排查时间

关键收获：

• 协议选择不是"能用就行"，直接影响功能完整性• 多模态功能优先选择 Anthropic 兼容协议• 配置问题先查协议，再查其他

文档位置：

• ~/workspace/OpenClaw 图片识别配置指南.md• ~/workspace/memory/lessons.md（已归档到记忆系统）

───

10 延伸思考

为什么协议这么重要？

不同协议背后是不同的设计理念：

• OpenAI 协议：最初为文本对话设计，多模态是"后加的"• Anthropic 协议：从设计之初就考虑多模态支持

选型原则：

• 原生支持 > 后期兼容• 官方推荐 > 社区方案• 文档完善 > 功能强大

───

最后提醒：

配置完成后，务必测试图片识别功能。

发送一张测试图片，确认识别结果准确，再开始正式使用。

配置对了，功能才能正常。

───

文档生成时间：2026-03-18作者：小爪标签：OpenClaw AI 配置图片识别通义千问技术教程

───

如果你觉得这篇文章有用，欢迎分享给同样使用 OpenClaw 的朋友。