装Hermes 与 Openclaw 需要避免的几个坑-夜雨聆风

装Hermes 与 Openclaw 需要避免的几个坑

# 私人 Agent 从入门到“放弃”？ Hermes 与 Openclaw 真实踩坑记录#

第 1 页：我为什么想装私人 Agent

### 理想 vs 现实

– **期望**：一个全能、记忆连贯、随时可用的私人 AI 助理

– **现实**：开源项目很多，但每个都有“隐藏关卡”

– **最终目标**：稳定跑通，能远程控制，能处理文档和海外信息

## 坑点 ①：Openclaw —— 记忆混乱、网络依赖

Openclaw 的“美丽陷阱”

| 问题 | 具体情况 |

| ❌ 记忆不连贯 | 对话超过 3 轮就开始“失忆” |

| ❌ 网络强依赖 | 大量信息源依赖境外服务，不翻墙基本无法工作 |

| ❌ 中文支持粗糙 | 做复杂文档整理会跑偏 |

| ✅ 最终结论 | **不适合作为私人 Agent 主线方案** |

> 💬 不是 Openclaw 不好，是预期错位。如果你网络稳定且只做简单问答，可以试试，但个人长期使用很痛苦。

## 转向 Hermes + 远程控制方案，为什么最终选 Hermes？

– ✅ 开源、本地可控、扩展性更强

– ✅ 插件机制成熟，可以对接各种 API

– ✅ 配合飞书做远程控制，不用开公网端口

– ⚠️ 远程控制推荐用 **飞书**（钉钉/企微限制多，审核严，你懂的）

> 💬 飞书胜在开放 API 和机器人能力，个人开发者友好度相对最高。

## 第 4 坑点 ②：飞书个人账号 —— 文档功能“假死”

### 飞书账号的致命盲区

| 问题 | 详情 |

| ❌ 个人账号权限不足 | 创建应用后，无法调用“在线文档”写接口 |

| ❌ 自动发文档失败 | 想让 Agent 生成文档并自动发给你，个人版直接报错 |

| ✅ 解决方法 | 必须使用**企业账号**或**测试企业账号**（飞书允许个人创建测试企业） |

| ✅ 关键操作 | 在测试企业下开通机器人应用，才能正常使用文档读写权限|

> 💬 很多人卡在这里，以为是代码问题，其实是账号权限。测试企业是免费且可用的，记得去“飞书开放平台”新建。

## 第 5 坑点 ③：DeepSeek API 不支持图片识别（即使官网已支持）

### DeepSeek 的“图文双模态”假象

– ✅ 模型本身（deepseek V4 PRO）智商高，中文理解国内顶级

– ✅ 收集海外信息、整理长文本很强

– ❌ **官网 Web 端已支持识图，但 API 接口尚未开放图片输入**

– ❌ 导致无法处理截图、图表、拍照发来的任务

– ✅ **解决方案**：额外配置一个辅助识图模型（如 Qwen-VL 或 Claude 3 Haiku）做“图片转文字”前置

> 💬 注意：花钱调 API 时识别会失败，白浪费 token。如果要纯文本任务，DeepSeek 性价比极高，但多模态需要“拼装”。

最终建议

| 组件 | 选择 | 理由 |

|——|——|——|

| 核心 Agent | **Hermes** | 可控、插件多、社区活跃 |

| 远程控制 | **飞书（测试企业）** | 开放 API，文档功能可用 |

| 主模型 | **DeepSeek V10 PRO** | 文本任务强、便宜，海外信息检索优秀 |

| 图片识别 | **前置辅助模型**（Gemini 或国内多模态） | 弥补 DeepSeek API 不足 |

| 海外信息 | 依赖模型自身能力 + 稳定网络 | 没法绕开，但 Hermes 代理可配 |

> 🗣️ 海外多模态（Gemini/ChatGPT）确实强，但贵 + 限制多。

> 🗣️ 国内方案要“东拼西凑”，但能跑通且成本可控。

> 🗣️ **接受“缝合怪”现实，先跑通再优化。**