装Hermes 与 Openclaw 需要避免的几个坑
# 私人 Agent 从入门到“放弃”? Hermes 与 Openclaw 真实踩坑记录#
第 1 页 :我为什么想装私人 Agent
### 理想 vs 现实
– **期望**:一个全能、记忆连贯、随时可用的私人 AI 助理
– **现实**:开源项目很多,但每个都有“隐藏关卡”
– **最终目标**:稳定跑通,能远程控制,能处理文档和海外信息
## 坑点 ①:Openclaw —— 记忆混乱、网络依赖
Openclaw 的“美丽陷阱”
| 问题 | 具体情况 |
| ❌ 记忆不连贯 | 对话超过 3 轮就开始“失忆” |
| ❌ 网络强依赖 | 大量信息源依赖境外服务,不翻墙基本无法工作 |
| ❌ 中文支持粗糙 | 做复杂文档整理会跑偏 |
| ✅ 最终结论 | **不适合作为私人 Agent 主线方案** |
> 💬 不是 Openclaw 不好,是预期错位。如果你网络稳定且只做简单问答,可以试试,但个人长期使用很痛苦。
## 转向 Hermes + 远程控制方案,为什么最终选 Hermes?
– ✅ 开源、本地可控、扩展性更强
– ✅ 插件机制成熟,可以对接各种 API
– ✅ 配合飞书做远程控制,不用开公网端口
– ⚠️ 远程控制推荐用 **飞书**(钉钉/企微限制多,审核严,你懂的)
> 💬 飞书胜在开放 API 和机器人能力,个人开发者友好度相对最高。
## 第 4 坑点 ②:飞书个人账号 —— 文档功能“假死”
### 飞书账号的致命盲区
| 问题 | 详情 |
| ❌ 个人账号权限不足 | 创建应用后,无法调用“在线文档”写接口 |
| ❌ 自动发文档失败 | 想让 Agent 生成文档并自动发给你,个人版直接报错 |
| ✅ 解决方法 | 必须使用**企业账号**或**测试企业账号**(飞书允许个人创建测试企业) |
| ✅ 关键操作 | 在测试企业下开通机器人应用,才能正常使用文档读写权限|
> 💬 很多人卡在这里,以为是代码问题,其实是账号权限。测试企业是免费且可用的,记得去“飞书开放平台”新建。
## 第 5 坑点 ③:DeepSeek API 不支持图片识别(即使官网已支持)
### DeepSeek 的“图文双模态”假象
– ✅ 模型本身(deepseek V4 PRO)智商高,中文理解国内顶级
– ✅ 收集海外信息、整理长文本很强
– ❌ **官网 Web 端已支持识图,但 API 接口尚未开放图片输入**
– ❌ 导致无法处理截图、图表、拍照发来的任务
– ✅ **解决方案**:额外配置一个辅助识图模型(如 Qwen-VL 或 Claude 3 Haiku)做“图片转文字”前置
> 💬 注意:花钱调 API 时识别会失败,白浪费 token。如果要纯文本任务,DeepSeek 性价比极高,但多模态需要“拼装”。
最终建议
| 组件 | 选择 | 理由 |
|——|——|——|
| 核心 Agent | **Hermes** | 可控、插件多、社区活跃 |
| 远程控制 | **飞书(测试企业)** | 开放 API,文档功能可用 |
| 主模型 | **DeepSeek V10 PRO** | 文本任务强、便宜,海外信息检索优秀 |
| 图片识别 | **前置辅助模型**(Gemini 或国内多模态) | 弥补 DeepSeek API 不足 |
| 海外信息 | 依赖模型自身能力 + 稳定网络 | 没法绕开,但 Hermes 代理可配 |
> 🗣️ 海外多模态(Gemini/ChatGPT)确实强,但贵 + 限制多。
> 🗣️ 国内方案要“东拼西凑”,但能跑通且成本可控。
> 🗣️ **接受“缝合怪”现实,先跑通再优化。**
夜雨聆风