你被骗了!OpenClaw是真的很难用!
What’s up, 大家!这是我的第 41 篇原创文章。
你现在去搜 OpenClaw,很容易看到一种特别上头的叙事。
什么“AI That Actually Does Things”,什么“5 分钟安装教程”,什么“5-30 分钟拥有你的 AI 助手”,再加上一堆“周末实验”“快速上手”的玩法文。标题看多了,你很容易产生一个错觉:这东西不就是装一下、配一下模型、接一下聊天工具,然后就能让 AI 替你干活吗?
很牛逼,很快,很容易上手。
然后残酷的现实来了:安装 OpenClaw,和把 OpenClaw 真正用起来,完全不是一回事。
我这次不是拿它做一个“发条消息,回一句话”的小玩具。我想让它接住一条真实的公众号内容生产链路:我在飞书里发起任务,OpenClaw 的主 Agent 接单,再去指挥一组下游 Agent,把一批公众号素材抓下来,清洗整理成候选选题,判断哪些值得写,生成初稿,最后把文章、状态和证据同步回本地和服务器,方便我后面人工审核。
说人话就是:我想把“收素材、分组、分析、出稿、回写、审核前检查”这串原本需要人盯着的活,交给一支能被远程指挥的 AI 内容小队。
结果 4 月份真跑起来之后,尤其是有一次集中处理一批新素材时,现场非常难受:11 个 Agent 都在,飞书消息也在动,日志也不是空的,中间文件也出现了,甚至一度看起来快跑完了。可最后一核对才发现,素材有了,记录没接上;状态推进了,证据没闭环;远端像是成功过,本地又被同步回了中间态。
这篇不写教程,也不写解决方案。
我只讲这个故事:为什么一个看起来很能干的 OpenClaw,真正放进生产链路里,会突然变得非常难用。
本次主要参考三类材料:第一是 4 月份 OpenClaw 长期实施现场;第二是一轮公众号素材集中处理任务的失败复盘;第三是波波在进化那篇讲 OpenClaw 多 Agent 配置的文章《让一个智能体指挥其他智能体,OpenClaw 这套配置终于搞明白了》。
这几组材料放在一起看,核心问题不是“OpenClaw 不会回答”,而是它会回答、会接活、会分派、会产出一堆看起来合理的文本,但你很难马上判断:它到底是真的完成了,还是只是看起来像完成了。
先说背景:我到底拿它干什么
如果读者不知道背景,后面那些坑会看得很散。所以先简单交代一下。
我当时不是单独问 OpenClaw 一个问题,也不是让它帮我写一段代码。我想跑的是一条固定的内容处理流程,大概长这样:

它最吸引人的地方就在这里:理论上,我不用一直坐在电脑前,只要在飞书里发一条指令,就能让一组 Agent 把“素材进来以后怎么变成可审核文章”这件事一路往前推。
但真正的生产链路,不是“有回复”就算完成。它至少要满足几件事:
| 我想要的效果 | 看起来很简单 | 实际麻烦的地方 |
| 远程发起任务 | 飞书里说一句就行 | 主 Agent 要能正确理解任务边界 |
| 多 Agent 协作 | 分给 11 个角色各自处理 | 每个角色都要返回可核对结果 |
| 自动写回结果 | 文件和状态自动同步 | 多台机器不能互相覆盖成功态 |
| 最后进入审核 | 文章看起来生成了 | 文章、任务记录、状态要能对上 |
所以我遇到的问题,本质上不是“它能不能聊天”,而是“它能不能稳定地把一件复杂事情从头做到尾,并且留下证据”。

第一个坑:会回复,不等于会干活
我第一次被它骗,就是因为它一直“活着”。
飞书里能回消息,主 Agent 能接单,语气也正常。它会说“我来处理”,会列计划,会告诉你下一步怎么做。你看着它动,就会下意识觉得:系统没问题,只是慢一点。
但 OpenClaw 这种东西,最可怕的不是直接挂掉,而是半活着。
它能回复,不代表它能调用工具;能接单,不代表它能访问其他 Agent;能返回 accepted,不代表子任务真的完成;能看到一部分历史,不代表跨会话权限都正常。
波波那篇配置文章里其实讲得很清楚:升级或改配置之后,机器人可能出现一种“还活着,但能力缩水”的状态。它不是突然不会说话了,而是能说,不能完整做。
| 表面现象 | 很容易误判成 | 真实问题可能是 |
| 主 Agent 还能回消息 | 模型没问题,系统可用 | 只说明消息入口活着,不代表工具链可用 |
| 子 Agent 返回 accepted | 子任务已经执行 | accepted 只是接单,不是完成 |
| session 能看到一部分历史 | session 权限正常 | 可见范围可能不够,跨 Agent 还要额外授权 |
| 某次跑通了 | 配置已经稳定 | 可能只是这一次 provider、session、同步刚好都没抖 |
| 执行记录写了完成 | 业务闭环完成 | 仍要核对文件、任务记录、版本标记、最终去向 |
这就是 OpenClaw 最讨厌人的地方:它经常不是“死给你看”,而是“半活半残地继续往前跑”。
第二个坑:权限不是一个开关,而是一串门
很多教程会把配置说得很轻:开一下权限,配一下 Agent,允许它调用工具,就好了。
但我真实踩下去才发现,权限不是一个总开关,它更像一串门。第一道门让你进楼,第二道门让你进房间,第三道门才让你拿工具。你以为自己已经授权了,其实只是过了其中一扇门。
这里最典型的就是两个 allow。它们名字都叫 allow,但管的不是同一件事:
{
"agentToAgent": {
"allow": ["informationmaster"]
},
"tools": {
"allow": ["sessions_list", "sessions_send"]
}
}
一个管“能找谁”,一个管“能用什么工具”。
这件事听起来很细,但对使用体验影响巨大。因为你看到的现象往往不是“权限错误”四个大字,而是某个 Agent 没有继续、某个会话看不到、某个任务只接单不返回。你会误以为是模型不听话,其实它可能只是没有钥匙。

第三个坑:11 个 Agent 不是团队,先可能是 11 个不确定性
多 Agent 协作听起来很酷。太子总控,中书规划,门下审议,尚书执行,户部核算,礼部整理,工部写回,兵部调度,刑部风控,监察复核,早朝汇总。名字很有气势,系统也很像一个数字朝廷。
但真正跑起来的时候,我很快就冷静了。
11 个 Agent 并不自动等于一个团队。它更像你临时拉了 11 个人进群,每个人都很会说话,每个人都能给你一段看似合理的回复,但他们之间有没有对齐任务边界、有没有交接格式、有没有最终完成证据,这才是问题。

那次集中处理公众号素材时,最刺眼的地方不是完全失败。
它反而是阶段性看起来成功。中间素材文件存在,数量也对得上,执行记录也不是空白。但这些素材和主任务记录精确匹配时,结果对不上。
这就很要命了。因为你不是没有东西,而是东西散在各处,没人能证明它们属于同一条任务链。
这时候 11 个 Agent 越多,噪声越大。因为每个 Agent 都可能说一段“我处理了”,但真正能让下一步继续的,不是这句话,而是它到底把结果写到哪里、谁接住了、有没有被下一步识别。

第四个坑:新旧素材一混,后面全是幻觉式完成
这种公众号素材处理链路,最怕新任务和旧任务混在一起。
这句话听着像内部术语,其实很好理解:你今天让它处理一批新公众号素材,昨天还有另一批旧素材没收尾。如果系统没有牢牢记住“这次只处理新进来的这一批”,它就可能把新素材的产物、旧素材的记录、上一轮留下的状态混在一起。
这就是我那次遇到的情况。
那次集中处理任务里,中间产物已经出现,但主记录没接住。后面系统又继续碰到旧记录,于是你会看到一些状态被推进,一些分析结果出现。表面上,它好像一直在工作;实际上,它可能已经把不同轮任务的东西揉在一起了。
| 核心问题 | 现场表现 | 为什么危险 |
| 新旧任务边界不清 | 新产物和旧记录一起出现 | 会把旧状态误当新结果 |
| 中间产物未入账 | 文件存在,但主记录不认 | 后续再跑没有正确起点 |
| 旧记录被继续分析 | 看到分流结果和状态推进 | 容易误判为这轮任务已经完成 |
| 报告写到一半 | 执行记录有内容但不完整 | 会把“跑过”包装成“跑通” |
| 状态来回变化 | 一会像成功,一会又像没完 | 很难判断哪个版本是真的 |

这类问题最伤心智。你不是面对一个干净的失败,而是在多个版本、多轮任务、多个 Agent 的中间态里找真相。越急,越容易抓住一个“看起来像完成”的东西,告诉自己差不多了。
第五个坑:同步链路不是后勤,它会直接改写历史
很多人会把同步当成后勤:业务跑完了,再同步一下。
我的现场不是这样。
我有本地电脑,有 OpenClaw 服务器,还有中间的自动化服务器。文件会在几端之间同步。听起来这只是“搬文件”,但当任务本身也在写文件、改状态、生成结果时,同步就不再是后勤了。
它可能直接改写历史。
最典型的体验是:远端好像已经跑到了更靠后的状态,本地一同步,又回到了中间态。你再去看文件,会怀疑自己刚才是不是看错了。
这个时候就不是单纯“Agent 没跑好”了,而是三条线在互相打架:Agent 在跑,任务状态在变,同步程序也在跑。它们任何一个没有边界,都会把你刚刚看到的成功感冲掉。
**操作流程:**业务写入 → 状态推进 → 自动同步 → 版本冲突 → 旧状态回流 → 人工重新核对
| # | 现场 | 当时很容易怎么想 | 后来才意识到什么 |
| 1 | 远端状态更靠后 | 这次应该快完成了 | 只说明远端当时这样 |
| 2 | 本地又回到中间态 | 可能是我看错了 | 可能是同步覆盖了 |
| 3 | 出现冲突副本 | 只是多余文件 | 里面可能有真正证据 |
| 4 | 日志一直在刷 | 系统很努力 | 也可能是在重复打架 |

这就是为什么我现在听到“自动同步”会紧张。自动当然好,但自动没有边界,就会把错误也自动扩散。
第六个坑:模型和 Gateway 的抖动会伪装成业务失败
还有一种坑更烦:它不一定每次复现。
Gateway 偶尔 5xx,provider 返回 EOF,模型供应商超时,某个 OAuth 过期,某个中转额度不足,某个 child session 没有 completion。你单独问一个模型,它能答;你让太子调度 11 个 Agent,它就开始随机断。
这里不需要把每个错误码都展开讲。对读者来说,只要理解一件事就够了:单个模型能回答,不代表整条链路能连续跑完。
| 层级 | 抖动形态 | 对内容生产链路的影响 |
| Gateway | healthz 短暂 502/5xx | 主控误判系统不可用或继续盲跑 |
| Provider | 502/503/504、EOF、timeout | 某个下游 Agent 无最终输出 |
| Auth | 401/403、auth_unavailable | 表面像模型不听话,实际是账号不可用 |
| Session | accepted 后无 completion | 主 Agent 以为派出去了,实际没有结果 |
| Delivery | 飞书回投失败 | 用户看不到真实失败,只看到沉默 |

这就是为什么它会特别像玄学:今天能跑,明天不一定;单独问能答,串起来不一定;前半段正常,后半段可能断在一个你完全没注意的地方。
第七个坑:长提示词会让人误以为规则已经落地
OpenClaw 这套东西折腾到后面,很自然会变成“再写长一点提示词”。把边界写进去,把禁止事项写进去,把验收标准写进去,把异常处理写进去。
这当然有用,但它有上限。
提示词不是状态机。
你把“不要把新旧任务混在一起”写进去,它可能还是混;你把“必须回传证据”写进去,它可能还是口头汇报;你把“严格执行”写十遍,它也不等于真的每一步都会被外部检查。
这就是我那段时间最大的幻灭:我以为自己缺的是一句更好的提示词,后来发现我缺的是一套能证明它真的做完的东西。

这次翻车真正给我的感觉
如果用一句话概括,就是:OpenClaw 很会制造“快好了”的感觉。
它不像普通自动化程序那样,失败就报错停在那里。它会继续回复,继续总结,继续推进,继续产出一些看起来合理的文件。于是你会不停被它安慰:已经差不多了,再调一下就好。
但真实情况可能是这样:
| # | 我看到的现场 | 当时的心理活动 | 后来发现 |
| 1 | 飞书能回消息 | 系统入口没问题 | 入口活着,不代表工具链活着 |
| 2 | 11 个 Agent 都有动静 | 团队跑起来了 | 动静很多,不代表协作闭环 |
| 3 | 中间素材文件出现 | 采集成功了 | 文件存在,不代表主流程接住 |
| 4 | 报告里出现完成字眼 | 快结束了 | 完成字眼不等于完成证据 |
| 5 | 远端状态像成功过 | 终于通了 | 可能又被同步拉回去了 |
| 6 | 提示词越来越长 | 规则越来越严 | 规则写出来,不等于执行被锁住 |
这也是为什么我说它难用。
不是因为它完全不能用。恰恰相反,它能做的东西太多了,才更容易让人误判。一个完全不能用的工具,你很快会放弃;一个半能用、半跑偏、半成功的工具,最消耗人。
所以它到底是不是难用
我现在更愿意这么说:OpenClaw 不是“真的难用”,而是“真的很难用起来”。
难用,像是在骂工具。
难用起来,描述的是另一件事:你要把模型、权限、Agent、聊天工具、定时任务、同步、任务记录、结果证据全部调到同一个节奏里。任何一个点偏了,系统都不会马上死给你看,它会继续半跑,继续产生文本,继续制造一种“好像差一点就行了”的错觉。
这才是最消耗耐心的地方。
如果把它当聊天机器人,你会觉得它能用;如果把它当生产系统,你会发现它需要调试、调教、看日志、做对账、建边界。它不是一把开箱即用的螺丝刀,更像一条还没完全驯服的生产线。
慢就是快,这句话听起来像在安慰自己。
但折腾 OpenClaw 之后,我反而觉得它挺准确。
一开始为了快,你会相信那些“5 分钟”“一天”“周末搞定”的叙事;等真的放进自己的内容生产链路,你会发现慢慢调权限、调边界、调证据、调同步,才是最快的路。
这话听起来很像自己安慰自己。
但没办法,OpenClaw 就是这样:不是不能用,而是真的很难用起来。
历史文章,请看这里:
2026-04-20:看完教程说部署只需一天?我花了六周才真正搞懂这套AI框架
2026-03-27:你真的相信网上说的OpenClaw很简单吗而我折腾了两周才把三大模型接进来
2026-04-07:OpenClaw 到底该怎么选、怎么用、怎么救:从版本选型到高频命令的一张速查图
夜雨聆风