乐于分享
好东西不私藏

你被骗了!OpenClaw是真的很难用!

你被骗了!OpenClaw是真的很难用!

What’s up, 大家!这是我的第 41 篇原创文章。

你现在去搜 OpenClaw,很容易看到一种特别上头的叙事。

什么“AI That Actually Does Things”,什么“5 分钟安装教程”,什么“5-30 分钟拥有你的 AI 助手”,再加上一堆“周末实验”“快速上手”的玩法文。标题看多了,你很容易产生一个错觉:这东西不就是装一下、配一下模型、接一下聊天工具,然后就能让 AI 替你干活吗?

很牛逼,很快,很容易上手。

然后残酷的现实来了:安装 OpenClaw,和把 OpenClaw 真正用起来,完全不是一回事。

我这次不是拿它做一个“发条消息,回一句话”的小玩具。我想让它接住一条真实的公众号内容生产链路:我在飞书里发起任务,OpenClaw 的主 Agent 接单,再去指挥一组下游 Agent,把一批公众号素材抓下来,清洗整理成候选选题,判断哪些值得写,生成初稿,最后把文章、状态和证据同步回本地和服务器,方便我后面人工审核。

说人话就是:我想把“收素材、分组、分析、出稿、回写、审核前检查”这串原本需要人盯着的活,交给一支能被远程指挥的 AI 内容小队。

结果 4 月份真跑起来之后,尤其是有一次集中处理一批新素材时,现场非常难受:11 个 Agent 都在,飞书消息也在动,日志也不是空的,中间文件也出现了,甚至一度看起来快跑完了。可最后一核对才发现,素材有了,记录没接上;状态推进了,证据没闭环;远端像是成功过,本地又被同步回了中间态。

这篇不写教程,也不写解决方案。

我只讲这个故事:为什么一个看起来很能干的 OpenClaw,真正放进生产链路里,会突然变得非常难用。

本次主要参考三类材料:第一是 4 月份 OpenClaw 长期实施现场;第二是一轮公众号素材集中处理任务的失败复盘;第三是波波在进化那篇讲 OpenClaw 多 Agent 配置的文章《让一个智能体指挥其他智能体,OpenClaw 这套配置终于搞明白了》。

这几组材料放在一起看,核心问题不是“OpenClaw 不会回答”,而是它会回答、会接活、会分派、会产出一堆看起来合理的文本,但你很难马上判断:它到底是真的完成了,还是只是看起来像完成了。


先说背景:我到底拿它干什么

如果读者不知道背景,后面那些坑会看得很散。所以先简单交代一下。

我当时不是单独问 OpenClaw 一个问题,也不是让它帮我写一段代码。我想跑的是一条固定的内容处理流程,大概长这样:

它最吸引人的地方就在这里:理论上,我不用一直坐在电脑前,只要在飞书里发一条指令,就能让一组 Agent 把“素材进来以后怎么变成可审核文章”这件事一路往前推。

但真正的生产链路,不是“有回复”就算完成。它至少要满足几件事:

       

         
           
           
         

我想要的效果 看起来很简单 实际麻烦的地方
远程发起任务 飞书里说一句就行 主 Agent 要能正确理解任务边界
多 Agent 协作 分给 11 个角色各自处理 每个角色都要返回可核对结果
自动写回结果 文件和状态自动同步 多台机器不能互相覆盖成功态
最后进入审核 文章看起来生成了 文章、任务记录、状态要能对上

       

     

所以我遇到的问题,本质上不是“它能不能聊天”,而是“它能不能稳定地把一件复杂事情从头做到尾,并且留下证据”。


第一个坑:会回复,不等于会干活

我第一次被它骗,就是因为它一直“活着”。

飞书里能回消息,主 Agent 能接单,语气也正常。它会说“我来处理”,会列计划,会告诉你下一步怎么做。你看着它动,就会下意识觉得:系统没问题,只是慢一点。

但 OpenClaw 这种东西,最可怕的不是直接挂掉,而是半活着。

它能回复,不代表它能调用工具;能接单,不代表它能访问其他 Agent;能返回 accepted,不代表子任务真的完成;能看到一部分历史,不代表跨会话权限都正常。

波波那篇配置文章里其实讲得很清楚:升级或改配置之后,机器人可能出现一种“还活着,但能力缩水”的状态。它不是突然不会说话了,而是能说,不能完整做。

       

         
           
           
         

表面现象 很容易误判成 真实问题可能是
主 Agent 还能回消息 模型没问题,系统可用 只说明消息入口活着,不代表工具链可用
子 Agent 返回 accepted 子任务已经执行 accepted 只是接单,不是完成
session 能看到一部分历史 session 权限正常 可见范围可能不够,跨 Agent 还要额外授权
某次跑通了 配置已经稳定 可能只是这一次 provider、session、同步刚好都没抖
执行记录写了完成 业务闭环完成 仍要核对文件、任务记录、版本标记、最终去向

       

     

这就是 OpenClaw 最讨厌人的地方:它经常不是“死给你看”,而是“半活半残地继续往前跑”。


第二个坑:权限不是一个开关,而是一串门

很多教程会把配置说得很轻:开一下权限,配一下 Agent,允许它调用工具,就好了。

但我真实踩下去才发现,权限不是一个总开关,它更像一串门。第一道门让你进楼,第二道门让你进房间,第三道门才让你拿工具。你以为自己已经授权了,其实只是过了其中一扇门。

这里最典型的就是两个 allow。它们名字都叫 allow,但管的不是同一件事:

{
  "agentToAgent": {
    "allow": ["informationmaster"]
  },
  "tools": {
    "allow": ["sessions_list", "sessions_send"]
  }
}

一个管“能找谁”,一个管“能用什么工具”。

这件事听起来很细,但对使用体验影响巨大。因为你看到的现象往往不是“权限错误”四个大字,而是某个 Agent 没有继续、某个会话看不到、某个任务只接单不返回。你会误以为是模型不听话,其实它可能只是没有钥匙。


第三个坑:11 个 Agent 不是团队,先可能是 11 个不确定性

多 Agent 协作听起来很酷。太子总控,中书规划,门下审议,尚书执行,户部核算,礼部整理,工部写回,兵部调度,刑部风控,监察复核,早朝汇总。名字很有气势,系统也很像一个数字朝廷。

但真正跑起来的时候,我很快就冷静了。

11 个 Agent 并不自动等于一个团队。它更像你临时拉了 11 个人进群,每个人都很会说话,每个人都能给你一段看似合理的回复,但他们之间有没有对齐任务边界、有没有交接格式、有没有最终完成证据,这才是问题。

那次集中处理公众号素材时,最刺眼的地方不是完全失败。

它反而是阶段性看起来成功。中间素材文件存在,数量也对得上,执行记录也不是空白。但这些素材和主任务记录精确匹配时,结果对不上。

这就很要命了。因为你不是没有东西,而是东西散在各处,没人能证明它们属于同一条任务链。

这时候 11 个 Agent 越多,噪声越大。因为每个 Agent 都可能说一段“我处理了”,但真正能让下一步继续的,不是这句话,而是它到底把结果写到哪里、谁接住了、有没有被下一步识别。


第四个坑:新旧素材一混,后面全是幻觉式完成

这种公众号素材处理链路,最怕新任务和旧任务混在一起。

这句话听着像内部术语,其实很好理解:你今天让它处理一批新公众号素材,昨天还有另一批旧素材没收尾。如果系统没有牢牢记住“这次只处理新进来的这一批”,它就可能把新素材的产物、旧素材的记录、上一轮留下的状态混在一起。

这就是我那次遇到的情况。

那次集中处理任务里,中间产物已经出现,但主记录没接住。后面系统又继续碰到旧记录,于是你会看到一些状态被推进,一些分析结果出现。表面上,它好像一直在工作;实际上,它可能已经把不同轮任务的东西揉在一起了。

       

         
           
           
         

核心问题 现场表现 为什么危险
新旧任务边界不清 新产物和旧记录一起出现 会把旧状态误当新结果
中间产物未入账 文件存在,但主记录不认 后续再跑没有正确起点
旧记录被继续分析 看到分流结果和状态推进 容易误判为这轮任务已经完成
报告写到一半 执行记录有内容但不完整 会把“跑过”包装成“跑通”
状态来回变化 一会像成功,一会又像没完 很难判断哪个版本是真的

       

     

这类问题最伤心智。你不是面对一个干净的失败,而是在多个版本、多轮任务、多个 Agent 的中间态里找真相。越急,越容易抓住一个“看起来像完成”的东西,告诉自己差不多了。


第五个坑:同步链路不是后勤,它会直接改写历史

很多人会把同步当成后勤:业务跑完了,再同步一下。

我的现场不是这样。

我有本地电脑,有 OpenClaw 服务器,还有中间的自动化服务器。文件会在几端之间同步。听起来这只是“搬文件”,但当任务本身也在写文件、改状态、生成结果时,同步就不再是后勤了。

它可能直接改写历史。

最典型的体验是:远端好像已经跑到了更靠后的状态,本地一同步,又回到了中间态。你再去看文件,会怀疑自己刚才是不是看错了。

这个时候就不是单纯“Agent 没跑好”了,而是三条线在互相打架:Agent 在跑,任务状态在变,同步程序也在跑。它们任何一个没有边界,都会把你刚刚看到的成功感冲掉。

**操作流程:**业务写入 → 状态推进 → 自动同步 → 版本冲突 → 旧状态回流 → 人工重新核对

       

         
           
           
         

# 现场 当时很容易怎么想 后来才意识到什么
1 远端状态更靠后 这次应该快完成了 只说明远端当时这样
2 本地又回到中间态 可能是我看错了 可能是同步覆盖了
3 出现冲突副本 只是多余文件 里面可能有真正证据
4 日志一直在刷 系统很努力 也可能是在重复打架

       

     

这就是为什么我现在听到“自动同步”会紧张。自动当然好,但自动没有边界,就会把错误也自动扩散。


第六个坑:模型和 Gateway 的抖动会伪装成业务失败

还有一种坑更烦:它不一定每次复现。

Gateway 偶尔 5xx,provider 返回 EOF,模型供应商超时,某个 OAuth 过期,某个中转额度不足,某个 child session 没有 completion。你单独问一个模型,它能答;你让太子调度 11 个 Agent,它就开始随机断。

这里不需要把每个错误码都展开讲。对读者来说,只要理解一件事就够了:单个模型能回答,不代表整条链路能连续跑完。

       

         
           
           
         

层级 抖动形态 对内容生产链路的影响
Gateway healthz 短暂 502/5xx 主控误判系统不可用或继续盲跑
Provider 502/503/504、EOF、timeout 某个下游 Agent 无最终输出
Auth 401/403、auth_unavailable 表面像模型不听话,实际是账号不可用
Session accepted 后无 completion 主 Agent 以为派出去了,实际没有结果
Delivery 飞书回投失败 用户看不到真实失败,只看到沉默

       

     

这就是为什么它会特别像玄学:今天能跑,明天不一定;单独问能答,串起来不一定;前半段正常,后半段可能断在一个你完全没注意的地方。


第七个坑:长提示词会让人误以为规则已经落地

OpenClaw 这套东西折腾到后面,很自然会变成“再写长一点提示词”。把边界写进去,把禁止事项写进去,把验收标准写进去,把异常处理写进去。

这当然有用,但它有上限。

提示词不是状态机。

你把“不要把新旧任务混在一起”写进去,它可能还是混;你把“必须回传证据”写进去,它可能还是口头汇报;你把“严格执行”写十遍,它也不等于真的每一步都会被外部检查。

这就是我那段时间最大的幻灭:我以为自己缺的是一句更好的提示词,后来发现我缺的是一套能证明它真的做完的东西。


这次翻车真正给我的感觉

如果用一句话概括,就是:OpenClaw 很会制造“快好了”的感觉。

它不像普通自动化程序那样,失败就报错停在那里。它会继续回复,继续总结,继续推进,继续产出一些看起来合理的文件。于是你会不停被它安慰:已经差不多了,再调一下就好。

但真实情况可能是这样:

       

         
           
           
         

# 我看到的现场 当时的心理活动 后来发现
1 飞书能回消息 系统入口没问题 入口活着,不代表工具链活着
2 11 个 Agent 都有动静 团队跑起来了 动静很多,不代表协作闭环
3 中间素材文件出现 采集成功了 文件存在,不代表主流程接住
4 报告里出现完成字眼 快结束了 完成字眼不等于完成证据
5 远端状态像成功过 终于通了 可能又被同步拉回去了
6 提示词越来越长 规则越来越严 规则写出来,不等于执行被锁住

       

     

这也是为什么我说它难用。

不是因为它完全不能用。恰恰相反,它能做的东西太多了,才更容易让人误判。一个完全不能用的工具,你很快会放弃;一个半能用、半跑偏、半成功的工具,最消耗人。


所以它到底是不是难用

我现在更愿意这么说:OpenClaw 不是“真的难用”,而是“真的很难用起来”。

难用,像是在骂工具。

难用起来,描述的是另一件事:你要把模型、权限、Agent、聊天工具、定时任务、同步、任务记录、结果证据全部调到同一个节奏里。任何一个点偏了,系统都不会马上死给你看,它会继续半跑,继续产生文本,继续制造一种“好像差一点就行了”的错觉。

这才是最消耗耐心的地方。

如果把它当聊天机器人,你会觉得它能用;如果把它当生产系统,你会发现它需要调试、调教、看日志、做对账、建边界。它不是一把开箱即用的螺丝刀,更像一条还没完全驯服的生产线。

慢就是快,这句话听起来像在安慰自己。

但折腾 OpenClaw 之后,我反而觉得它挺准确。

一开始为了快,你会相信那些“5 分钟”“一天”“周末搞定”的叙事;等真的放进自己的内容生产链路,你会发现慢慢调权限、调边界、调证据、调同步,才是最快的路。

这话听起来很像自己安慰自己。

但没办法,OpenClaw 就是这样:不是不能用,而是真的很难用起来。


历史文章,请看这里:

2026-04-20:看完教程说部署只需一天?我花了六周才真正搞懂这套AI框架

2026-03-27:你真的相信网上说的OpenClaw很简单吗而我折腾了两周才把三大模型接进来

2026-04-07:OpenClaw 到底该怎么选、怎么用、怎么救:从版本选型到高频命令的一张速查图