你被骗了!OpenClaw是真的很难用!-夜雨聆风

你被骗了!OpenClaw是真的很难用!

What’s up，大家！这是我的第 41 篇原创文章。

你现在去搜 OpenClaw，很容易看到一种特别上头的叙事。

什么“AI That Actually Does Things”，什么“5 分钟安装教程”，什么“5-30 分钟拥有你的 AI 助手”，再加上一堆“周末实验”“快速上手”的玩法文。标题看多了，你很容易产生一个错觉：这东西不就是装一下、配一下模型、接一下聊天工具，然后就能让 AI 替你干活吗？

很牛逼，很快，很容易上手。

然后残酷的现实来了：安装 OpenClaw，和把 OpenClaw 真正用起来，完全不是一回事。

我这次不是拿它做一个“发条消息，回一句话”的小玩具。我想让它接住一条真实的公众号内容生产链路：我在飞书里发起任务，OpenClaw 的主 Agent 接单，再去指挥一组下游 Agent，把一批公众号素材抓下来，清洗整理成候选选题，判断哪些值得写，生成初稿，最后把文章、状态和证据同步回本地和服务器，方便我后面人工审核。

说人话就是：我想把“收素材、分组、分析、出稿、回写、审核前检查”这串原本需要人盯着的活，交给一支能被远程指挥的 AI 内容小队。

结果 4 月份真跑起来之后，尤其是有一次集中处理一批新素材时，现场非常难受：11 个 Agent 都在，飞书消息也在动，日志也不是空的，中间文件也出现了，甚至一度看起来快跑完了。可最后一核对才发现，素材有了，记录没接上；状态推进了，证据没闭环；远端像是成功过，本地又被同步回了中间态。

这篇不写教程，也不写解决方案。

我只讲这个故事：为什么一个看起来很能干的 OpenClaw，真正放进生产链路里，会突然变得非常难用。

本次主要参考三类材料：第一是 4 月份 OpenClaw 长期实施现场；第二是一轮公众号素材集中处理任务的失败复盘；第三是波波在进化那篇讲 OpenClaw 多 Agent 配置的文章《让一个智能体指挥其他智能体，OpenClaw 这套配置终于搞明白了》。

这几组材料放在一起看，核心问题不是“OpenClaw 不会回答”，而是它会回答、会接活、会分派、会产出一堆看起来合理的文本，但你很难马上判断：它到底是真的完成了，还是只是看起来像完成了。

先说背景：我到底拿它干什么

如果读者不知道背景，后面那些坑会看得很散。所以先简单交代一下。

我当时不是单独问 OpenClaw 一个问题，也不是让它帮我写一段代码。我想跑的是一条固定的内容处理流程，大概长这样：

它最吸引人的地方就在这里：理论上，我不用一直坐在电脑前，只要在飞书里发一条指令，就能让一组 Agent 把“素材进来以后怎么变成可审核文章”这件事一路往前推。

但真正的生产链路，不是“有回复”就算完成。它至少要满足几件事：

我想要的效果	看起来很简单	实际麻烦的地方
远程发起任务	飞书里说一句就行	主 Agent 要能正确理解任务边界
多 Agent 协作	分给 11 个角色各自处理	每个角色都要返回可核对结果
自动写回结果	文件和状态自动同步	多台机器不能互相覆盖成功态
最后进入审核	文章看起来生成了	文章、任务记录、状态要能对上

所以我遇到的问题，本质上不是“它能不能聊天”，而是“它能不能稳定地把一件复杂事情从头做到尾，并且留下证据”。

第一个坑：会回复，不等于会干活

我第一次被它骗，就是因为它一直“活着”。

飞书里能回消息，主 Agent 能接单，语气也正常。它会说“我来处理”，会列计划，会告诉你下一步怎么做。你看着它动，就会下意识觉得：系统没问题，只是慢一点。

但 OpenClaw 这种东西，最可怕的不是直接挂掉，而是半活着。

它能回复，不代表它能调用工具；能接单，不代表它能访问其他 Agent；能返回 accepted，不代表子任务真的完成；能看到一部分历史，不代表跨会话权限都正常。

波波那篇配置文章里其实讲得很清楚：升级或改配置之后，机器人可能出现一种“还活着，但能力缩水”的状态。它不是突然不会说话了，而是能说，不能完整做。

表面现象	很容易误判成	真实问题可能是
主 Agent 还能回消息	模型没问题，系统可用	只说明消息入口活着，不代表工具链可用
子 Agent 返回 accepted	子任务已经执行	accepted 只是接单，不是完成
session 能看到一部分历史	session 权限正常	可见范围可能不够，跨 Agent 还要额外授权
某次跑通了	配置已经稳定	可能只是这一次 provider、session、同步刚好都没抖
执行记录写了完成	业务闭环完成	仍要核对文件、任务记录、版本标记、最终去向

这就是 OpenClaw 最讨厌人的地方：它经常不是“死给你看”，而是“半活半残地继续往前跑”。

第二个坑：权限不是一个开关，而是一串门

很多教程会把配置说得很轻：开一下权限，配一下 Agent，允许它调用工具，就好了。

但我真实踩下去才发现，权限不是一个总开关，它更像一串门。第一道门让你进楼，第二道门让你进房间，第三道门才让你拿工具。你以为自己已经授权了，其实只是过了其中一扇门。

这里最典型的就是两个 allow。它们名字都叫 allow，但管的不是同一件事：

{
  "agentToAgent": {
    "allow": ["informationmaster"]
  },
  "tools": {
    "allow": ["sessions_list", "sessions_send"]
  }
}

一个管“能找谁”，一个管“能用什么工具”。

这件事听起来很细，但对使用体验影响巨大。因为你看到的现象往往不是“权限错误”四个大字，而是某个 Agent 没有继续、某个会话看不到、某个任务只接单不返回。你会误以为是模型不听话，其实它可能只是没有钥匙。

第三个坑：11 个 Agent 不是团队，先可能是 11 个不确定性

多 Agent 协作听起来很酷。太子总控，中书规划，门下审议，尚书执行，户部核算，礼部整理，工部写回，兵部调度，刑部风控，监察复核，早朝汇总。名字很有气势，系统也很像一个数字朝廷。

但真正跑起来的时候，我很快就冷静了。

11 个 Agent 并不自动等于一个团队。它更像你临时拉了 11 个人进群，每个人都很会说话，每个人都能给你一段看似合理的回复，但他们之间有没有对齐任务边界、有没有交接格式、有没有最终完成证据，这才是问题。

那次集中处理公众号素材时，最刺眼的地方不是完全失败。

它反而是阶段性看起来成功。中间素材文件存在，数量也对得上，执行记录也不是空白。但这些素材和主任务记录精确匹配时，结果对不上。

这就很要命了。因为你不是没有东西，而是东西散在各处，没人能证明它们属于同一条任务链。

这时候 11 个 Agent 越多，噪声越大。因为每个 Agent 都可能说一段“我处理了”，但真正能让下一步继续的，不是这句话，而是它到底把结果写到哪里、谁接住了、有没有被下一步识别。

第四个坑：新旧素材一混，后面全是幻觉式完成

这种公众号素材处理链路，最怕新任务和旧任务混在一起。

这句话听着像内部术语，其实很好理解：你今天让它处理一批新公众号素材，昨天还有另一批旧素材没收尾。如果系统没有牢牢记住“这次只处理新进来的这一批”，它就可能把新素材的产物、旧素材的记录、上一轮留下的状态混在一起。

这就是我那次遇到的情况。

那次集中处理任务里，中间产物已经出现，但主记录没接住。后面系统又继续碰到旧记录，于是你会看到一些状态被推进，一些分析结果出现。表面上，它好像一直在工作；实际上，它可能已经把不同轮任务的东西揉在一起了。

核心问题	现场表现	为什么危险
新旧任务边界不清	新产物和旧记录一起出现	会把旧状态误当新结果
中间产物未入账	文件存在，但主记录不认	后续再跑没有正确起点
旧记录被继续分析	看到分流结果和状态推进	容易误判为这轮任务已经完成
报告写到一半	执行记录有内容但不完整	会把“跑过”包装成“跑通”
状态来回变化	一会像成功，一会又像没完	很难判断哪个版本是真的

这类问题最伤心智。你不是面对一个干净的失败，而是在多个版本、多轮任务、多个 Agent 的中间态里找真相。越急，越容易抓住一个“看起来像完成”的东西，告诉自己差不多了。

第五个坑：同步链路不是后勤，它会直接改写历史

很多人会把同步当成后勤：业务跑完了，再同步一下。

我的现场不是这样。

我有本地电脑，有 OpenClaw 服务器，还有中间的自动化服务器。文件会在几端之间同步。听起来这只是“搬文件”，但当任务本身也在写文件、改状态、生成结果时，同步就不再是后勤了。

它可能直接改写历史。

最典型的体验是：远端好像已经跑到了更靠后的状态，本地一同步，又回到了中间态。你再去看文件，会怀疑自己刚才是不是看错了。

这个时候就不是单纯“Agent 没跑好”了，而是三条线在互相打架：Agent 在跑，任务状态在变，同步程序也在跑。它们任何一个没有边界，都会把你刚刚看到的成功感冲掉。

**操作流程：**业务写入 → 状态推进 → 自动同步 → 版本冲突 → 旧状态回流 → 人工重新核对

#	现场	当时很容易怎么想	后来才意识到什么
1	远端状态更靠后	这次应该快完成了	只说明远端当时这样
2	本地又回到中间态	可能是我看错了	可能是同步覆盖了
3	出现冲突副本	只是多余文件	里面可能有真正证据
4	日志一直在刷	系统很努力	也可能是在重复打架

这就是为什么我现在听到“自动同步”会紧张。自动当然好，但自动没有边界，就会把错误也自动扩散。

第六个坑：模型和 Gateway 的抖动会伪装成业务失败

还有一种坑更烦：它不一定每次复现。

Gateway 偶尔 5xx，provider 返回 EOF，模型供应商超时，某个 OAuth 过期，某个中转额度不足，某个 child session 没有 completion。你单独问一个模型，它能答；你让太子调度 11 个 Agent，它就开始随机断。

这里不需要把每个错误码都展开讲。对读者来说，只要理解一件事就够了：单个模型能回答，不代表整条链路能连续跑完。

层级	抖动形态	对内容生产链路的影响
Gateway	healthz 短暂 502/5xx	主控误判系统不可用或继续盲跑
Provider	502/503/504、EOF、timeout	某个下游 Agent 无最终输出
Auth	401/403、auth_unavailable	表面像模型不听话，实际是账号不可用
Session	accepted 后无 completion	主 Agent 以为派出去了，实际没有结果
Delivery	飞书回投失败	用户看不到真实失败，只看到沉默

这就是为什么它会特别像玄学：今天能跑，明天不一定；单独问能答，串起来不一定；前半段正常，后半段可能断在一个你完全没注意的地方。

第七个坑：长提示词会让人误以为规则已经落地

OpenClaw 这套东西折腾到后面，很自然会变成“再写长一点提示词”。把边界写进去，把禁止事项写进去，把验收标准写进去，把异常处理写进去。

这当然有用，但它有上限。

提示词不是状态机。

你把“不要把新旧任务混在一起”写进去，它可能还是混；你把“必须回传证据”写进去，它可能还是口头汇报；你把“严格执行”写十遍，它也不等于真的每一步都会被外部检查。

这就是我那段时间最大的幻灭：我以为自己缺的是一句更好的提示词，后来发现我缺的是一套能证明它真的做完的东西。

这次翻车真正给我的感觉

如果用一句话概括，就是：OpenClaw 很会制造“快好了”的感觉。

它不像普通自动化程序那样，失败就报错停在那里。它会继续回复，继续总结，继续推进，继续产出一些看起来合理的文件。于是你会不停被它安慰：已经差不多了，再调一下就好。

但真实情况可能是这样：

#	我看到的现场	当时的心理活动	后来发现
1	飞书能回消息	系统入口没问题	入口活着，不代表工具链活着
2	11 个 Agent 都有动静	团队跑起来了	动静很多，不代表协作闭环
3	中间素材文件出现	采集成功了	文件存在，不代表主流程接住
4	报告里出现完成字眼	快结束了	完成字眼不等于完成证据
5	远端状态像成功过	终于通了	可能又被同步拉回去了
6	提示词越来越长	规则越来越严	规则写出来，不等于执行被锁住

这也是为什么我说它难用。

不是因为它完全不能用。恰恰相反，它能做的东西太多了，才更容易让人误判。一个完全不能用的工具，你很快会放弃；一个半能用、半跑偏、半成功的工具，最消耗人。

所以它到底是不是难用

我现在更愿意这么说：OpenClaw 不是“真的难用”，而是“真的很难用起来”。

难用，像是在骂工具。

难用起来，描述的是另一件事：你要把模型、权限、Agent、聊天工具、定时任务、同步、任务记录、结果证据全部调到同一个节奏里。任何一个点偏了，系统都不会马上死给你看，它会继续半跑，继续产生文本，继续制造一种“好像差一点就行了”的错觉。

这才是最消耗耐心的地方。

如果把它当聊天机器人，你会觉得它能用；如果把它当生产系统，你会发现它需要调试、调教、看日志、做对账、建边界。它不是一把开箱即用的螺丝刀，更像一条还没完全驯服的生产线。

慢就是快，这句话听起来像在安慰自己。

但折腾 OpenClaw 之后，我反而觉得它挺准确。

一开始为了快，你会相信那些“5 分钟”“一天”“周末搞定”的叙事；等真的放进自己的内容生产链路，你会发现慢慢调权限、调边界、调证据、调同步，才是最快的路。

这话听起来很像自己安慰自己。

但没办法，OpenClaw 就是这样：不是不能用，而是真的很难用起来。

历史文章，请看这里：

2026-04-20：看完教程说部署只需一天？我花了六周才真正搞懂这套AI框架

2026-03-27：你真的相信网上说的OpenClaw很简单吗而我折腾了两周才把三大模型接进来

2026-04-07：OpenClaw 到底该怎么选、怎么用、怎么救：从版本选型到高频命令的一张速查图