OpenClaw 的命门,被 Anthropic 用一张“屏幕截图”精准击中了

朋友们，好久不见

消失了一阵子，主要是闷头在做一个自己的 Agent 项目，最近终于跑通了第一个可用版本，算是有了初步的成果。过程中踩了不少坑，也对整个 AI Agent 的生态有了更深的体感。

今天不聊我自己做的东西，先聊聊最近行业里发生的一些变化。因为正好是自己在做 Agent，所以看这些事情的视角跟以前纯当用户的时候完全不一样了，有些感受还挺强烈的，拿出来跟大家说说。

一个做 Agent 的人，怎么看 Claude 和 OpenClaw 这场暗战

自己动手做过 Agent 之后你会发现，最难的部分往往不是让 AI "变聪明"，而是让它真正触达到你要操控的东西。

你想让 AI 帮用户自动完成某个工作流，第一个问题就是：目标软件给不给你接口？如果有 API，万事好办；如果没有，你就只能干瞪眼。我在开发过程中被这个问题卡过很多次，深知这种无力感。

所以当 Claude 发布 Computer Use + Dispatch 这套组合的时候，我的第一反应不是 "哇好酷"，而是 **"这个思路可以解决我遇到的那个死胡同"**。

做 Agent 的人都知道，现在的技术路线主要就是两条：

我自己做 Agent 的时候，80% 的场景靠第一条路线就够了。但总有那么几个关键环节，目标系统就是没有接口，整个自动化链条就断在那里。

这种感觉就像你修了一条高速公路，结果中间有一段烂泥地，车开不过去。Claude 这次做的事情，本质上就是给这段烂泥地铺了一条路——虽然是土路，速度不快，但至少能通。

主要是两个东西的组合：

• Computer Use —— 让 AI 通过持续截屏来“看见”你的电脑屏幕，然后模拟鼠标键盘操作。原理不复杂，但对模型的视觉理解和操作规划能力要求极高。
• Dispatch —— 手机端的远程任务入口。配对之后，你在手机上发一句话，AI 就在你电脑上执行。它会自动判断任务类型，编码类的交给 Claude Code，知识类的走 Cowork，各自独立运行，互不干扰。

组合起来的效果： 你随时随地掏出手机下指令，Claude 在你电脑上既能走 API 又能看屏幕，什么软件都能操控。实际效果比如：让它打开微信帮你翻群聊消息做总结，或者先去浏览器搜资料再打开微信发朋友圈——这种跨应用、其中有些应用没有任何接口的操作链，以前是完全做不到的。

说实话，作为一个同样在做 Agent 的人，我对 OpenClaw 的处境是有共情的。

OpenClaw 做对了一件非常重要的事：它把 AI 的入口放在了聊天工具里。 你不用学任何新东西，在微信群里 @ 它就能用。这个产品直觉是很强的，普通人上手零门槛。

但它的天花板也很明显：

• 单腿走路： 它只有工具调用这一条腿。
• 模型壁垒： 视觉操控这种对模型能力要求极高的场景，第三方接哪家模型都不如 Claude 自家的模型好使。模型公司亲自下场做 Agent，就像饭店厨师用自己种的菜，食材供应链全控制。第三方 Agent 是去市场上采购食材，质量和稳定性天然差一档。

这也是 Anthropic 对 OpenClaw 一直采取“不搭理但每次更新都砍你命脉”这种策略的底气所在。

公平地说，Claude 有几个短板在中短期内是绕不过去的：

• 封号问题： 对中国用户来说这是最大的拦路虎，不确定性让很多人根本不敢把它当主力工具。
• 消耗太狠： 视觉方案意味着不断截屏和图像识别，token 消耗是常规对话的好几倍。有人试了用 Dispatch 纯聊天，两天就把一周的额度烧完了。
• IM 集成的缺失： Claude 的 Dispatch 只能通过自家 App 发起，不能嵌入微信、飞书这些日常通讯工具。而这恰恰是 OpenClaw 的核心场景。

1. 关于视觉方案的未来： 我个人判断它是一个非常重要的过渡性技术。当 AI 操控软件变成常态后，软件厂商会被迫开放接口——与其让 AI 笨拙地截屏，不如主动开门。但在过渡期内，视觉方案就是填补空白的关键拼图。
2. 关于模型和框架的关系：框架是骨架，模型是大脑。 骨架可以搭得很漂亮，但如果大脑不够聪明，什么花架子都白搭。模型公司做 Agent 可以反过来根据 Agent 的需求优化模型，形成正循环。
3. 关于安全： 让 AI 持续录屏并操控电脑，信任门槛极高。你既要让它足够自由才能干活，又不能让它自由到失控。这个平衡点很微妙。
4. 关于功能堆叠和产品打磨： 用户真正愿意留下来，不是因为你功能多，而是因为某一两个核心场景你做到了“闭着眼睛用都不会出错”的程度。真正的壁垒是模型能力和对场景的深度理解。

不是“Claude 杀死 OpenClaw”，更准确的说法是：AI 助手这个品类的天花板被大幅抬高了，而牌桌上的每个玩家都必须重新审视自己的位置。

AI 正在从“只能操控愿意配合的系统”进化到“能操控一切有界面的系统”。这个转变一旦完成，整个软件行业的交互方式都会被重新定义。

我们正站在这个变化的起点。而我自己做的那个 Agent，也正好卡在这个浪头上。后面有机会再跟大家细聊。