朋友们,好久不见
消失了一阵子,主要是闷头在做一个自己的 Agent 项目,最近终于跑通了第一个可用版本,算是有了初步的成果。过程中踩了不少坑,也对整个 AI Agent 的生态有了更深的体感。
今天不聊我自己做的东西,先聊聊最近行业里发生的一些变化。因为正好是自己在做 Agent,所以看这些事情的视角跟以前纯当用户的时候完全不一样了,有些感受还挺强烈的,拿出来跟大家说说。
一个做 Agent 的人,怎么看 Claude 和 OpenClaw 这场暗战
先说我为什么关注这件事
自己动手做过 Agent 之后你会发现,最难的部分往往不是让 AI "变聪明",而是让它真正触达到你要操控的东西。
你想让 AI 帮用户自动完成某个工作流,第一个问题就是:目标软件给不给你接口?如果有 API,万事好办;如果没有,你就只能干瞪眼。我在开发过程中被这个问题卡过很多次,深知这种无力感。
所以当 Claude 发布 Computer Use + Dispatch 这套组合的时候,我的第一反应不是 "哇好酷",而是 **"这个思路可以解决我遇到的那个死胡同"**。
一堵所有 Agent 开发者都撞过的墙
做 Agent 的人都知道,现在的技术路线主要就是两条:
1. 工具调用 (Tool Calling) • 把各种能力封装成函数或 API,让 AI 按需调用。OpenClaw 走的就是这条路,大部分 Agent 框架也是这个思路。 • 优点: 快、准、可控。 • 缺点: 只能操控那些“配合你”的系统。微信不给你接口,你就控制不了微信;某个老旧的企业系统没有 API,你就没辙。 2. 视觉操控 (Visual Control) • 让 AI 像人一样看屏幕、点鼠标。之前手机端的一些产品已经在走这条路了,但桌面端一直没有成熟的方案。 • 优点: 万能,什么软件都能操控。 • 缺点: 慢、费资源、容易出错。
我自己做 Agent 的时候,80% 的场景靠第一条路线就够了。但总有那么几个关键环节,目标系统就是没有接口,整个自动化链条就断在那里。
这种感觉就像你修了一条高速公路,结果中间有一段烂泥地,车开不过去。Claude 这次做的事情,本质上就是给这段烂泥地铺了一条路——虽然是土路,速度不快,但至少能通。
Claude 到底做了什么?
主要是两个东西的组合:
• Computer Use —— 让 AI 通过持续截屏来“看见”你的电脑屏幕,然后模拟鼠标键盘操作。原理不复杂,但对模型的视觉理解和操作规划能力要求极高。 • Dispatch —— 手机端的远程任务入口。配对之后,你在手机上发一句话,AI 就在你电脑上执行。它会自动判断任务类型,编码类的交给 Claude Code,知识类的走 Cowork,各自独立运行,互不干扰。
组合起来的效果: 你随时随地掏出手机下指令,Claude 在你电脑上既能走 API 又能看屏幕,什么软件都能操控。实际效果比如:让它打开微信帮你翻群聊消息做总结,或者先去浏览器搜资料再打开微信发朋友圈——这种跨应用、其中有些应用没有任何接口的操作链,以前是完全做不到的。
那 OpenClaw 怎么办?
说实话,作为一个同样在做 Agent 的人,我对 OpenClaw 的处境是有共情的。
OpenClaw 做对了一件非常重要的事:它把 AI 的入口放在了聊天工具里。 你不用学任何新东西,在微信群里 @ 它就能用。这个产品直觉是很强的,普通人上手零门槛。
但它的天花板也很明显:
• 单腿走路: 它只有工具调用这一条腿。 • 模型壁垒: 视觉操控这种对模型能力要求极高的场景,第三方接哪家模型都不如 Claude 自家的模型好使。模型公司亲自下场做 Agent,就像饭店厨师用自己种的菜,食材供应链全控制。第三方 Agent 是去市场上采购食材,质量和稳定性天然差一档。
这也是 Anthropic 对 OpenClaw 一直采取“不搭理但每次更新都砍你命脉”这种策略的底气所在。
但也别觉得 OpenClaw 就完了
公平地说,Claude 有几个短板在中短期内是绕不过去的:
• 封号问题: 对中国用户来说这是最大的拦路虎,不确定性让很多人根本不敢把它当主力工具。 • 消耗太狠: 视觉方案意味着不断截屏和图像识别,token 消耗是常规对话的好几倍。有人试了用 Dispatch 纯聊天,两天就把一周的额度烧完了。 • IM 集成的缺失: Claude 的 Dispatch 只能通过自家 App 发起,不能嵌入微信、飞书这些日常通讯工具。而这恰恰是 OpenClaw 的核心场景。
一个做 Agent 的人的几点思考
1. 关于视觉方案的未来: 我个人判断它是一个非常重要的过渡性技术。当 AI 操控软件变成常态后,软件厂商会被迫开放接口——与其让 AI 笨拙地截屏,不如主动开门。但在过渡期内,视觉方案就是填补空白的关键拼图。 2. 关于模型和框架的关系:框架是骨架,模型是大脑。 骨架可以搭得很漂亮,但如果大脑不够聪明,什么花架子都白搭。模型公司做 Agent 可以反过来根据 Agent 的需求优化模型,形成正循环。 3. 关于安全: 让 AI 持续录屏并操控电脑,信任门槛极高。你既要让它足够自由才能干活,又不能让它自由到失控。这个平衡点很微妙。 4. 关于功能堆叠和产品打磨: 用户真正愿意留下来,不是因为你功能多,而是因为某一两个核心场景你做到了“闭着眼睛用都不会出错”的程度。真正的壁垒是模型能力和对场景的深度理解。
最后
不是“Claude 杀死 OpenClaw”,更准确的说法是:AI 助手这个品类的天花板被大幅抬高了,而牌桌上的每个玩家都必须重新审视自己的位置。
AI 正在从“只能操控愿意配合的系统”进化到“能操控一切有界面的系统”。这个转变一旦完成,整个软件行业的交互方式都会被重新定义。
我们正站在这个变化的起点。而我自己做的那个 Agent,也正好卡在这个浪头上。后面有机会再跟大家细聊。
夜雨聆风