
刚刚刷到了两个东西,都挺有意思的。
一个是阿里千问,上线了一个叫表格 Agent的功能,直接在对话框聊天,就能直接给你生成 Excel 表格。
不用写公式,不用调格式,甚至你拍张手写的表格照片丢给它,它都能识别出来变成电子版。用户说一句「帮我把上个月的销售数据做成表格」,Agent自己理解意图,自己在沙箱里跑代码,自己输出结果,这是一个完整的任务执行链路。

直接聊天界面,不需要使用 OpenClaw ,也不用专门的 Agent 工具。
另一个是MiniMax Agent桌面端,搞了个Computer Use功能,Agent可以像人一样看你的屏幕,操作你的鼠标和键盘,帮你改系统设置、打开软件、在多个应用之间来回切换。
还有个Pocket功能,让你在微信、飞书里直接唤起Agent,在地铁上就能远程指挥你的电脑干活。

MiniMax 的技术方案,没有搞一个万能工具让 Agent 数像素点,它是把工具拆成了四个独立的域,桌面控制、窗口管理、浏览器引擎、剪贴板,不同任务走不同的最优路径。
再加上截图-验证-行动的循环,每一步操作完自动确认做到了没有,没做到就自我修复。
我看完这两个的时候,脑子里冒出来一个想法,AI 这样发展下去,OpenClaw 这类东西,还有存在的必要吗?
OpenClaw 是做一个中间层,把大模型的能力和你实际的工作流连起来,如果 Agent 自己就能操作你的电脑了,还需要一个中间层来帮它调度工具吗?
说真的,作为一个每天都在用 OpenClaw 干活的人,我自然是有偏向性的,但我反复想了想,觉得这不是一个谁取代谁的问题。
短期来看,Agent 越强,编排层反而越有价值。
你看千问的表格 Agent,确实很强,但它是一个专项 Agent。它能帮你做Excel,但它不能帮你把Excel里的数据丢到飞书文档里,再根据文档内容自动发邮件给你老板,再把老板的回复更新到项目管理工具里。
MiniMax 的 Computer Use 也一样,能力范围是一台电脑上的图形界面操作,你的工作流往往还涉及各种 API 调用、数据库操作、跨平台数据流转。
打个比方,千问表格 Agent和 MiniMax Computer Use 就像是一个员工,一个 Excel 员工,一个桌面操作员工,每个都很能打,但员工之间需要有 CEO 协调,谁先上谁后上,A 的输出怎么变成 B 的输入,遇到异常怎么处理。
OpenClaw 就是那个指挥官,积木块越多越精良,拼积木的人就越重要。
MiniMax 的Computer Use 已经在 Agent 内部构建了一套编排逻辑,它的四域工具拆分、截图-验证-行动循环,某种意义上就是一个微型编排系统。
千问的表格 Agent 也在内部完成了意图理解→工具调度→执行→验证的完整闭环,如果有一天,一个 Agent 同时具备所有这些能力,而且自己就能在不同能力之间切换调度呢?
我想到一个类比,1990 年代你要上网,需要单独装拨号软件、TCP/IP协议栈、浏览器,后来 Windows 把这些全内置了,拨号软件没有被取代,它被吸收了。
长期来看,OpenClaw这样的中间层确实会被压缩。
OpenClaw 们面临的可能就是类似的命运。
操作系统没有被应用取代,Windows 没有因为 Chrome 越来越强就消失。
相反,操作系统和应用的边界一直在模糊化,Chrome 越来越像操作系统,Windows越来越像大号应用,边界在模糊,但双方都没有消失。
所以如果你问我,OpenClaw 会不会被 AI Agent 取代?
我的回答是,OpenClaw 不会被取代,它会被吸收。
OpenClaw 的能力会变成 Agent 的一部分,它的理念会变成 AI 基础设施的一部分。
就像今天你用浏览器上网的时候,不会想到 1990 年代有个叫 Trumpet Winsock 的拨号软件曾经为互联网的普及做过贡献,它没有被打败,它完成了自己的使命,然后融入了更大的东西里。
所有的中间层,最终的宿命都是被两端吸收,但在被吸收之前的那段时间里,它是不可或缺的。
而现在,就是这段时间。
夜雨聆风