昨天晚上刷到Google内部泄露了一个叫Remy的项目。
一个「24/7全天候个人代理」,能替你操作手机、处理邮件、管理日程,深度整合Google全家桶。
我当时的第一反应是,嗯???这不就是OpenClaw吗?
然后我翻了翻最近的新闻,发现不止Google。OpenAI、微软、苹果,四大商业巨头全部下场了。再加上开源社区这边OpenClaw、Nous Research的Hermes Agent,六路人马,群雄逐鹿。
这事有意思了。
先说OpenClaw,那个点燃战火的项目
OpenClaw大家都熟了,367k stars,GitHub历史上最火的开源项目之一,半年时间干翻了React的纪录。
但我想说的不是它有多火,而是它暴露出的问题。
我自己用了一段时间。说实话,体验是有点割裂的。它确实能干活,但反应不够迅速,而且特别费token。你让它帮你写代码、写文章还好,你要是让它帮你订个机票,它在那一步一步截图、识别、点击,你看着它操作的过程,心里想的是「我自己来可能更快」。
但这不重要。
重要的是它证明了一件事,AI Agent这条路是通的。用户是真的想要一个能替自己干活的AI。不是生成一段文字让你复制粘贴,是直接帮你打开浏览器、填表单、下单、发邮件。
然后巨头们就坐不住了。

四大巨头,四条完全不同的路
这是我觉得最有意思的地方。四家商业公司做的都是「AI自主Agent」这件事,但技术路线完全不同。

OpenAI,模拟人类的视觉操控派
OpenAI的路线最「暴力」,也最通用。
2025年1月,他们发布了Operator。核心思路是,我不需要任何API接口,我就用眼睛看屏幕,然后模拟人类的点击和输入。底层是一个叫CUA(Computer-Using Agent)的模型,把GPT-4o的视觉能力和强化学习结合起来,让AI像人一样「看着屏幕操作」。
后来Operator被整合进了ChatGPT,变成了「agent mode」。
这条路线的优势是泛用性极强。任何网页、任何软件,只要人能操作的,它理论上都能操作。不需要对方提供API,不需要任何适配。
劣势也很明显,慢。它得截图、识别界面元素、决策下一步操作、再执行,每一步都要过模型。跟OpenClaw一样的问题,你看着它在那一步一步磨,心里着急。
而且费token。每一次截图识别都是一次模型调用,成本不低。
Google Remy,生态整合的内功派
Google的路线跟OpenAI完全相反。
Remy不需要「看屏幕」,因为它直接走Google内部的API。你的Gmail、Calendar、Drive、Maps、YouTube,所有Google服务它都能直接调用,不需要模拟点击。
这就像什么呢?OpenAI的Operator是一个外人,站在你家门口,通过窗户看你家里的布局,然后伸手进去帮你开灯关灯。而Remy是你家的管家,手里有所有房间的钥匙,想开哪个灯直接开。
速度快,准确率高,不浪费token。
但问题也很明显,它只能在Google的生态里横着走。你让它帮你操作一个非Google的服务?对不起,做不到。或者说,做起来就跟Operator一样笨拙了。
Google之前还有一个叫Project Mariner的浏览器Agent项目,5月4号刚关掉了,技术并入了其他产品。说明Google内部也在收敛路线,把资源集中到Remy这条「生态整合」的路上。
微软,系统级权限的重装派
微软的路线最「重」。
他们搞了Windows 365 for Agents,还有Copilot Actions,直接在操作系统层面给AI开权限。不是在浏览器里操作,是在整个Windows系统里操作。文件管理、系统设置、本地应用,全都能碰。
2026年4月,微软还发布了Microsoft Agent Framework 1.0,一个正式的生产级框架,让企业可以在Windows环境里部署自己的AI Agent。
这条路线的优势是能力上限最高。浏览器Agent只能操作网页,系统级Agent能操作一切。你让它帮你整理本地文件、批量重命名照片、调整系统设置,这些OpenAI和Google都做不到的事,微软能做。
劣势是安全风险。你给一个AI系统级权限,万一它删错文件了呢?万一它改错设置了呢?这不是「帮你点错了一个按钮」的问题,是「帮你格式化了硬盘」的问题。
苹果,跨App编排的隐私派
苹果的路线最「苹果」。
他们的核心武器叫App Intents。这不是一个AI产品,是一套API协议。苹果要求所有iOS开发者把自己App的核心功能注册成「Intent」,然后Siri可以直接调用这些Intent来完成跨App的操作。
比如你说「帮我把刚拍的照片发给老婆,顺便提醒她晚上8点来接我」,Siri不需要打开相册App、不需要打开微信、不需要打开日历。它直接调用三个App的Intent,一步到位。
速度极快,因为走的是本地调用,不需要过云端模型。隐私也好,数据不出设备。
但苹果的问题是,它太慢了。2024年WWDC就预告了AI版Siri,结果一直跳票,被用户集体诉讼,刚赔了2.5亿美元。新Siri据说要等iOS 27才能真正落地,也就是今年WWDC才会正式发布。
而且App Intents需要开发者主动适配。如果一个App没有注册Intent,Siri就调不动它。这跟Google的「只能在自家生态里玩」是类似的局限。
开源阵营,不甘心只当配角
跟商业巨头不同,开源社区这边走的是另一条路。
OpenClaw就不多说了,50多种集成、兼容Claude、GPT-4o、Gemini、DeepSeek多个模型,社区贡献了大量的Skill插件。甚至有人在上面建了付费服务,一周能赚4700美元。
但我更想聊聊Hermes Agent。
这是Nous Research在2026年2月发布的开源Agent框架,跟OpenClaw的路线完全不同。OpenClaw的核心是「替你操作」,Hermes的核心是「自我进化」。
什么意思呢?Hermes能记住跨会话的上下文,从你的交互中学习,自动生成可复用的Skill。你用得越久,它越懂你。七周内GitHub stars就突破了10万,是2026年增长最快的开源Agent框架。
你可以把OpenClaw想象成一个能力很强但每次都从零开始的实习生,而Hermes是一个会自己做笔记、越来越熟练的助理。
这两个项目的共同优势是完全开源、本地运行、不依赖任何一家巨头。你可以自己选模型、自己写Skill、自己控制数据。
劣势也类似。OpenClaw之前出过恶意Skill的问题,有人往ClawHub上传带后门的插件,2026年2月的版本专门加了代码安全扫描器来应对。Hermes的内置记忆上限只有2200字符,十几个会话之后就会有信息压缩损失。
为什么是现在?为什么是同时?
好了,六家的路线聊完了。
退一步看,我觉得最值得思考的问题不是「谁的Agent更好用」,而是「为什么所有人都在这个时间点同时下场」。
答案其实挺残酷的。
不是因为Agent技术突然成熟了,是因为谁都不敢缺席。
你想想看。PC时代,入口是Windows。你打开电脑,第一个看到的是Windows桌面,所有操作都从这里开始。移动时代,入口是iOS和Android。你解锁手机,第一个看到的是主屏幕,所有操作都从App图标开始。
Agent时代呢?
如果有一天,你不再需要自己打开App、自己点按钮、自己填表单,而是跟一个AI说一句话,它就帮你全部搞定。那这个AI,就是新时代的「桌面」。
谁的Agent能替你操作一切,谁就掌握了下一代的入口。
Google怕的是,如果用户习惯了用OpenAI的Agent来操作一切,那Google搜索、Gmail、Maps这些服务就变成了「被调用的后端」,不再是用户直接接触的入口。
苹果怕的是,如果用户习惯了用第三方Agent来操作手机,那iOS的App生态就失去了意义,App Store的抽成模式也就崩了。
微软怕的是,如果Agent跑在浏览器里就够了,那Windows作为操作系统的价值就被架空了。
所以你看,每家的技术路线都不是随便选的,是基于自己的核心资产来防守的。Google守生态、微软守OS、苹果守设备、OpenAI攻所有人。
而开源社区?它们不需要守什么,它们只需要证明「没有巨头也能做出来」。这本身就是一种威胁。
终局在哪?

我自己有一个判断。
现在这个阶段,所有的Agent都有一个共同的问题,它们是「寄生」在现有设备和系统上的。
Operator寄生在浏览器里,Remy寄生在Google生态里,微软的Agent寄生在Windows里,苹果的Siri寄生在iOS里,OpenClaw和Hermes寄生在你的本地电脑上。
它们都在试图用软件的方式,在一个为「人类手动操作」设计的系统里,模拟人类的操作。
这让我想到一段历史。早期的汽车,长得跟马车一模一样,只是把马换成了发动机。直到有人意识到,既然不需要马了,为什么还要保留马车的形状?
经济学家卡萝塔·佩雷斯有个理论叫「技术革命的两阶段论」,每次重大技术变革都会经历「安装期」和「部署期」。安装期是新技术套用旧范式,部署期是整个社会围绕新技术重构。
我们现在的Agent,明显还在安装期。
终局应该是,一个从底层就为AI Agent设计的硬件和操作系统。没有传统意义上的「界面」,或者说界面是动态生成的,根据当前任务实时构建。
这也是为什么OpenAI在做手机(这个我在另一篇文章里详细聊了,感兴趣的可以去看看)、为什么苹果在重构Siri、为什么Google在收敛产品线集中资源。大家都在赌同一件事,下一个硬件形态。
只不过现在谁都不知道那个形态长什么样。
信任,才是真正的战场
说到底,这场战争最终的裁判不是技术,是信任。
每家的方案背后,其实是在问用户同一个问题,你愿意把多大的「钥匙」交给我?
Google说,把你的账号权限给我,我帮你管理一切。
OpenAI说,让我看你的屏幕,我帮你操作一切。
微软说,把你的系统权限给我,我帮你控制一切。
苹果说,把你的设备交给我,但数据留在本地,我保证不偷看。
OpenClaw说,代码开源,你自己看,你自己选模型,你自己决定信不信我。
Hermes说,我不仅开源,我还能自我进化,你用得越久我越懂你。但前提是你得信任我的记忆。
六种信任模型,六种哲学。
作为一个用了十几年各种设备的老码农,我自己的感受是,我暂时谁都不想完全信任。
不是因为它们不好,是因为这个东西太早期了。就像2007年iPhone刚出来的时候,你不会把所有银行卡都绑上去。你会先试试,看看靠不靠谱,慢慢地一点一点交出信任。
现在的Agent也是这个阶段。先让它帮你干点小事,看看它会不会搞砸。搞砸了损失不大的那种。然后慢慢地,随着技术成熟、随着信任建立,再把更多的「钥匙」交出去。
但有一点我是确定的。
这场战争的赢家,不一定是技术最强的那个,而是最先让用户建立信任的那个。
技术可以迭代,信任一旦建立就是护城河。
反过来,信任一旦崩塌,2.5亿美元的赔偿都补不回来。苹果应该深有体会。
说实话,写到这里我自己也挺感慨的。
从2025年底OpenClaw横空出世,到现在商业巨头和开源社区全部下场,也就半年时间。半年前我们还在讨论「AI Agent到底有没有用」,现在已经在讨论「谁的Agent会成为下一代入口」了。
这个行业的速度,真的是每次都超出预期。
你现在在用哪家的Agent?还是跟我一样,谁都不太信,先观望着?评论区聊聊。
如果对你有帮助,可以的话请点赞、收藏+关注
谢谢你看我的文章,我们,下次再见。
/ 作者:rocs
夜雨聆风