六路人马混战,AI自主Agent赛道已经杀疯了

昨天晚上刷到Google内部泄露了一个叫Remy的项目。

一个「24/7全天候个人代理」，能替你操作手机、处理邮件、管理日程，深度整合Google全家桶。

我当时的第一反应是，嗯？？？这不就是OpenClaw吗？

然后我翻了翻最近的新闻，发现不止Google。OpenAI、微软、苹果，四大商业巨头全部下场了。再加上开源社区这边OpenClaw、Nous Research的Hermes Agent，六路人马，群雄逐鹿。

这事有意思了。

先说OpenClaw，那个点燃战火的项目

OpenClaw大家都熟了，367k stars，GitHub历史上最火的开源项目之一，半年时间干翻了React的纪录。

但我想说的不是它有多火，而是它暴露出的问题。

我自己用了一段时间。说实话，体验是有点割裂的。它确实能干活，但反应不够迅速，而且特别费token。你让它帮你写代码、写文章还好，你要是让它帮你订个机票，它在那一步一步截图、识别、点击，你看着它操作的过程，心里想的是「我自己来可能更快」。

但这不重要。

重要的是它证明了一件事，AI Agent这条路是通的。用户是真的想要一个能替自己干活的AI。不是生成一段文字让你复制粘贴，是直接帮你打开浏览器、填表单、下单、发邮件。

然后巨头们就坐不住了。

四大巨头，四条完全不同的路

这是我觉得最有意思的地方。四家商业公司做的都是「AI自主Agent」这件事，但技术路线完全不同。

OpenAI，模拟人类的视觉操控派

OpenAI的路线最「暴力」，也最通用。

2025年1月，他们发布了Operator。核心思路是，我不需要任何API接口，我就用眼睛看屏幕，然后模拟人类的点击和输入。底层是一个叫CUA（Computer-Using Agent）的模型，把GPT-4o的视觉能力和强化学习结合起来，让AI像人一样「看着屏幕操作」。

后来Operator被整合进了ChatGPT，变成了「agent mode」。

这条路线的优势是泛用性极强。任何网页、任何软件，只要人能操作的，它理论上都能操作。不需要对方提供API，不需要任何适配。

劣势也很明显，慢。它得截图、识别界面元素、决策下一步操作、再执行，每一步都要过模型。跟OpenClaw一样的问题，你看着它在那一步一步磨，心里着急。

而且费token。每一次截图识别都是一次模型调用，成本不低。

Google Remy，生态整合的内功派

Google的路线跟OpenAI完全相反。

Remy不需要「看屏幕」，因为它直接走Google内部的API。你的Gmail、Calendar、Drive、Maps、YouTube，所有Google服务它都能直接调用，不需要模拟点击。

这就像什么呢？OpenAI的Operator是一个外人，站在你家门口，通过窗户看你家里的布局，然后伸手进去帮你开灯关灯。而Remy是你家的管家，手里有所有房间的钥匙，想开哪个灯直接开。

速度快，准确率高，不浪费token。

但问题也很明显，它只能在Google的生态里横着走。你让它帮你操作一个非Google的服务？对不起，做不到。或者说，做起来就跟Operator一样笨拙了。

Google之前还有一个叫Project Mariner的浏览器Agent项目，5月4号刚关掉了，技术并入了其他产品。说明Google内部也在收敛路线，把资源集中到Remy这条「生态整合」的路上。

微软，系统级权限的重装派

微软的路线最「重」。

他们搞了Windows 365 for Agents，还有Copilot Actions，直接在操作系统层面给AI开权限。不是在浏览器里操作，是在整个Windows系统里操作。文件管理、系统设置、本地应用，全都能碰。

2026年4月，微软还发布了Microsoft Agent Framework 1.0，一个正式的生产级框架，让企业可以在Windows环境里部署自己的AI Agent。

这条路线的优势是能力上限最高。浏览器Agent只能操作网页，系统级Agent能操作一切。你让它帮你整理本地文件、批量重命名照片、调整系统设置，这些OpenAI和Google都做不到的事，微软能做。

劣势是安全风险。你给一个AI系统级权限，万一它删错文件了呢？万一它改错设置了呢？这不是「帮你点错了一个按钮」的问题，是「帮你格式化了硬盘」的问题。

苹果，跨App编排的隐私派

苹果的路线最「苹果」。

他们的核心武器叫App Intents。这不是一个AI产品，是一套API协议。苹果要求所有iOS开发者把自己App的核心功能注册成「Intent」，然后Siri可以直接调用这些Intent来完成跨App的操作。

比如你说「帮我把刚拍的照片发给老婆，顺便提醒她晚上8点来接我」，Siri不需要打开相册App、不需要打开微信、不需要打开日历。它直接调用三个App的Intent，一步到位。

速度极快，因为走的是本地调用，不需要过云端模型。隐私也好，数据不出设备。

但苹果的问题是，它太慢了。2024年WWDC就预告了AI版Siri，结果一直跳票，被用户集体诉讼，刚赔了2.5亿美元。新Siri据说要等iOS 27才能真正落地，也就是今年WWDC才会正式发布。

而且App Intents需要开发者主动适配。如果一个App没有注册Intent，Siri就调不动它。这跟Google的「只能在自家生态里玩」是类似的局限。

开源阵营，不甘心只当配角

跟商业巨头不同，开源社区这边走的是另一条路。

OpenClaw就不多说了，50多种集成、兼容Claude、GPT-4o、Gemini、DeepSeek多个模型，社区贡献了大量的Skill插件。甚至有人在上面建了付费服务，一周能赚4700美元。

但我更想聊聊Hermes Agent。

这是Nous Research在2026年2月发布的开源Agent框架，跟OpenClaw的路线完全不同。OpenClaw的核心是「替你操作」，Hermes的核心是「自我进化」。

什么意思呢？Hermes能记住跨会话的上下文，从你的交互中学习，自动生成可复用的Skill。你用得越久，它越懂你。七周内GitHub stars就突破了10万，是2026年增长最快的开源Agent框架。

你可以把OpenClaw想象成一个能力很强但每次都从零开始的实习生，而Hermes是一个会自己做笔记、越来越熟练的助理。

这两个项目的共同优势是完全开源、本地运行、不依赖任何一家巨头。你可以自己选模型、自己写Skill、自己控制数据。

劣势也类似。OpenClaw之前出过恶意Skill的问题，有人往ClawHub上传带后门的插件，2026年2月的版本专门加了代码安全扫描器来应对。Hermes的内置记忆上限只有2200字符，十几个会话之后就会有信息压缩损失。

为什么是现在？为什么是同时？

好了，六家的路线聊完了。

退一步看，我觉得最值得思考的问题不是「谁的Agent更好用」，而是「为什么所有人都在这个时间点同时下场」。

答案其实挺残酷的。

不是因为Agent技术突然成熟了，是因为谁都不敢缺席。

你想想看。PC时代，入口是Windows。你打开电脑，第一个看到的是Windows桌面，所有操作都从这里开始。移动时代，入口是iOS和Android。你解锁手机，第一个看到的是主屏幕，所有操作都从App图标开始。

Agent时代呢？

如果有一天，你不再需要自己打开App、自己点按钮、自己填表单，而是跟一个AI说一句话，它就帮你全部搞定。那这个AI，就是新时代的「桌面」。

谁的Agent能替你操作一切，谁就掌握了下一代的入口。

Google怕的是，如果用户习惯了用OpenAI的Agent来操作一切，那Google搜索、Gmail、Maps这些服务就变成了「被调用的后端」，不再是用户直接接触的入口。

苹果怕的是，如果用户习惯了用第三方Agent来操作手机，那iOS的App生态就失去了意义，App Store的抽成模式也就崩了。

微软怕的是，如果Agent跑在浏览器里就够了，那Windows作为操作系统的价值就被架空了。

所以你看，每家的技术路线都不是随便选的，是基于自己的核心资产来防守的。Google守生态、微软守OS、苹果守设备、OpenAI攻所有人。

而开源社区？它们不需要守什么，它们只需要证明「没有巨头也能做出来」。这本身就是一种威胁。

终局在哪？

我自己有一个判断。

现在这个阶段，所有的Agent都有一个共同的问题，它们是「寄生」在现有设备和系统上的。

Operator寄生在浏览器里，Remy寄生在Google生态里，微软的Agent寄生在Windows里，苹果的Siri寄生在iOS里，OpenClaw和Hermes寄生在你的本地电脑上。

它们都在试图用软件的方式，在一个为「人类手动操作」设计的系统里，模拟人类的操作。

这让我想到一段历史。早期的汽车，长得跟马车一模一样，只是把马换成了发动机。直到有人意识到，既然不需要马了，为什么还要保留马车的形状？

经济学家卡萝塔·佩雷斯有个理论叫「技术革命的两阶段论」，每次重大技术变革都会经历「安装期」和「部署期」。安装期是新技术套用旧范式，部署期是整个社会围绕新技术重构。

我们现在的Agent，明显还在安装期。

终局应该是，一个从底层就为AI Agent设计的硬件和操作系统。没有传统意义上的「界面」，或者说界面是动态生成的，根据当前任务实时构建。

这也是为什么OpenAI在做手机（这个我在另一篇文章里详细聊了，感兴趣的可以去看看）、为什么苹果在重构Siri、为什么Google在收敛产品线集中资源。大家都在赌同一件事，下一个硬件形态。

只不过现在谁都不知道那个形态长什么样。

信任，才是真正的战场

说到底，这场战争最终的裁判不是技术，是信任。

每家的方案背后，其实是在问用户同一个问题，你愿意把多大的「钥匙」交给我？

Google说，把你的账号权限给我，我帮你管理一切。
OpenAI说，让我看你的屏幕，我帮你操作一切。
微软说，把你的系统权限给我，我帮你控制一切。
苹果说，把你的设备交给我，但数据留在本地，我保证不偷看。
OpenClaw说，代码开源，你自己看，你自己选模型，你自己决定信不信我。
Hermes说，我不仅开源，我还能自我进化，你用得越久我越懂你。但前提是你得信任我的记忆。

六种信任模型，六种哲学。

作为一个用了十几年各种设备的老码农，我自己的感受是，我暂时谁都不想完全信任。

不是因为它们不好，是因为这个东西太早期了。就像2007年iPhone刚出来的时候，你不会把所有银行卡都绑上去。你会先试试，看看靠不靠谱，慢慢地一点一点交出信任。

现在的Agent也是这个阶段。先让它帮你干点小事，看看它会不会搞砸。搞砸了损失不大的那种。然后慢慢地，随着技术成熟、随着信任建立，再把更多的「钥匙」交出去。

但有一点我是确定的。

这场战争的赢家，不一定是技术最强的那个，而是最先让用户建立信任的那个。

技术可以迭代，信任一旦建立就是护城河。

反过来，信任一旦崩塌，2.5亿美元的赔偿都补不回来。苹果应该深有体会。

说实话，写到这里我自己也挺感慨的。

从2025年底OpenClaw横空出世，到现在商业巨头和开源社区全部下场，也就半年时间。半年前我们还在讨论「AI Agent到底有没有用」，现在已经在讨论「谁的Agent会成为下一代入口」了。

这个行业的速度，真的是每次都超出预期。

你现在在用哪家的Agent？还是跟我一样，谁都不太信，先观望着？评论区聊聊。

如果对你有帮助，可以的话请点赞、收藏+关注
谢谢你看我的文章，我们，下次再见。

/ 作者：rocs