桌面争夺战:谁来接管你的电脑

2026 年 3 月的第三周，三件看似不相关的事情同时发生了。

OpenClaw——三个月内催生了 150 万个 AI 智能体的开源项目——它的创始人 Peter Steinberger 宣布加入 OpenAI。Jensen Huang 称 OpenClaw 是"下一个 ChatGPT"、"Linux 级别的存在"，但 Linux 的 Linus Torvalds 从来没有加入过任何商业公司。

同一周，美国司法部在法庭文件中把 Anthropic 称为"不可接受的国家安全风险"——不是因为它做了什么危险的事，而是因为它拒绝让 AI 做武器。但 Deloitte 刚刚给自己的 47 万员工配上了 Claude。

还是同一周，Apple 和 Google 签了一份每年 10 亿美元的协议，要用 Gemini 的 1.2 万亿参数模型彻底重塑 Siri。然后 Apple 宣布：核心功能推迟，可能要等到五月，也可能九月。

这三件事指向同一个战场——你的电脑桌面。

第四次跃迁

回顾人机交互的历史，范式转换总共发生过三次。

第一次是命令行（CLI）——你必须记住精确的指令才能让计算机听话。第二次是图形界面（GUI）——鼠标点击取代了键盘输入，计算机开始适应人类的直觉。第三次是触控和自然语言（NUI）——iPhone 证明了手指比鼠标更自然，语音助手让你可以"说"而不是"打"。

每一次跃迁的本质都一样：降低人对机器的适应成本，提升机器对人的理解能力。

现在第四次正在发生。

GPT-5.4 在 OSWorld 基准上得分 75.0%，超越了人类的 72.4%——这是历史上第一次，AI 在"操作电脑完成复杂任务"这件事上，比人类做得更好。它不只是更快，而是更准确、更稳定。

这个数字意味着什么？意味着 AI 不再是"帮你写文字"的工具，而是"替你操作电脑"的代理人。它能看到你的屏幕，理解你的意图，然后像一个坐在你旁边的同事一样，直接上手帮你干活。

如果说前三次跃迁是让人更容易地"使用"电脑，第四次跃迁则是让 AI 直接"代替"人来操作电脑。

交互的终极形态，可能不是更好的界面，而是不需要界面。

这就是为什么 2026 年 3 月如此特殊——在同一个月里，至少八个阵营几乎同时亮出了各自的方案。这不是巧合，这是所有玩家都看到了同一个拐点。

八大阵营

OpenAI：基准之王的全栈野心

OpenAI 的底牌最硬：GPT-5.4 不仅在 OSWorld 上超越人类，还在 GDPval 知识工作测试中拿下 83% 的得分——比 GPT-5.2 减少了三分之一的事实错误。这意味着它不只是在"操作电脑"上赢了，在"理解和判断"上也在逼近专家水平。

更值得关注的是 OpenAI 的"推理民主化"策略。3 月中旬，GPT-5.4 mini 开始向免费用户铺量。这是前沿推理能力第一次触达零付费门槛。同时，旗舰版、mini 和 nano 三个档位覆盖了从深度推理到轻量分类的完整需求——我在上一篇聊推理时代时讨论过，这种"推理分层"正在成为行业共识。

ChatGPT 周活 9 亿，估值 7300 亿美元，年化营收 250 亿。OpenAI 正在筹备 IPO，最早今年第四季度。Sam Altman 说 ChatGPT 必须成为"productivity tool"——这句话的潜台词是：聊天机器人的时代结束了，桌面智能体的时代开始了。

而 3 月 19 日的一个内部决策让这个方向变得更加清晰：OpenAI 决定将 ChatGPT 桌面应用、Atlas 浏览器和 Codex 编码应用合并为一个桌面超级应用。CEO of Applications Fidji Simo 在内部通知中说了一句值得玩味的话——"我们发现精力分散在太多应用和技术栈上，需要简化"。

翻译一下：OpenAI 要把桌面上的所有工具塞进一个入口。

这个决策的战略含义远比表面看起来更大。在桌面争夺战中，你可以选择做"一个什么都能干的助手"，也可以选择做"一套各司其职的工具链"。OpenAI 押注了前者。至于为什么急着做这个决定——Simo 没有明说，但报道引用了"来自 Anthropic 的竞争压力"。

Anthropic：被拉黑反而赢麻了

Anthropic 的处境是整个科技史上最魔幻的剧本之一。

因为拒绝让 Claude 用于自主武器和大规模监控，被五角大楼列为"供应链风险"，被司法部称为"不可接受的国家安全风险"。更离谱的是，司法部在法庭文件里提了一个前所未有的论点——Anthropic 理论上可以在军事冲突中"单方面禁用或修改"其 AI 模型，这构成系统性安全风险。

换句话说：你有"关掉 AI"的权力，这本身就是国安威胁。

但市场给出了完全相反的判断。Claude 登顶 App Store 第一名，超越了 ChatGPT。日新增注册量达到百万级。年化营收从去年 12 月的 90 亿美元飙升到今年 3 月的 190 亿——三个月翻倍。Ramp 数据显示，在企业新客户争夺中，Anthropic 赢得了大约 70% 的正面对决。

而在产品层面，Claude Cowork 和 Dispatch 的组合拳让 Anthropic 在桌面智能体赛道有了完整的故事线。Cowork 是本地桌面智能体，Dispatch 则允许你用手机远程控制桌面上的 Claude——出门在外，发一条指令，桌面上的 AI 就开始干活，遇到敏感操作会暂停并推送通知。

最能说明问题的数据不是 App Store 排名，而是 Deloitte 的选择——在五角大楼把 Anthropic 列为安全风险的背景下，全球最大的咨询公司之一给约 47 万员工配上了 Claude。八家 Fortune 10 公司是 Claude 客户。年消费超过 100 万美元的客户超过 500 家。

企业用脚投票：安全立场是资产，不是负债。

Meta/Manus：20 亿美元买来的桌面入口

Meta 花了大约 20 亿美元收购 Manus，然后推出了"My Computer"桌面客户端。macOS 和 Windows 双平台支持，AI 智能体可以直接读取、分析、编辑你的本地文件，甚至启动和控制其他应用程序。

这是一个很直接的产品：20 美元月费，AI 帮你操作电脑。安全模型设计得中规中矩——敏感操作需要用户审批，可以选择"允许一次"或"始终允许"。

Meta 的逻辑也很直接：错过了移动时代的操作系统之争（Facebook Phone 的黑历史大家还记得吧），这次不想再错过。20 亿美元买一张桌面入场券，对于 Meta 的体量来说，算是一次不贵的赌注。

NVIDIA/OpenClaw：开源帝国的矛盾

OpenClaw 是这场战争中最有趣的变量。

三个月，150 万个 AI 智能体。MIT 协议，完全免费，本地运行。Jensen Huang 把它跟 Linux、Kubernetes、HTML 相提并论。GTC 上专门设了 Build-a-Claw 展区。NVIDIA 为它量身打造了 NemoClaw 企业平台和 OpenShell 安全运行时。

然后创始人 Peter Steinberger 宣布加入 OpenAI。

这个转折的叙事隐喻太丰富了。开源世界的精神领袖被最大的商业玩家吸纳——历史上这种事发生过很多次：MySQL 的创始人卖给了 Oracle，Docker 的商业化之路走得跌跌撞撞。Jensen 说 OpenClaw 是"Linux 级别的重要"，但 Linus Torvalds 从来没有离开过。

OpenClaw 会继续作为开源项目存在，社区仍然活跃。但精神领袖的缺位是否会影响项目的方向和凝聚力，需要时间来验证。

NVIDIA 自身的布局则更加宏大。NemoClaw 提供企业级安全层（隐私路由、网络护栏），Nemotron 3 系列（Nano 4B + Super 120B）提供本地推理能力，DGX Station GB300 是万亿参数级的桌面工作站——748GB 一致性内存，20 PF FP4 性能。Jensen 的目标不只是让智能体跑起来，而是让整个推理基础设施都经过 NVIDIA 的管道。

Perplexity：从搜索引擎到 AI 操作系统

Perplexity 的方案最激进。

一台 M4 Mac Mini（64GB RAM Pro 配置），跑一个 24/7 常驻的 AI 操作系统。CEO Aravind Srinivas 说了一句很有野心的话："传统操作系统接受指令，AI 操作系统接受目标。"

Enterprise 版的数据很惊人：四周内完成了相当于 3.25 年的工作量，节省约 160 万美元劳动力成本。这个数据引用了 McKinsey、Harvard、MIT 和 BCG 的基准，有一定参考价值。

更重要的是，Perplexity 选择了跟 MCP 分手。CTO Denis Yarats 在 Ask 2026 大会上正式宣布弃用 MCP，转向自家的 Agent API。这个选择本身就是一种技术判断——在推理时代，上下文窗口的每一个 Token 都是稀缺资源，MCP 消耗 72% 上下文的问题，Perplexity 认为无法接受。

200 美元的月费把大多数个人用户挡在了门外，但 Perplexity 的目标本来就不是大众市场——它瞄准的是那些愿意为生产力付高价的专业用户和企业客户。

Microsoft：闷声搞整合

Microsoft 的打法最低调，但可能最有杀伤力。

Copilot Cowork 在新的 E7 许可层级中集成了 Anthropic 的 Claude。这意味着 Microsoft 365 的企业用户可以直接在日常办公套件里使用 Claude 的桌面智能体能力。

没有发布会，没有惊人的 demo，没有万亿美元的愿景。就是悄悄地把 AI 塞进了全球最大的企业办公套件里。数亿 Office 用户某天打开电脑，发现 AI 已经在那儿了——这就是 Microsoft 的套路。

值得注意的是，Microsoft 还公开提交了支持 Anthropic 的法庭之友意见书。一个把 Claude 集成进自家产品的公司，公开声援 Claude 的制造商对抗五角大楼——这种"我投资 OpenAI，但我也支持 Anthropic"的两面下注，是大公司的经典操作。

AMD：定义新硬件品类

AMD 做了一件很聪明的事：它不是在卖芯片，而是在定义品类。

"Agent Computer"——这是 AMD 造出来的新词。Ryzen AI Max+ 395 处理器，128GB 统一内存，可以在本地运行高达 200B 参数的模型。Framework Desktop 作为首批 Agent Computer 平台，起价约 2700 美元。

实测数据：45 tokens/s 的推理速度，260K 上下文窗口，可以同时运行 6 个智能体。

这个定位很精准。DGX Station 是给研究机构和大企业的，几十万美元起步。普通消费者买不起也不需要。而 Agent Computer 瞄准的是中间地带：专业开发者、小团队、需要本地运行智能体的个人用户。

2700 美元买一台能跑 6 个 AI 智能体的本地机器，对于很多人来说，这可能比每月交 200 美元的订阅费更划算。

Apple/Google：28 亿设备在等什么

八大阵营中最尴尬的位置属于 Apple。

Apple 和 Google 的协议细节已经很清楚了：每年大约 10 亿美元，用 Gemini 的 1.2 万亿参数模型驱动新一代 Siri，在 Apple 的 Private Cloud Compute 上运行。Google 提供脑子，Apple 提供隐私保障，用户看到的仍然是 Siri。

设想中的场景非常吸引人：Safari 里看到一家餐厅，Siri 能直接帮你订位；邮件里有一封机票确认，Siri 能自动添加日历和出发提醒。这是真正的"理解屏幕上下文"的桌面/移动智能体。

但 iOS 26.4 即将在月底发布，核心功能却不包含在内。可能要等 iOS 26.5（五月），也可能要等 iOS 27（九月）。

这就形成了一个微妙的局面：Apple 拥有 28 亿台设备的分发网络，但管道里暂时没有水。 其他七个阵营都在疯狂铺产品，Apple 在等工程交付。

Google 的位置则更加独特。它同时是 Apple 的供应商（Gemini 驱动 Siri）和 Samsung 的合作伙伴（8 亿台 Gemini 设备）。加起来，Google 拥有一个超过 28 亿设备的"影子分发网络"——用户不知道背后是 Gemini，但 Google 的推理能力已经嵌入了他们每天使用的设备。

Gemini 3.1 Pro 在 ARC-AGI-2 上拿到 77.1%，这是纯逻辑推理测试的顶尖成绩。有网络、有模型，但品牌不是自己的——Google 在这场争夺战中扮演的是一个前所未有的角色：最大的"白牌"AI 供应商。

硬件：从 2700 美元到无价

这场战争有一个容易被忽视的维度：硬件。

三个价位，三种哲学。

AMD 的 Agent Computer 2700 美元起步，代表的是"AI 个人电脑"的理念——每个人都应该有能力在本地跑自己的智能体，不依赖云端，不需要订阅。128GB 统一内存、200B 参数本地推理、6 个并发智能体——这是个人算力的民主化。

Perplexity 的 M4 Mac Mini 方案走的是另一条路——用消费级硬件跑专业级智能体操作系统，24/7 常驻。硬件只是载体，真正的价值在软件层。你花钱买的不是算力，是生产力。

而 NVIDIA 的 DGX Station GB300 则是另一个极端：748GB 一致性内存，20 PF FP4 性能，可以跑万亿参数模型。这不是给个人用的，这是给团队和企业的"AI 工作站"——当你的智能体需要处理整个公司的代码库或者分析一年的财务数据时，本地算力的天花板就很重要。

Jensen 在 GTC 上还预告了下一代架构 Feynman——首次采用 3D 芯片堆叠、TSMC A16 的 1.6nm 制程、定制 HBM 内存，2028 年量产。这是 NVIDIA 在告诉市场：硬件的推理能力还远没有到天花板。

当 AI 智能体从"偶尔问一个问题"变成"全天候替你操作电脑"，算力的需求会是什么量级？没人完全清楚。但所有硬件厂商都在赌：远比今天大得多。

安全：房间里的大象

AI 要接管你的电脑，首先得解决一个问题：你敢让它接管吗？

MCP（Model Context Protocol）最近的遭遇提供了一个发人深省的反面教材。

MCP 本来是 AI 连接外部工具的"USB-C 接口"，过去一年增长极快，月下载量逼近 1 亿。但最近 60 天内，安全研究人员一口气发现了 30 个 CVE 漏洞，最高评分 CVSS 9.6。

这些漏洞覆盖了网络层、应用层和协议层三个维度——MCPJam inspector 默认在 0.0.0.0 上监听且无任何认证（任何人可以远程安装恶意 MCP 服务器）；Anthropic 自家的 mcp-server-git 存在三个可链式利用的漏洞（通过恶意 Git 仓库即可实现远程代码执行）；MCP TypeScript SDK 的跨客户端数据泄漏问题则是协议层面的会话隔离失败。

82% 的 MCP 实现存在路径遍历漏洞。三分之二有代码注入风险。38% 的服务器完全缺乏认证。

Token Security 的研究员将在下个月的 RSAC 2026 上演示"MCPwned"——如何通过 Microsoft Azure MCP 服务器的 RCE 漏洞攻陷整个云环境。

这些数字说明一个残酷的事实：当 AI 智能体要代替你操作电脑时，连接 AI 和工具的"管道"本身就是最大的攻击面。 而这条管道目前千疮百孔。

各阵营的应对策略分化明显。NVIDIA 的 NemoClaw 叠加了 OpenShell 安全运行时——隐私路由、网络护栏、权限隔离。Anthropic 的 Dispatch 在执行敏感操作前会暂停并推送手机通知。Perplexity 干脆弃用 MCP，转向自家的 Agent API。Meta/Manus 的方案是传统的用户审批弹窗。

但安全问题不只是技术问题。Anthropic 与五角大楼的对抗恰恰展示了安全的另一个维度：当一家公司因为拒绝让 AI 做危险的事情而被列入黑名单时，"安全"的定义本身就变成了战场。

有意思的是，市场给出了自己的判断——那个被称为"不可接受的国家安全风险"的公司，企业客户反而增长得最快。安全立场变成了品牌资产，品牌资产变成了企业信任，企业信任变成了市场份额。

这是我在之前讨论"御三家"时没有预料到的一个转折。

当 AI 开始花钱

操控电脑是第一步。花钱，可能是第二步。

3 月 18 日，Stripe 和 Tempo 联合推出了 Model Payment Protocol（MPP）。Visa、Mastercard、OpenAI、Shopify、Anthropic 已经宣布支持。Visa 正在将 MPP 扩展至其全球卡支付网络。

MPP 最核心的技术创新是"sessions"原语。工作原理类似 OAuth 的授权流程，但用于支付：智能体预授权一次，获得消费限额，后续 API 调用自动结算，无需每次交易都走一遍支付流程。Stripe 同时扩展支持了 BNPL（Affirm、Klarna），意味着 AI 智能体不仅可以用信用卡付款，还可以用分期付款。

首批落地场景已经出现：Browserbase（AI 按 session 付费使用浏览器）、PostalForm（AI 代你寄实体信件）、Prospect Butcher Co.（AI 代你在肉铺下单）。

这些场景现在看起来还很初级，但底层逻辑的意义远超表面。当 AI 智能体既能操作你的电脑、又能替你花钱时，它就不再是"工具"，而是某种意义上的"经济主体"。而 Visa 和 Mastercard 的参与，意味着传统金融基础设施已经开始为这个未来做准备。

MCP 曾经自称是"AI 的 TCP/IP"。讽刺的是，在 MCP 遭遇安全危机的同一个月，MPP 可能正在悄悄成为"AI 经济的 TCP/IP"。

推理分层：新的行业共识

我在上一篇讨论推理时代时提到了 NVIDIA 的 Dynamo 如何将推理管线拆分为 Prefill 和 Decode 两个阶段。这个思路正在扩展到整个模型调度层面。

GPT-5.4 的三级体系就是最好的例子：旗舰版处理复杂推理和规划，mini 处理日常任务（接近旗舰水平但速度翻倍），nano 处理分类、提取、排序等子任务。NVIDIA 的 Nemotron 3 也是类似思路——Nano 4B 做轻量推理，Super 120B 做重量级任务。

这种分层的经济学很简单：一个智能体帮你操作电脑时，大部分操作（移动鼠标、点击按钮、读取屏幕内容）不需要最强的模型，只有少数关键决策点（判断下一步该做什么、处理异常情况）才需要调用旗舰模型。

用三档变速箱代替单一档位，推理的单位成本可以降低一个数量级。

这也是 GPT-5.4 mini 向免费用户铺量的深层逻辑：当推理变得足够便宜，AI 桌面智能体就不再是 200 美元月费的奢侈品，而是每个人都能用的基础设施。OpenAI 筹备 IPO 前的用户增长，需要的正是这种"推理民主化"。

第九个阵营？

上面说了八个，但有一个隐约可见的第九阵营值得提一句。

DeepSeek V4 已经确认将在四月发布。万亿参数 MoE 架构，但每个 Token 只激活约 370 亿参数（与 V3 相同），推理成本可控。更关键的信息是：V4 确认与华为和寒武纪合作，针对国产 AI 芯片进行优化。

这意味着一个完全独立于美国八大阵营的"中国桌面智能体生态"正在成形——中国的模型 + 中国的芯片 + 中国的推理基础设施。在地缘政治分裂加剧的背景下，这条平行赛道的存在本身就值得持续关注。

两种接管哲学

八大阵营各有打法，但如果把所有产品决策抽象到最高层，你会发现一个正在浮现的根本性分歧：超级应用，还是模块化工具链？

OpenAI 选了超级应用。把 ChatGPT、浏览器、Codex 塞进同一个桌面客户端，用一个入口统管一切。Meta/Manus 的"My Computer"也是类似逻辑——一个应用，完整的桌面控制。它们的核心假设是：用户要的是一个万能助手，打开就能用，不需要组装。

Anthropic 走了另一条路。Claude Code 是终端里的编码工具，Cowork 是桌面上的自动化工具，Channels 让 Claude 住进你的 Telegram 和 Discord，Dispatch 让你用手机遥控桌面上的 AI。四个独立产品，通过 MCP 协议互相连接。它的核心假设是：用户要的不是一个巨大的应用，而是一套可以自由组合的生态。

这两种路径的取舍跟技术实力无关，跟对用户行为的判断有关。

超级应用的好处是低门槛。一键安装，打开就有。用户不需要理解什么是 MCP，什么是 CLI，什么是异步通信。坏处是单点故障——应用崩了，一切都停。而且三个完全不同的功能（聊天、浏览、编码）挤在同一个进程里，内存和性能压力不小。

模块化工具链的好处是灵活。每个组件可以独立升级，独立崩溃而不影响其他。开发者可以只用 Claude Code 而不碰 Cowork，也可以反过来。坏处是上手门槛高——你得知道自己需要哪些组件，怎么让它们协作。

还有第三条路：本地优先。NVIDIA 的 NemoClaw + Nemotron 3 系列、AMD 的 Agent Computer、Perplexity 的常驻操作系统，它们的共同假设是——最好的 AI 应该跑在你自己的硬件上，不经过任何人的云。

第四条路是操作系统级整合。Apple 要把 Gemini 驱动的 Siri 嵌入 iOS 和 macOS 的每一个角落，Google 的 Workspace CLI 要让 Gemini 成为日常办公的基础设施层。它们不需要独立的桌面应用，因为 AI 本身就是操作系统的一部分。

四种路径，四种赌注。谁对谁错，可能要等到 2027 年才有答案。但 OpenAI 急着合并超级应用的这个动作本身，或许透露了一个信号：做减法比做加法更难，但 OpenAI 觉得再不减法就来不及了。

战场地图

站远一点看，这场桌面争夺战的格局可以用三个维度来概括。

第一个维度是产品路线之争：云端 vs 本地 vs 混合。OpenAI 和 Anthropic 偏向云端推理 + 本地客户端，AMD 和 OpenClaw 押注纯本地，Perplexity 和 NVIDIA 走混合路线。没有哪条路线是明确赢家，因为不同场景的需求不同——处理机密数据你需要本地，处理海量信息你需要云端。

第二个维度是商业模式之争：订阅制 vs 开源免费 vs 生态锁定。Meta/Manus 收 20 美元月费，Perplexity 收 200 美元，OpenClaw 完全免费。Microsoft 走企业许可证，Apple/Google 走设备预装。AMD 卖硬件。Stripe 从交易中抽成。八大阵营，至少有六种不同的赚钱方式。

第三个维度是信任之争：这可能是最深层的维度。让 AI 接管你的电脑，本质上是一个信任问题。你信任谁来看你的屏幕？信任谁来操作你的文件？信任谁来替你做决策、替你花钱？

Anthropic 用"拒绝造武器"赢得了一种道德信任。OpenClaw 用 MIT 开源协议赢得了一种技术信任。Apple 用 Private Cloud Compute 赢得了一种隐私信任。而 MCP 的安全漏洞则提醒所有人：信任是可以在 60 天内被 30 个 CVE 摧毁的。

三月之后

写到这里，有几件正在发生和即将发生的事值得标记。

就在各阵营争夺桌面的同时，另一场争夺也在升温——联邦政府正在从多个维度同时重塑 AI 产业的权力边界。 3 月 20 日，白宫发布国家 AI 政策框架，要求国会"预先剥夺"各州对 AI 开发的监管权。同一周，Supermicro 联合创始人因涉嫌向中国走私价值 25 亿美元的 NVIDIA GPU 服务器被捕——用吹风机移动序列号、用假服务器骗审计，如此间谍电影式的手法，是美国执行芯片出口管制以来最高调的刑事案件。Supermicro 股价一天跌去 33%。

3 月 24 日，北加州联邦法院将举行 Anthropic 起诉五角大楼的初步禁令听证会。就在听证前四天，Anthropic 提交了两份宣誓声明，揭露了一个颇具讽刺意味的细节：五角大楼 Under Secretary 在正式将 Anthropic 列为"不可接受的国安风险"的同一天，还在邮件里告诉 Anthropic CEO 双方"非常接近"达成协议。法官 Lin 将在听证中首次审视司法部的"kill switch"论点——AI 公司有权在冲突中单方面禁用模型是否构成国安风险。这个案件的结果不只关乎 Anthropic 一家公司，它将回答一个根本问题：谁有权决定 AI 能做什么——创造它的公司，还是部署它的国家？

4 月 2-3 日，MCP Dev Summit 将有超过 95 场演讲。4 月底，RSAC 2026 上 MCPwned 的演示将把 MCP 的安全问题推上更大的舞台。AI 连接层的标准之争才刚刚开始。

再远一点，DeepSeek V4 将在四月发布，带着国产芯片优化和万亿参数。

2026 年 3 月是信号弹。真正的战争，还在后面。

但有一件事已经可以确定：下一次你打开电脑时，屏幕另一边可能已经有人——或者说有"东西"——在等着帮你了。问题只是，你会选择谁。