App已死,Agent当立:微软苹果换道,终结云端内卷的下一代OS战争

撰文| 余凝芮

编辑| 张南

设计| 荆芥

2026年6月2日，旧金山，微软Build大会，萨提亚·纳德拉（Satya Nadella）站在台上说了一句话：“我们正在进入Agent优先的时代。”

这句话说的时候，Anthropic刚刚以9650亿美元估值秘密递交IPO文件，Alphabet宣布847.5亿美元融资用于扩建算力基础设施。云端的钱正在以历史上从未出现过的速度烧掉。

纳德拉的意思，不是说云端不重要了。他在宣布一件不同的事：下一代计算平台的交互单元，不再是App，而是Agent——而且这个Agent，有相当一部分要跑在你手边的设备上，而不是数千公里外的数据中心里。

"App已死"这句话，微软说了三十年，这次不同

个人计算机史上，每隔十五至二十年就会出现一次交互范式的断裂。

1984年，麦金塔把命令行变成了图标和窗口。2007年，iPhone把窗口变成了触控应用。每一次断裂，原有的操作系统霸主都面临重新洗牌的压力，因为新的交互层往往建立在新的硬件架构上，原有的软件积累无法直接迁移。

微软在Build 2026发布的，不只是一个功能更新。它是一个三层架构的完整系统宣言。

底层是硅：Windows Agent Stack要求设备NPU（神经处理单元）达到40至45 TOPS以上的吞吐量。高通骁龙X Elite、英特尔Lunar Lake、AMD Strix Point三家芯片在台上同台确认支持。微软自己发布的Surface Pro 11搭载的骁龙X Elite第二代NPU，标称算力75 TOPS，可同时运行多个本地Agent。

中层是模型：Aion 1.0 Instruct，为NPU专门优化的轻量端侧语言模型，处理邮件摘要、文档格式化、日程协商等日常任务，不发送任何数据到云端。Aion 1.0 Plan更进一步：140亿参数，32K上下文，支持工具调用，计划在未来数月内置到具备足够算力的设备上。

顶层是Agent：Copilot Scout，主动感知用户当前工作状态，在不需要被唤醒的情况下介入。Windows Copilot Runtime提供统一的ONNX推理层，自动将计算任务路由到NPU、GPU或CPU——开发者写一套代码，硬件路由由系统接管。

Project Solara走得更远。这是一个建立在安卓开源项目之上（而非Windows）的轻量级边缘操作系统，面向一类此前不存在的设备：既不是手机，也不是PC，也不是平板。它没有应用商店，没有浏览器，没有传统桌面。设备上跑的不是App，只有Agent。微软发布了两款参考设计：一款是带摄像头、指纹传感器、5G的可穿戴员工徽章；另一款是带面部识别、超宽带感应的桌面陪伴设备。用一个按钮唤醒Agent。微软不打算自己制造这些设备，它发布的是规格标准和参考设计，逻辑与谷歌GMS认证对安卓生态的管控方式一致。

一位前微软项目经理的话被广泛引用："他们不是在杀死Windows，而是把它变成一个托管Agent的静默平台。"

苹果的路线：把15年的芯片积累变成护城河

苹果的策略与微软不同，但方向一致。

苹果在AI竞争里长期被认为落后：Siri的能力与GPT-4、Claude的差距有目共睹，Apple Intelligence 2024年发布时承诺的功能至今交付不完整。但苹果一直在押注一个不同的赌注，而这个赌注在2026年开始兑现的条件正在成熟。

这个赌注的核心是：端侧推理的经济性。

苹果芯片在同等推理任务下，功耗约为数据中心GPU的十分之一。推理延迟低于10毫秒，无需网络往返，无需在数据中心排队等待其他用户的请求。苹果的4GB端侧模型，在iPhone 15 Pro以上机型上以每秒30至40个token的速度生成文字。这不是最强的AI，但对于通知摘要、语音转录、快速回复等高频低复杂度任务，它足够了，而且是私密的、即时的。

苹果在准备WWDC 2026的内容。据知情人士向The Information透露，苹果将展示其芯片设计优势如何在端侧处理AI查询——将本地推理定位为一种隐私保护、降低成本的选择，与Anthropic、OpenAI等公司依赖大规模数据中心形成对比。Siri将进行一次地基级别的重建：独立App界面、基于大语言模型的世界知识、数百个应用内Agent动作、屏幕感知能力。

苹果的底牌，是它在15年里积累的自研芯片体系。A系列和M系列的神经引擎，是针对本地推理专门设计的，不是通用GPU的附属品。这意味着它的端侧推理效率，是英伟达GPU在云端做同样任务的结构性对手。数据中心的规模优势，在这里被苹果的效率优势部分抵消。

苹果拥有22亿台活跃设备。这是一个比任何数据中心都更分散、但总算力加起来同样可观的推理网络。苹果不需要砸钱建机房，它已经把机房卖给了用户——用户还替苹果付电费。

为什么这不是"退守"

建议标题用了"退守"这个词。这是错的。

微软和苹果向端侧移动，不是因为云端打不过Anthropic或OpenAI，而是因为云端的单位成本正在触及一个结构性边界：HBM供给瓶颈至少持续到2030年，算力扩张的边际成本无法无限下降，云端推理的价格不可能无限便宜。

在这个边界面前，把常见的、低复杂度的推理任务从云端卸载到设备上，是一个成本和延迟的双重优化。Gartner预计，到2025年前后，75%的企业数据将在边缘处理。企业架构师的新共识是：在云端训练，在边缘推理。

微软和苹果是在顺着这个方向抢占落地点，不是在撤退。

更精确的描述是：云端算力的军备竞赛正在打造一批基础设施巨头（Anthropic、OpenAI、谷歌），而端侧AI的普及正在打造一批平台入口——操作系统层面的入口。历史告诉我们，平台入口往往比基础设施赚得更多，时间更长。

微软在1981年用DOS做到了这件事。苹果在2007年用iOS做到了这件事。

Agent First的操作系统，是他们在争夺第三次。

开发者站在哪里，生态就在哪里

新平台能否成立，最终由开发者决定。

微软的牌面：Windows Copilot Runtime提供统一API，开发者写一套代码，系统自动路由到最优硬件。Aion 1.0的权重开放在Hugging Face，2026年7月起可以下载微调。WSL 3支持NPU直通，让Linux开发者可以在Qualcomm和英特尔的NPU上跑本地AI工作负载，几乎无额外开销。Windows AI Studio提供本地测试和模型优化环境，上线前不需要连接云端。

苹果的牌面：Core ML已经是iOS开发者熟悉的推理框架，Apple Intelligence的端侧模型通过系统API开放给第三方。苹果的策略与过去的Metal（图形）、Core ML（机器学习）一致：先在系统层做好，再开放API，让开发者在封闭但高效的生态里构建。

两条路线的差异在于开放度：微软更开放，允许多个Agent共存，没有单一主导Agent；苹果更封闭，系统控制更深，但硬件优化更彻底。

这个差异会产生两种不同的生态：微软的Agent平台像早期安卓，碎片化但快速繁殖；苹果的端侧AI像iOS，整齐但入场门槛高。云端AI的第一战，是算力和模型能力之争。端侧AI的第二战，是操作系统和生态之争。在旧金山Moscone Center，第二战的号角已经吹响，而赢家还没有出现。