
撰文| 余凝芮
编辑| 张 南
设计| 荆 芥
2026年6月2日,旧金山,微软Build大会,萨提亚·纳德拉(Satya Nadella)站在台上说了一句话:“我们正在进入Agent优先的时代。”
这句话说的时候,Anthropic刚刚以9650亿美元估值秘密递交IPO文件,Alphabet宣布847.5亿美元融资用于扩建算力基础设施。云端的钱正在以历史上从未出现过的速度烧掉。
纳德拉的意思,不是说云端不重要了。他在宣布一件不同的事:下一代计算平台的交互单元,不再是App,而是Agent——而且这个Agent,有相当一部分要跑在你手边的设备上,而不是数千公里外的数据中心里。
个人计算机史上,每隔十五至二十年就会出现一次交互范式的断裂。
1984年,麦金塔把命令行变成了图标和窗口。2007年,iPhone把窗口变成了触控应用。每一次断裂,原有的操作系统霸主都面临重新洗牌的压力,因为新的交互层往往建立在新的硬件架构上,原有的软件积累无法直接迁移。

微软在Build 2026发布的,不只是一个功能更新。它是一个三层架构的完整系统宣言。
底层是硅:Windows Agent Stack要求设备NPU(神经处理单元)达到40至45 TOPS以上的吞吐量。高通骁龙X Elite、英特尔Lunar Lake、AMD Strix Point三家芯片在台上同台确认支持。微软自己发布的Surface Pro 11搭载的骁龙X Elite第二代NPU,标称算力75 TOPS,可同时运行多个本地Agent。
中层是模型:Aion 1.0 Instruct,为NPU专门优化的轻量端侧语言模型,处理邮件摘要、文档格式化、日程协商等日常任务,不发送任何数据到云端。Aion 1.0 Plan更进一步:140亿参数,32K上下文,支持工具调用,计划在未来数月内置到具备足够算力的设备上。
顶层是Agent:Copilot Scout,主动感知用户当前工作状态,在不需要被唤醒的情况下介入。Windows Copilot Runtime提供统一的ONNX推理层,自动将计算任务路由到NPU、GPU或CPU——开发者写一套代码,硬件路由由系统接管。

Project Solara走得更远。这是一个建立在安卓开源项目之上(而非Windows)的轻量级边缘操作系统,面向一类此前不存在的设备:既不是手机,也不是PC,也不是平板。它没有应用商店,没有浏览器,没有传统桌面。设备上跑的不是App,只有Agent。微软发布了两款参考设计:一款是带摄像头、指纹传感器、5G的可穿戴员工徽章;另一款是带面部识别、超宽带感应的桌面陪伴设备。用一个按钮唤醒Agent。微软不打算自己制造这些设备,它发布的是规格标准和参考设计,逻辑与谷歌GMS认证对安卓生态的管控方式一致。
一位前微软项目经理的话被广泛引用:"他们不是在杀死Windows,而是把它变成一个托管Agent的静默平台。"
苹果的策略与微软不同,但方向一致。

苹果在AI竞争里长期被认为落后:Siri的能力与GPT-4、Claude的差距有目共睹,Apple Intelligence 2024年发布时承诺的功能至今交付不完整。但苹果一直在押注一个不同的赌注,而这个赌注在2026年开始兑现的条件正在成熟。
这个赌注的核心是:端侧推理的经济性。
苹果芯片在同等推理任务下,功耗约为数据中心GPU的十分之一。推理延迟低于10毫秒,无需网络往返,无需在数据中心排队等待其他用户的请求。苹果的4GB端侧模型,在iPhone 15 Pro以上机型上以每秒30至40个token的速度生成文字。这不是最强的AI,但对于通知摘要、语音转录、快速回复等高频低复杂度任务,它足够了,而且是私密的、即时的。
苹果在准备WWDC 2026的内容。据知情人士向The Information透露,苹果将展示其芯片设计优势如何在端侧处理AI查询——将本地推理定位为一种隐私保护、降低成本的选择,与Anthropic、OpenAI等公司依赖大规模数据中心形成对比。Siri将进行一次地基级别的重建:独立App界面、基于大语言模型的世界知识、数百个应用内Agent动作、屏幕感知能力。

苹果的底牌,是它在15年里积累的自研芯片体系。A系列和M系列的神经引擎,是针对本地推理专门设计的,不是通用GPU的附属品。这意味着它的端侧推理效率,是英伟达GPU在云端做同样任务的结构性对手。数据中心的规模优势,在这里被苹果的效率优势部分抵消。
苹果拥有22亿台活跃设备。这是一个比任何数据中心都更分散、但总算力加起来同样可观的推理网络。苹果不需要砸钱建机房,它已经把机房卖给了用户——用户还替苹果付电费。
建议标题用了"退守"这个词。这是错的。
微软和苹果向端侧移动,不是因为云端打不过Anthropic或OpenAI,而是因为云端的单位成本正在触及一个结构性边界:HBM供给瓶颈至少持续到2030年,算力扩张的边际成本无法无限下降,云端推理的价格不可能无限便宜。
在这个边界面前,把常见的、低复杂度的推理任务从云端卸载到设备上,是一个成本和延迟的双重优化。Gartner预计,到2025年前后,75%的企业数据将在边缘处理。企业架构师的新共识是:在云端训练,在边缘推理。
微软和苹果是在顺着这个方向抢占落地点,不是在撤退。
更精确的描述是:云端算力的军备竞赛正在打造一批基础设施巨头(Anthropic、OpenAI、谷歌),而端侧AI的普及正在打造一批平台入口——操作系统层面的入口。历史告诉我们,平台入口往往比基础设施赚得更多,时间更长。
微软在1981年用DOS做到了这件事。苹果在2007年用iOS做到了这件事。
Agent First的操作系统,是他们在争夺第三次。
新平台能否成立,最终由开发者决定。

微软的牌面:Windows Copilot Runtime提供统一API,开发者写一套代码,系统自动路由到最优硬件。Aion 1.0的权重开放在Hugging Face,2026年7月起可以下载微调。WSL 3支持NPU直通,让Linux开发者可以在Qualcomm和英特尔的NPU上跑本地AI工作负载,几乎无额外开销。Windows AI Studio提供本地测试和模型优化环境,上线前不需要连接云端。
苹果的牌面:Core ML已经是iOS开发者熟悉的推理框架,Apple Intelligence的端侧模型通过系统API开放给第三方。苹果的策略与过去的Metal(图形)、Core ML(机器学习)一致:先在系统层做好,再开放API,让开发者在封闭但高效的生态里构建。
两条路线的差异在于开放度:微软更开放,允许多个Agent共存,没有单一主导Agent;苹果更封闭,系统控制更深,但硬件优化更彻底。
这个差异会产生两种不同的生态:微软的Agent平台像早期安卓,碎片化但快速繁殖;苹果的端侧AI像iOS,整齐但入场门槛高。云端AI的第一战,是算力和模型能力之争。端侧AI的第二战,是操作系统和生态之争。在旧金山Moscone Center,第二战的号角已经吹响,而赢家还没有出现。


夜雨聆风