AI内参|Siri 2.0重塑iOS 27,五角大楼弃Claude换OpenAI

AI内参｜Siri 2.0重塑iOS 27，五角大楼弃Claude换OpenAI

2026 年 6 月 8 日（周一）· 第 24 周

◆ 🛠️ 技术生态

◆ Apple WWDC 2026：Siri 2.0 架构级重构，iOS 27 AI Extensions 打破模型排他性

6 月 8 日太平洋时间上午 10 点，Tim Cook 在 Apple Park 进行了他作为 CEO 的最后一次 WWDC 主题演讲——他于今年 4 月宣布将于 9 月 1 日将 CEO 职位交给 John Ternus。本次 WWDC 的主角毫无疑问是 Siri 的全新重做，以及 iOS 27 中前所未有的 AI 开放策略。

https://www.techtimes.com/articles/317902/20260606/wwdc-2026-opens-monday-gemini-powers-rebuilt-siri-iphone-11-faces-ios-27-cut.htm

https://www.bloomberg.com/news/articles/2026-06-05/wwdc-2026-preview-ios-27-siri-ai-features-macos-27-more-apple-will-announce

https://letsdatascience.com/blog/apple-ios-27-extensions-claude-grok-third-party-ai

https://findskill.ai/blog/choose-ai-new-siri-ios-27

Siri 2.0——从”语音助手”到”AI 应用”：Siri 在 iOS 27 中首次获得了独立的手机桌面应用，采用类 ChatGPT 的对话式界面，支持对话历史记录和连续上下文理解。这是 Siri 自 2011 年随 iPhone 4S 推出以来最根本的产品形态变革。Apple 从 Google 定制了一个 1.2 万亿参数的 Gemini 模型，据 The Information 与 Tech Times 报道，许可费用约为每年 10 亿美元，运行在 NVIDIA Blackwell B200 GPU 上的 Google Cloud 中。这一模型规模是 Apple 自有云端 AI 模型的约 8 倍，意味着 Apple 在云端 AI 推理能力上做出了一次战略性的”外包”——放弃了完全自研的 Private Cloud Compute 方案，选择与最强的第三方 AI 基础设施合作。

iOS 27 的 AI Extensions——模型中立打开生态大门：iOS 27 最令人意外的发布不是 Siri 本身，而是一个全新的 Extensions 系统。该系统允许用户将第三方 AI 应用（如 Claude 应用、Grok 应用、Gemini 应用等）设置为 Siri、Writing Tools 和 Image Playground 的首选模型提供商。Extensions 建立在 Apple 与 Google 现有的 Gemini 集成之上：如果 Siri 无法独立回答某个请求，它会建议将问题转发到用户选定的第三方聊天机器人。这意味着 iPhone 用户首次可以在系统层面自由选择不同的 AI 模型来处理不同类型的任务——例如用 Gemini 做研究搜索、用 Claude 做编程辅助、用 ChatGPT 做创意生成。这是对当前 ChatGPT 在 Apple Intelligence 中独家集成地位的彻底终结。

其他 WWDC 发布亮点：Apple 在同一场发布会上发布了 iOS 27、iPadOS 27、macOS 27、watchOS 27、tvOS 27 和 visionOS 27 的开发者测试版。Photos 应用获得了更多 AI 功能升级。iPhone 11 用户可能面临 iOS 27 的兼容性淘汰（不再支持更新）。Tim Cook 在演讲中的 AI 策略取舍也被视为最重要的信号：Apple 承认了在云端 AI 基础模型上无法与 Google、OpenAI 等公司正面竞争，选择了”模型中立”的生态平台策略——让用户和开发者来挑选最好的模型，Apple 则专注于操作系统集成和隐私体验。

行业意义：Apple 此次 WWDC 的决定性转向，将在三个层面影响 AI 产业格局。第一，模型竞争力从”垄断”转向”选择权”——当全球最主流的移动终端操作系统（iOS 27）允许用户自由切换 AI 模型提供商时，任何单一模型都无法再依赖 Apple 的渠道分发来获得垄断占有率。第二，Google 的 10 亿美元 Siri 授权成为”入场费”——Apple 向 Google 支付 10 亿美元/年获得定制的 Gemini 模型，但同时向 Claude、Grok 和 ChatGPT 敞开大门，这一策略迫使所有 AI 公司为争夺 iPhone 用户的”默认 AI”而竞争，Apple 则成为最大的中间人。第三，Tim Cook 留给继任者的 AI 遗产——从 2011 年推出 Siri 到 2026 年彻底重做，Apple 在 AI 助手上走了 15 年的弯路。Cook 在离任前的最后一个重大产品决策，是将 Siri 从一个封闭的语音接口改造成一个开放的 AI 平台。

◆ NVIDIA Cosmos 3 正式开源：全球首个全开放物理 AI “全模态模型”

6 月 1 日，NVIDIA 在 Computex/GTC 台北上正式发布了 Cosmos 3——全球首个完全开放的物理 AI 全模态模型（Omnimodel），能够在一个统一的 Mixture-of-Transformers 架构中同时处理语言、图像、视频、音频和动作序列。模型权重已在 Hugging Face 上开源，开发者可在 build.nvidia.com 上直接体验。

https://www.hpcwire.com/aiwire/2026/06/01/nvidia-launches-cosmos-3-the-open-frontier-foundation-model-for-physical-ai

https://www.digitalapplied.com/blog/nvidia-cosmos-3-open-physical-ai-omnimodel-2026-guide

https://research.nvidia.com/labs/cosmos-lab/cosmos3/technical-report.pdf

https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai

技术架构——Mixture-of-Transformers 全模态统一：Cosmos 3 的核心创新在于采用了双塔 MoT（Mixture-of-Transformers）架构。不同于传统的”一个模型干一件事”范式（如 CLIP 只做图文理解、Stable Diffusion 只做图像生成），Cosmos 3 在一个模型中装入了五个模态的理解与生成能力。架构分为两个 Transformer 塔：视觉-语言塔处理文本、图像和视频的理解与描述生成；物理-动作塔处理视频生成、世界模拟、环境声音合成以及机器人动作预测。这种架构设计使得 Cosmos 3 可以支持五种灵活的使用模式：纯文本对话、图文理解与生成、文本生成视频、视频世界模拟、以及”世界+动作”端到端机器人策略。

性能数据：NVIDIA 宣称 Cosmos 3 在超过 8 个物理 AI 相关的排行榜上排名第一，涵盖视觉推理、文本到图像、图像到世界以及世界到动作生成等多个子任务。在物理精度（Physics Accuracy）指标上达到 SOTA 水平。作为完全开源的模型，它是第一个同时覆盖”理解-生成-模拟-行动”四个维度的开放权重模型。

开放生态——Cosmos 联盟：NVIDIA 同时发起了 Cosmos 联盟，联合 Agile Robots、Black Forest Labs、Generalist、LTX、Runway 和 Skild AI 等全球世界模型构建者和 AI 开发者，共同推进下一代世界模型的发展。联盟成员可以贡献模型、研究和评估技术，同时使用 Cosmos 3 技术、训练工具和 NVIDIA DGX Cloud 基础设施进行大规模训练。模型采用 OpenMDW 1.1 商业许可协议，与 Nemotron 系列相同的开放程度——完全开放权重、训练配方和商用许可。

行业意义：Cosmos 3 的发布标志着物理 AI 模型从”单模态拼接”时代进入了”全模态原生”时代。此前机器人领域的典型技术栈是多个模型的组合：一个 LLM 负责推理、一个 VLM 负责视觉理解、一个视频生成模型负责世界模拟、一个策略网络负责动作输出。Cosmos 3 用一个统一的架构替代了这四到五个独立的模型栈，大幅降低了机器人 AI 系统的工程复杂度。对于 NVIDIA 而言，这也是一次战略性的生态绑定——当越来越多的机器人开发者使用 Cosmos 3 进行训练和模拟时，NVIDIA 的 GPU 和 DGX Cloud 将成为这些工作负载的首选计算平台。

◆ xAI 签署 Grok 政府合同：42 美分/次接入美国政府系统，与 OpenAI/Google 同台竞争

据多家媒体 6 月 7-8 日报道，Elon Musk 的 xAI 已签署协议，将其 Grok 模型部署到美国政府分类系统中，包括五角大楼的敏感情报分析、武器开发和战场行动等场景。Grok 的定价极具侵略性——据报道每次推理调用仅收费 42 美分，远低于竞争对手的政府合同定价。

https://www.nytimes.com/2025/09/25/technology/grok-xai-government-elon-musk.html

https://www.facebook.com/FoxNews/posts/musks-next-move-the-pentagon-announced-a-partnership-with-elon-musks-xai-to-depl/1272836204706239

定价策略与竞争格局：42 美分/次的定价模式在 AI 国防合同中属于”破盘价”。xAI 以近乎倾销的价格策略进入政府 AI 市场，目标是在 Anthropic 被五角大楼黑名单清除之后留下的空白中快速建立用户基础。Grok 的政府版本经过了专门的脱敏和安全加固处理，能够在分类网络中运行。

行业意义：xAI 同时推进”Grok for Government”和 Grok 图像生成（Grok Imagine 1.5）两条产品线，标志着 xAI 从单一的 X/Twitter 聊天机器人向”消费者 + 企业 + 政府”三位一体的 AI 公司转型。42 美分/次的低价策略将给 OpenAI 和 Google 的政府合同定价带来巨大压力——如果 Grok 在政府场景中的表现被证明足够好，xAI 有可能快速吃掉被 Anthropic 放弃的政府市场份额。

◆ 🏢 大厂动态

◆ 五角大楼全面测试 OpenAI 和 Google 模型，Anthropic Claude 被正式清除出分类网络

这是本周最引人注目的 AI 地缘政治事件。据 Bloomberg 和 CNBC 等多家媒体报道，五角大楼正在对 OpenAI 和 Google 的 AI 模型进行大规模测试，以在六个月的期限内全面替代此前被列为”供应链风险”的 Anthropic Claude。

https://www.bloomberg.com/news/articles/2026-05-21/pentagon-tests-rival-ai-models-in-race-to-replace-anthropic

https://www.cnbc.com/2026/04/28/pentagon-ai-chief-confirms-work-with-google-after-anthropic-blacklist.html

https://www.scientificamerican.com/article/why-replacing-anthropic-with-openai-at-the-pentagon-could-take-months

https://uk.finance.yahoo.com/news/pentagon-reportedly-testing-ai-models-182808987.html

事件时间线：今年早些时候，美国国防部长 Pete Hegseth 将 Anthropic 指定为”供应链风险”，理由是 Anthropic 坚持对其技术施加护栏限制（guardrails）——特别是在监视任务和全自主武器系统方面。Hegseth 随即启动了六个月的过渡期，要求将 Claude 从五角大楼的所有分类网络中清除。Anthropic 随后在法庭上对抗这一指称，称这一决定可能使其损失数十亿美元的政府收入。

测试进展——25 名”超级用户”实测：根据一位高级国防官员透露，五角大楼从 3 月初开始对 OpenAI 和 Google 的模型进行了实测——在 Hegseth 将 Anthropic 指定为供应链风险仅三天后。测试涉及 25 名国防部的”超级用户”（power users），在真实的分类任务环境中评估替代模型的性能。国防部数字与 AI 首席官 Cameron Stanley 向 CNBC 确认，国防部已经扩大了与 Google Gemini 的合作范围，将其用于分类项目。除 Gemini 外，国防部也正在与 OpenAI 及其他供应商合作以实现AI能力的现代化。

Anthropic 的困境：Anthropic CEO Dario Amodei 此前曾与 Hegseth 在五角大楼会面，但据彭博社报道，双方沟通仍处于冻结状态——因为 Anthropic 仍在就供应链风险指称提起法律诉讼。与此同时，Palantir 等国防科技巨头此前已将 Claude 托管在安全军事网络中，五角大楼的变更决策将对 SaaS 层的集成也产生影响。一位接近 Palantir 的消息人士表示：”更换模型并在网络中安装新模型其实很简单——模型层的切换只需要几分钟，但用户培训和流程适配需要数月。”

行业意义：这一事件是 AI 安全价值观与国家军事需求之间最激烈的一次正面碰撞。Anthropic 一直以安全为本（safety-first）著称——坚持限制其技术在某些场景中的部署方式——这种价值观在商业市场中是差异化优势，但在国防采购中却变成了致命劣势。五角大楼选择了实用性优先：相比于带有”护栏”的 Claude，OpenAI 和 Google 愿意更灵活地响应军方的需求。这种”安全 vs 能力”的权衡在 AI 国防市场中可能成为一个长期的分水岭——国防客户将倾向于选择最灵活、限制最少的模型供应商，而安全性更高的模型则更适合民用和企业场景。

◆ OpenAI 启动 Rosalind 生物防御计划：GPT-Rosalind 生命科学模型免费提供给政府

5 月 29 日，OpenAI 正式推出 Rosalind Biodefense 计划，将此前内部开发的 GPT-Rosalind 生命科学推理模型以赞助形式免费提供给经过审查的开发者以及美国政府及盟国合作伙伴。这是 OpenAI 首次将专用模型免费交付给政府合作伙伴，标志着 AI 在国家安全和公共卫生领域的应用进入了一个新阶段。

https://openai.com/index/biodefense-in-the-intelligence-age

https://www.axios.com/2026/05/29/openai-biodefense-program

https://the-decoder.com/openai-is-giving-away-its-life-sciences-ai-model-to-help-governments-prepare-for-the-next-pandemic

https://www.rdworldonline.com/openai-launches-rosalind-biodefense-offers-federal-agencies-early-access-to-its-life-sciences-model

GPT-Rosalind 模型能力：GPT-Rosalind 是 OpenAI 在 4 月推出的专门针对生命科学领域的推理模型，在化学、生物化学和实验设计等内部基准测试中表现超越了 GPT-5、GPT-5.2 和 GPT-5.4 等通用模型。它在分子结构推理、蛋白质相互作用预测、基因功能分析和疾病生物学等任务上具有远超通用模型的专业能力。

双轨制——开发者轨道与政府轨道：Rosalind Biodefense 计划包含两个并行轨道。开发者轨道（Developer Track）面向经过审查的外部团队，赞助他们使用 GPT-Rosalind 构建流行病学模型、早期检测系统、筛查工具和非药物干预方案。OpenAI 同时提供启动支持和 API 访问费用赞助。政府轨道（Government Track）将对选定的美国联邦机构及盟国合作伙伴开放 GPT-Rosalind 的直接使用权限，用于疫情应对规划、诊断和医疗对策开发等场景。OpenAI 将这一计划描述为”防御性加速”（defensive acceleration），公开声明”前沿 AI 应该有意义地有利于那些防守者（而非进攻者）”。

前因——美国政府 AI 生物安全政策的分歧：值得注意的是，Rosalind Biodefense 的发布时间正好在华盛顿未能就 AI 生物安全实现标准化审查机制之后。此前 OpenAI、Anthropic、微软和 Google 的 CEO 联名致信国会（6 月 5 日）要求立法强制合成 DNA 筛查，但立法进程缓慢。在联邦标准化审查机制搁浅的情况下，OpenAI 选择单方面推进自己的政府 AI 访问条款——直接向政府和开发者开放 GPT-Rosalind，绕过了立法的不确定性。

行业意义：Rosalind Biodefense 创造了两个先例。第一，AI 公司直接定义”防御性 AI”的边界——OpenAI 自行审批评审开发者、自行设定安全规则、自行决定哪些政府机构可以访问。这种”企业主导的生物安全治理”模式在国家安全领域引起了争议：是应该由立法机构定义边界，还是由 AI 公司自行裁量？第二，GPT-Rosalind 超越通用模型的生命科学能力验证了”专业模型”的商业价值——在通用大模型性能趋于收敛的当下，专业领域推理模型（如 GPT-Rosalind 之于生物学）成为差异化竞争的关键方向。

◆ OpenAI 加速 IPO：华尔街投行起草招股书，目标 9 月上市

据 Yahoo Finance 和 CNBC 等多家媒体报道，OpenAI 正在加速推进 IPO 进程。OpenAI 正在与多家大型投资银行合作起草招股说明书，目标是在 9 月（此前预计为 2026 年末）在华尔街正式上市。这一消息恰逢 OpenAI 在 Elon Musk 的诉讼案中获胜之后——一名联邦法官和陪审团在 5 月 18 日驳回了 Musk 意图撤销 OpenAI 营利化转型的诉讼。

https://finance.yahoo.com/markets/stocks/articles/openai-rushes-toward-wall-street-172459599.html

https://www.cnbc.com/2026/05/20/openai-ipo-filing.html

https://www.nytimes.com/2026/05/20/technology/openai-ipo.html

招股书进度与新限制：OpenAI 正以机密方式向 SEC 提交注册声明草案——这一机制允许公司在向公众披露之前先与监管机构进行多轮反馈。OpenAI 仍然需要完成从非营利组织向盈利性公益公司（for-profit public-benefit corporation）的转型，这是一切常规证券交易上市的前提条件。机密文件可以在首次公开提交之前在 SEC 内部经历多轮修订，这意味着 OpenAI 的财务数据在未来的某个时间点才会公之于众。

IPO 时机分析：OpenAI 选择在此时加速 IPO 有三重动机。第一，竞争对手的 IPO 也在推进中——Anthropic 已于 6 月 1 日秘密提交美国 IPO 申请，谁先上市谁就能获得更高的市场认知和投资先发优势。第二，基础设施投资需要巨额资金——AI 基础设施的巨额投入（数据中心、GPU 集群、电网）需要同样巨大的资本支撑，IPO 是获取公众市场资本的最有效途径。第三，Musk 诉讼清除扫清了最大的 IPO 障碍——Musk 的诉讼试图瓦解 OpenAI 的营利化转型，诉讼被驳回后 OpenAI 的上市路径变得清晰。

Project Mercury 的讽刺：OpenAI 的 Project Mercury 正在利用超过 100 名前华尔街分析师训练 AI 处理银行业务——这一项目此时显得颇为讽刺：OpenAI 正在自动化的正是现在为其承销 IPO 的行业。

◆ 📍 论文解读

◆ Cosmos 3：面向物理 AI 的全模态世界模型

arXiv:2606.02800 · https://arxiv.org/abs/2606.02800

NVIDIA Research · HuggingFace Papers 热度：8.68k

研究背景：物理 AI（Physical AI）——包括机器人、自动驾驶和视觉 AI——长期以来面临一个根本性的工程难题：理解物理世界需要同时处理语言、视觉、听觉和动作四种完全不同的信息模态。传统的解决方案是将多个专用模型拼接在一起（一个 LLM 负责推理、一个视觉模型负责识别、一个策略网络负责规划），但这种多模型架构存在延迟高、误差累积、维护复杂等系统级问题。行业亟需一个能够原生处理所有物理 AI 相关模态的统一基础模型。

核心方案：NVIDIA Research 团队提出了 Cosmos 3——一种基于 Mixture-of-Transformers（MoT）架构的全模态世界模型家族。技术核心是双塔设计：视觉-语言塔使用 Transformer 架构处理文本、图像和视频的编码与生成；物理-动作塔则额外处理视频生成、世界模拟、音频合成和机器人动作预测。两个塔在训练过程中共享部分注意力权重，实现了跨模态的知识迁移。模型最终支持五种灵活的使用模式：

1. 文本模式：纯语言对话和推理

2. 图像-文本模式：图文理解与生成

3. 视频生成模式：文本到视频的生成

4. 世界模拟模式：视频世界的前向模拟

5. 动作模式：基于视觉输入直接输出机器人动作序列

关键指标：NVIDIA 称 Cosmos 3 在 8 个以上物理 AI 排行榜上排名开源第一，涵盖视觉推理、文本到图像、图像到世界和世界到动作生成等子任务。在物理精度基准上达到了 SOTA 水平。

作者团队：Kun Wu、Chengkai Hou、Jiaming Liu、Zhengping Che 等，来自 NVIDIA Research 的 Cosmos Lab。论文代码和模型权重完全开源。

行业意义：Cosmos 3 标志着一个关键范式转变——物理 AI 不再需要”多个模型的拼凑”，而是可以在一个架构中完成”感知-推理-模拟-行动”的完整闭环。对于机器人行业的开发者而言，这意味着训练和部署的工程复杂度将大幅降低。对于 NVIDIA 而言，Cosmos 3 是”四合一”生态战略的核心拼图——连同 Nemotron（生成式 AI）、Cosmos（物理 AI）、Isaac（机器人模拟）和 DRIVE（自动驾驶），NVIDIA 正在构建一个完整的 AI 基础模型矩阵。

◆ Agents’ Last Exam：最严苛的 Agent 能力综合测试

arXiv:2606.05405 · https://arxiv.org/abs/2606.05405

研究背景：随着 AI Agent 从实验性产品走向生产环境部署，一个核心问题日益凸显——现有的 Agent 能力评估基准过于碎片化且难度不够。LMSYS Chatbot Arena 侧重对话、SWE-bench 侧重软件工程、GAIA 侧重工具使用，但没有一个独立的基准能够全面评估 Agent 在跨领域、多工具、长周期任务中的综合能力。随着模型在标准化测试上的得分越来越接近饱和，行业需要更难的评估——一个 AI 领域的”大学入学考试”。

核心方案：研究团队提出了 Agents’ Last Exam (ALE)，是目前设计最为严苛的 AI Agent 综合评估基准。ALE 包含多个维度的复杂任务，要求 Agent 在长时间跨度内跨领域调用多种工具和知识来源，同时评估错误恢复能力和策略规划能力。ALE 的设计核心理念是：如果 Agent 在这项考试中表现优异，它很可能已经具备了在生产环境中独立处理复杂任务的能力。

关键指标：论文尚未公布完整的前沿模型对比数据，但基于设计难度，ALE 被认为可能是目前已有的 Agent 评估基准中天花板最高的一个。先前的研究（如 AutoLab）已经证实，大多数前沿模型在超长周期优化任务中的表现远不如人意，ALE 将进一步揭示模型在复杂、跨域任务中的真实能力边界。

行业意义：ALE 的到来反映了 AI 评估领域的一个重要趋势——基准正在从”模型能通过吗？”转向”模型能在足够困难的任务上持续表现优异吗？” 随着越来越多的 AI Agent 被部署到编程、研究、运维等生产级场景中，类似 ALE 的高难度基准将成为衡量 Agent 是否”足够好”的关键标尺。

◆ Qwen-Image-Flash：超越”客观设计”极限的图像生成模型

arXiv:2606.03746 · https://arxiv.org/abs/2606.03746

Qwen 团队（阿里巴巴）

研究背景：当前的文本到图像生成模型在描述性提示词上表现优秀（如”一只坐在窗台上的猫”），但在需要精确遵循复杂约束时却频繁失败——特别是当用户要求精确的数字、特定的空间关系、或者结构化布局时（如”三只红色气球，左侧两只，右侧一只，背景是蓝色天空”）。这种”主观美学”和”客观约束”之间的鸿沟，是图像生成模型从”创意玩具”走向”生产力工具”的关键瓶颈。

核心方案：阿里 Qwen 团队提出了 Qwen-Image-Flash，一个专门优化了”客观约束遵循能力”的图像生成模型。研究团队构建了专门的训练数据集，包含大量需要精确遵循结构、数量和空间关系约束的图文对，同时改进了模型的条件机制，使其能够更忠实地将文本描述中的可验证约束映射到生成的像素空间。在多个标准化的”客观设计”评估指标上，Qwen-Image-Flash 显著超越了现有的主流图像生成模型。

作者团队：阿里 Qwen 团队。模型权重已在 Hugging Face 上开源。

行业意义：Qwen-Image-Flash 代表了中国 AI 大模型竞争从”通用能力”向”垂直专长”转变的又一个信号。在通义千问系列的多模态能力逐步趋于成熟后，Qwen 团队选择在”精确生成”这一细分方向上进行深度优化——这一方向对于电商产品图生成、设计稿渲染、工业可视化等场景具有极高的商业价值。对于中国的 AI 图像生成生态而言，Qwen-Image-Flash 提供了第一个专门面向”客观约束”的开放权重选项，填补了此前只有 Midjourney 等闭源产品涉及的细分市场。

标签： #AI日报 #Apple #WWDC2026 #Siri2.0 #iOS27 #Gemini #AIExtensions #五角大楼 #Anthropic #Claude #OpenAI #Pentagon #NVIDIA #Cosmos3 #PhysicalAI #GPT-Rosalind #生物防御 #OpenAIIPO #xAI #Grok #AgentsLastExam #QwenImageFlash #全模态模型 #物理AI