
Siri AI 来了。。。

但今年WWDC上苹果真正做的那件事,不是给Siri加了个AI后缀。
是它认了。
这场发布会是Tim Cook作为CEO最后一次站在WWDC的舞台上。

9月1号,他把位置交给硬件工程高级副总裁 John Ternus。所以今年这场,多少带点告别的味道。但发布会本身还是那个苹果,不惊不喜,稳稳当当。整场下来主题只有一个:AI。
最值得说的一条,藏在最底层。
苹果官宣了和 Google 的深度合作。新一代 Apple Foundation Models 基于 Gemini 家族来做,一共五个模型,适配到端侧和苹果自己的云上运行。

说白了,苹果在大模型的基础能力上追不上第一梯队,于是花钱买了它认为对普通消费者最好的底座,再在上面做自己擅长的系统集成。
对一个天天用 Gemini、用 ChatGPT 的人来说,“Siri 变聪明了”算不上新闻。真正值得停一下的是这件事本身:一家最讲究全栈自研、端到端掌控的公司,在最核心的能力上,把对手请进了自己的系统。
具体到 Gemini 供了什么,看得见的有三处。
一是底座本身。这五个和 Gemini 一起做的模型,既包括跑在你设备上的端侧模型,也包括跑在苹果云上的服务器模型——苹果整套 Foundation Models 的地基,现在是 Gemini。

二是复杂问答。你问它世界杯赛程、问它一个需要联网和推理才能答的问题,这类超出端侧小模型能力的请求,会被送到苹果云上由 Gemini 级别的模型生成回答。
三是生图。Image Playground 这次能出照片级写实图片,靠的就是这套和 Gemini 合作的新生成模型,跑在苹果云上。以前它只能画卡通和插画。
换句话说,凡是涉及”真正的智商”——理解、推理、生成——的活,底下基本都站着 Gemini。苹果留给自己的,是调度、隐私和把这些能力缝进系统的那部分。
Siri 改名叫 Siri AI,那是表象。底下换了一整套地基,才是实质。
这套地基长这样。
端侧模型分了两档。
所有支持Apple Intelligence的设备都有一个基础版,叫AFM 3 Core,3B的小模型。
在更强的设备上——iPhone 17 Pro 系列、iPhone Air、M4 且12GB 内存以上的 iPad、M3且12GB内存以上的 Mac——额外跑一个 AFM 3 Core Advanced,20B 的 MoE 模型。
这个更强的版本多出来的是语音和高精度听写,能听懂也能生成语音。

所以你会看到一个分水岭:Siri 更自然的新声音、更准的全系统听写,只有跑得动第二档模型的设备才有。
模型之上,是一个叫System Orchestrator的调度中心

协调四件事:个人上下文,你设备上的照片、邮件、备忘录、消息,通过 Spotlight 的语义索引被组织起来。

世界知识,问它世界杯赛程,它联网去查再生成回答。
App Actions,它知道你每个 App 能干什么,你说发消息它就调Messages,理论上任何适配了App Intents的第三方App都能被调用。

屏幕感知,它能看到你当前屏幕上的内容,结合着回答。

隐私这块苹果的原话是:AI 中的隐私不可谈判。方案还是那一套,端侧处理加专用云,数据不存储、不可访问、用完即删,外部专家可审计。AI 修过的照片,会自动加一个隐藏的 SynthID 水印。

地基讲完了,它确实比去年扎实。
但你也能读出另一层意思:苹果把”体验”留给自己,把”智商”外包了出去。
接下来是今天真正的主角。新版Siri正式命名为 Siri AI,覆盖iPhone、iPad、Mac、Apple Watch和Vision Pro,苹果给它做了五个演示。
第一个,问答接提醒接音乐。问某位歌手在旧金山的演唱会是什么时候,Siri 给出日期,追问怎么买票,它说要抽签,你说抽签开始时提醒我,它设好提醒,再说放一首她的新单曲,它放。

第二个,屏幕感知接个人上下文接路线规划。看到一张照片问这是哪,Siri 认出是圣克鲁兹海岸的天然桥州立海滩,你说朋友 Jeff 最近搬到附近了他家在哪,Siri 从消息记录里翻出 Jeff 发过的地址,你说导航过去中间停一下 Jeff 家,它规划路线。

第三个,照片筛选接共享。给我看上周在沙斯塔山的照片,Siri 搜出来,你说只把有这三个人的加到家庭共享相册,它做完。

第四个,对话式办派对。查世界杯赛程,让它给巴西和摩洛哥两国的经典菜,它给出菜品还带图,你问 Maria 之前提过的那个甜点是什么,它翻消息找到椰子饼干,你说整合成一个菜单,它生成,你说发到群里问大家来不来附上菜单,它发。

第五个在 Mac 上。Siri 进了 Spotlight,输入问题就能开始对话。演示里让它比较三家棚子的报价,结合儿子之前消息里提到的电路问题做推荐,最后直接起草一封邮件给选中的供应商。

连续对话、带上下文、跨 App 取信息,这些 Siri 以前确实做不到。比起那个答非所问的老 Siri,是质的变化。
但把这些 demo 放到 2026 年这个时间点上看,问题就出来了。
它做的还是问答、搜个人信息、发消息、设提醒这些事。对话流畅度上来了,可这些场景,今天的 ChatGPT、Claude 早就能干,谈不上惊喜。
更关键的是另一件没出现的事。
整场演示,没有看到真正的 Agent 能力。没有 Siri 自主规划、自主执行多步任务、自主调用多个 App 去完成一个复杂目标的场景。
苹果讲了 App Actions,听起来像那么回事,但演示里最复杂的,也就是搜索照片、筛选、加到共享相册这种程度。每一步背后,其实都还是你在下指令。
这就是标题里那句话的意思。一个能干活的 Agent,是你给目标、它拆步骤、它自己跑完;现在的 Siri AI,是你说一句它做一句。它听得比以前更懂人话了,但本质上,还是个遥控器。
古尔曼的点评也是这个意思。他说很多新功能,和苹果之前展示过、随后又推迟的那些很像。Siri AI 今年秋天才以 Beta 形式开放——这个词本身就说明,它还没真正成熟到能正式交给大众。
剩下的几个升级是实打实的。
第二档模型设备上,Siri 有了更自然的新声音,还能自定义语速和表现力。全系统听写更准了,因为它内建在系统键盘里,哪个 App 都能用,地铁上语音发消息这种场景是刚需。

视觉智能进了相机,按一下快门让 Siri 看你看到的东西,对着账单拍能用 Apple Cash 分账,对着背包问能不能当随身行李它结合你的航班信息回答。

苹果还第一次给 Siri 做了独立 App,对话通过 iCloud 加密跨设备同步。

把这些拼起来,Siri AI 是个更好用的 Siri。
但它还不是你期待的那个助手。
真正让人有点意外的,反而是那些老 App 的改造。
要让 AI 进到普通人每天的生活里,光有一个更聪明的 Siri 不够。得从你天天在用的那些 App 改起,那才是 AI 真正落地的入口。
Safari 加了三个功能。
它能用 AI 分析你打开的每个页面,自动按主题把标签页分组。你还能用一句话告诉它你在等什么——某个商品补货、某个报名开放——然后关掉那个页面,它替你盯着,变化发生时推送给你。
你也可以用自然语言描述你想要的功能,让它生成一个自定义扩展。
苹果顺手内涵了一句友商:Safari 的这些智能功能不追踪你的浏览数据,不像某些浏览器。

密码 App 现在能自动帮你改密码。背后是 AI 和 Safari 配合,自动导航到网站、登录、改掉弱密码。苹果在这里用了 agentic 这个词——这是整场为数不多真正像”自主干活”的动作。

电话App有个我觉得最实用的功能,叫Call Context。你打电话给商家时,它会主动从你别的 App 里找相关信息。比如打给航空公司改签,它能自动从邮件里翻出你的确认码。而且全程端侧运行,它看的只是你打给谁。

剩下的是一片自然语言改造。
信息能根据对话上下文一键建议你创建提醒或找照片;邮件的智能回复会按你和这个联系人平时的沟通风格调语气;日历能直接用一句话加事件,自动识别联系人和地点;快捷指令能听你描述一句话,自动把整个自动化流程的步骤拼出来。
这一片才是今天信息量最大的地方。它不性感,但它每天都会被用到。
影像这块苹果也雕了花。
Image Playground 这次支持写实风格了。以前只能生成卡通和插画,现在用上和 Gemini 一起做的新模型,能出照片级的高质量图片——你都用 Gemini 了,生图不迭代也说不过去。
Photos 里最酷的新功能叫空间重构,你可以在拍完之后重新调整照片的构图,就像拍那一刻你移动了相机一样。
它用端侧的空间模型做实时预览,再用云端模型补出视角变化产生的新区域,只生成空白部分,原图不动。
这套能力来自 Vision Pro 积累的空间理解,老照片和别的相机拍的照片也能用。
性能是常规但扎实的进步。App 启动快了 30%,新拍的照片入库快 70%,隔空投送传文件快 80%,iPad 接外置硬盘浏览传输快 5 倍。
去年那套争议很大的 Liquid Glass,苹果也承认上得太激进,今年优化了模糊算法,还加了一个透明度滑块让你自己调。
把这一整场放到一起看,苹果今年的路线很清楚。
它不跟你比谁的模型更强,那场仗它已经认输,转头买了 Gemini。它要比的是另一件事:在保住隐私的前提下,把 AI 缝进你每天都在碰的每一个 App 里。
这条路慢,不性感,但符合苹果一贯的样子——别人比谁更聪明,它只想比谁更不打扰你。
至于这条路走得通走不通,今年还看不出来。因为最关键的那块拼图——一个真能替你干活的 Agent——还没放上去。
它现在能听懂你说的每一句话,但还不能替你做完一整件事。
最后说一条,对国内用户最该知道的。
Siri AI目前只支持英语,后续才会扩展其他语言,欧盟和中国暂时都不可用,时间未知。苹果在国内到底会和谁合作,依然没有下文。

所以这场发布会对我们的意思是:好东西有,地基也换了,但你还得再等。
等多久,苹果没说。
作者/Amber(人类) CC(AI)
编辑/LLA(人类)

夜雨聆风