你有没有想过:为什么NOMI能记住你上周开会开到晚上几点,而大多数语音助手连"昨天你说的那件事"都理解不了?
这个问题,藏着智能座舱下一阶段竞争的核心秘密。
答案不是云端大模型越来越强——而是车端,正在长出一个真正的"脑子"。
一个过去在行业里名不见经传的产品类别,开始频繁出现在车企的发布会PPT上:AI BOX。这个原本用来给老车"打补丁"的硬件品类,正在因为AI Agent的崛起,被重新定义成智能座舱的"认知中枢"。
这不是一个硬件的故事。这是一个关于谁在掌控智能的故事。
为什么纯云端架构,撑不住AI Agent
先说一个反直觉的事实:云端大模型越强,车端算力的需求不是越低,而是越高。
原因很直接——AI Agent的核心能力,天然要求本地化部署。
传统语音助手的工作方式是"上传-等待-接收":用户说一句话,云端处理,云端返回结果。这个模式对于简单指令没问题,比如"播首歌""导航到公司"——等个一两秒,用户感知不强。
但AI Agent要做的,是"目标驱动的自动执行"。你告诉它"下班顺路帮我取个快递,我想在进小区前拿到",它要做的是:查快递状态、匹配驿站位置、确认路线顺路程度、计算时间窗口、执行取件指令、完成后通知你。
这一连串动作,靠纯云端架构撑不住,原因有三个:
第一,延迟不允许。
云端往返一次通常需要500毫秒到2秒。如果你每次交互都要等这个延迟,用户体验会断崖式下降。更关键的是,当Agent同时调用导航、支付、通讯录三个服务时,云端架构需要串行处理每个子任务,总延迟可能是单次交互的3到5倍。
而端侧部署的推理延迟可以压到50毫秒以内。这不是体验优化,是能不能做Agent的门槛问题。
第二,安全闭环要求本地决策。
座舱里的AI Agent会处理很多敏感信息:车内摄像头捕捉的乘客状态、行车记录仪画面、你每天的出行轨迹、孩子的座位信息。这些数据在欧盟GDPR和中国的《数据安全法》框架下,原则上不能随意上传云端处理。
本地推理意味着这些信息在车端闭环处理,不出车外。隐私合规不是可选项,是AI Agent座舱的准入门槛。
第三,网络不可靠是常态,不是例外。
隧道、地库、偏远地区——在中国复杂的网络环境里,座舱遇到弱网或断网的场景每天都在发生。纯云端方案在这些场景下直接"失智",而车端Agent可以切换到本地模式,保证基础服务不中断。用户对"偶尔失灵"的容忍度,远比我们以为的低。
这三个原因叠加在一起,指向同一个结论:AI Agent的真正竞争,不在云端,在车端。
端云协同:不是"选边站",是"分工合作"
AI Agent的架构,本质上是一套"感知在端、认知在云、行动在端"的分工体系。
这句话听起来简单,但要真正落地,需要解决三个层次的协同问题。
第一层:任务分层——什么任务必须本地做,什么任务适合云端做。
实时语音唤醒、视线追踪、驾驶员状态监测、紧急制动相关的指令——这些必须本地处理,延迟要求在50毫秒以内,没有任何云端方案可以替代。
复杂推理、长程上下文理解、大量知识检索、需要实时联网数据的查询——这些交给云端,端侧负责协调和执行。
这个分层的核心判断元件叫"意图路由器"(Intent Router)。它要在用户说完第一句话的100毫秒内,判断这个任务属于哪个层级,以及是否需要端云协同处理。路由判断错误的结果是:要么端侧浪费算力处理复杂任务导致响应慢,要么云端处理简单任务导致浪费。
第二层:模型蒸馏——云端大模型的知识,如何迁移到车端小模型。
这是整个端云协同架构里技术含量最高的环节。长安汽车的技术路线是目前公开资料里最完整的案例:云端部署72B参数的大模型,以其为教师模型,通过蒸馏得到0.5B至1.8B参数的车端学生模型。
蒸馏不是简单的"压缩",而是"选择性知识迁移"。云端大模型有强大的推理能力,但这些能力不能完整无损地压缩到1.8B的参数量里。工程师要做的是:保留对座舱场景最关键的意图理解、指令执行和用户记忆能力,放弃对车端无关的知识领域(比如文学创作、高考数学题)。
经过良好蒸馏的端侧模型,在车端离线环境下可以流畅运行,意图理解准确率超过97.5%,响应延迟低于500毫秒——这已经是2025年头部方案的量产水平。
第三层:端云一致性——OTA升级后,端侧模型和云端API的行为能否保持一致。
这是最容易被忽视、但出问题影响最大的工程难点。
当云端大模型做了能力升级,端侧模型的行为如果不能同步更新,用户会感知到"AI有时候很聪明,有时候很傻"——这种情况比纯云端或纯端侧方案的一致性管理要复杂得多。
AI BOX加速上车的真正驱动力:AI Agent的三个"不得不"
第一个"不得不":Tier 1做AI Agent,必须解决算力预埋问题。
AI Agent对座舱SOC的算力消耗,远高于传统语音助手。一个简单的语音识别+语义理解,在传统架构下占用座舱SOC不到5%的算力;但当AI Agent需要同时维护记忆系统、处理多轮对话、运行意图路由、等待云端结果回传时,算力消耗可能超过30%。
对于采用高通8155(30TOPS NPU算力)平台的车企来说,这个算力压力是真实的。如果AI Agent全部跑在座舱SOC上,导航、仪表显示、娱乐系统的算力都会被挤占。
AI BOX的价值在这里体现为"算力卸载"——把AI Agent相关的推理任务卸载到独立AI BOX,座舱SOC专心处理显示和车辆控制。相当于给座舱单独配了一个"大脑",互不干扰。
第二个"不得不":传统车企的旧平台,等不及SoC升级,只能用BOX过渡。
AI BOX提供了一个"绕过SoC直接升级算力"的路径——不用动原有架构,在现有座舱SOC旁边并联一个高算力AI BOX,即可拥有200TOPS以上的本地推理能力。
第三个"不得不":多Agent架构需要稳定的本地运行环境。
蔚来NOMI GPT的多Agent仲裁架构,在技术实现上要求每个专家Agent有稳定的本地算力支持。如果把每个Agent的推理都放到云端,多个Agent并发时的延迟累加和并发数限制会成为系统瓶颈。
当NOMI的导航Agent、语音Agent、情感Agent需要同时在线时,本地200TOPS以上的算力是维持"实时响应"体验的必要条件。这解释了为什么蔚来ET9的N-BOX需要达到这个算力级别——不是性能过剩,是多Agent并行的算力门槛。
一张表说清楚:不同AI Agent能力,需要多少算力
这是目前行业里最稀缺的一类数据——不是概念层面的分类,而是具体到"B参数对应多少TOPS"的产品立项参考。
几个关键结论:
7B是端侧算力的分水岭。低于7B参数的模型,骁龙8155/8295级别的芯片可以流畅运行,但推理能力支撑不了复杂的多步骤任务规划。高于7B的模型,主流座舱芯片(30-46TOPS)跑不动,必须上到200TOPS以上的旗舰平台。
不同价格带的车,对应不同的BOX配置。10-20万元主流车型,AI BOX配置在30-46TOPS、1.8B端侧模型,是一个合理的性价比平衡点。20-35万元中高端车型,可以追求3B-7B模型和70-200TOPS配置。35万元以上旗舰车型,多Agent并行+VLA架构是差异化竞争点。
后装BOX的窗口期大约还有2-3年。随着座舱SoC集成度越来越高(前装舱驾融合趋势),独立BOX的必要性会逐步降低。但在过渡期内,后装BOX是成本最低、覆盖面最广的AI Agent升级方案。
未来三年:AI BOX的三条演进路线
基于当前行业动向,可以对AI BOX的演进做出三个核心判断:
第一条路线:从小盒子变成大中枢。
AI BOX目前主要承担AI推理功能,但随着舱驾融合趋势深入,未来它可能成为整车智能的控制节点——不只是处理座舱AI任务,还与智驾域、动力域形成数据交互,成为真正的"车端认知中枢"。
这条路线意味着BOX的硬件规格会持续升级,200TOPS以上的算力可能成为中配车型的起步标准。
第二条路线:从"独立盒子"变成"芯片集成"。
长期来看,随着座舱SoC算力的持续提升,独立AI BOX会逐步被集成到座舱SoC内部。目前高通8295的算力已经接近早期BOX水平,未来2-3代芯片迭代,主流座舱SoC可能直接具备运行7B模型的能力。
这意味着BOX不是一个长期独立存在的硬件品类,而是座舱智能化早期的一个过渡形态。一旦SoC追上来,BOX的价值就会向软硬一体的集成方案转移。
第三条路线:从功能盒子变成订阅入口。
这是商业逻辑上最重要的一条路线。
当BOX成为AI Agent的硬件载体,它的商业模式就不再是"卖一个盒子赚硬件利润",而是"以BOX为入口,持续收取AI订阅费"。
类比智能手机的逻辑:手机本身是硬件,但苹果真正持续赚钱的方式是App Store和订阅服务。AI BOX的逻辑也一样——硬件是入门门槛,后续的AI能力升级、Agent功能解锁、个性化记忆服务,才是真正持续产生收入的部分。
过去二十年,座舱电子的进化逻辑是"功能叠加"——屏幕越来越大,麦克风越来越多,应用越来越丰富。但这些都是外延式的增长,不是内核的改变。
AI Agent带来的变化是内核式的:汽车不再是"装载了很多智能功能的交通工具",而是"一个具备自主感知、规划、记忆和进化能力的智能体"。
而要承载这种智能体的能力,车端必须长出一个真正的"脑子"——有本地算力,有本地记忆,有实时决策能力。
AI BOX,只是这个"脑子"长出来之前的一个过渡形态。
但这个过渡,可能是接下来三年智能座舱最有价值的投资方向。
夜雨聆风