AI Agent驱动的AR应用:从“语音助手”到“贾维斯”


一、从“接入大模型”到“真正可用”的跨越
2025年到2026年,几乎每一场AR眼镜发布会都提到“接入大模型”。通义千问、DeepSeek、文心一言、智谱清言……各家眼镜厂商选择不同的大模型,类似于当年手机选择骁龙或联发科。
但在用户手中,实际体验往往停留在“能对话的语音助手”层面。与五年前用手机唤醒Siri相比,体验上的差异并不明显。这并非大模型能力不足,而是产品形态尚未完全适配。大模型擅长“理解与生成”,而AR眼镜真正需要的,是一个能执行任务、协助用户、主动服务的智能体。
行业正在朝这个方向努力。例如,Rokid已与国内头部大模型公司合作,研发专属的端侧多模态模型。下一代AI眼镜的核心驱动力,可能不再是更轻的镜架或更亮的屏幕,而是内嵌的AI Agent。
二、大模型在AR眼镜上的三种能力层次
第一档:语音问答用户提问,AI回答,如天气、建筑风格、菜谱等。技术已成熟,主要挑战在于交互深度不足,用户粘性较低。仅靠语音问答,难以体现眼镜相较于手机语音助手的独特价值。
第二档:多模态识别通过眼镜摄像头识别物体,如植物名称、商品价格、外文菜单翻译等。相比手机需要“掏出—打开—对准”三步,眼镜省去中间步骤,具备“第一视角”的独特性。当前瓶颈主要在于识别速度与准确率,延迟超过2秒会影响使用意愿。
第三档:任务执行(起步阶段)这是目前最具想象力的方向。AI不仅回答问题,还能代替用户完成任务。例如,千问G1的“AI办事”功能,用户可通过语音完成外卖订购、酒店预订、网约车呼叫等操作。背后逻辑是AI调用淘宝、支付宝、高德、饿了么等接口,完成全链路串联。这更符合大模型+AR眼镜应有的价值:用户无需打开多个App、反复跳转、手动输入,一句话即可办完事情。
三、下一代AR眼镜的操作系统:Agent而非应用商店
在手机时代,用户与应用的交互路径为:点亮屏幕—找到图标—打开App—定位功能—完成操作。这一流程在AR眼镜上显得过长,用户不易接受频繁抬手或翻看小界面。
更自然的交互方式是:用户一句话,AI理解意图,调用相应能力,完成操作。这意味着未来AR眼镜的入口不再是“应用商店”,而是Agent。应用不再是独立产品,而是可被Agent调用的“原子能力”。
例如,用户想点一份外卖,今天需要在美团或饿了么中搜索、筛选、下单、支付。在Agent模式下,只需说出“帮我点一份附近评分最高的酸菜鱼”,Agent自动完成剩余步骤。美团、饿了么等平台转变为可被调用的能力接口,而非用户主动打开的应用。

这一变化对开发者而言意义重大。提供高质量、可被Agent调用的能力,将获得商业价值;反之,依赖用户主动打开、手动操作的应用,可能被边缘化。行业将此模式称为“能力市场”(skills marketplace)。Rokid开放YodaOS SDK,正是在搭建这样的生态。
四、开发者的新角色:成为能力提供商
当Agent成为AR眼镜的入口,开发者的角色也在变化。
第一种:提供领域专家型能力大模型虽强大,但在医疗、法律、工业维修等垂直领域,准确率尚不足以支撑全权决策。拥有专有数据与业务流程经验的团队,可以将能力封装为Agent可调用的接口。用户在需要看病或法律咨询时,Agent调用对应的专业能力。其护城河在于数据与行业经验,而非通用算法。
第二种:构建任务闭环型能力用户不仅需要识别一朵花,更希望知道花名、养护方法及购买渠道。将“识别”与“后续服务”串联起来,形成从信息到服务的闭环,是手机应用难以实现、而AR眼镜具备条件的方向。
第三种:连接线下场景的能力AR眼镜佩戴在头上,用户双手自由,视线与真实世界重合,天然适合连接线下场景。例如:看到餐厅,Agent帮助查评分、订位、点餐;看到景点,Agent帮助购票、租讲解器、规划路线;看到海报,Agent帮助报名活动、购票、导航。能够协助Agent完成“看—查—办”闭环的能力,将具有重要价值。
五、当前需要关注的三个方向
算力与功耗的平衡端侧推理依赖芯片,运行大模型需要功耗。眼镜的电池容量和散热空间有限。当前高通AR1与恒玄BES2700的双芯片架构在一定程度上兼顾了性能与功耗,但运行大模型仍有压力。“端云协同”是潜在方向:简单任务本地处理,复杂任务上云。但网络延迟与隐私问题仍需解决。
Agent调用能力的平台主导性AR眼镜厂商掌握Agent入口,平台对调用哪些能力具有一定决定权。是否会形成类似手机应用商店的分成机制或流量分配规则,是行业需要关注的课题。
隐私保护机制Agent需要用户的位置、习惯、偏好等数据来完成任务。这些数据的存储、使用与授权机制如何设计,是AR眼镜全天候佩戴场景下必须认真对待的问题。隐私问题的处理方式,可能影响杀手级应用的到来。
六、当下可以采取的行动
以上是趋势,以下两点是目前就可以着手的方向:
-
设计可被Agent调用的能力不假设用户会主动打开应用,而是假设能力会通过Agent被用户使用。这意味着需要具备清晰的API、标准化的输入输出、可被发现的接口描述。
-
在垂直领域积累数据与流程闭环通用能力大模型已较为成熟,垂直领域才是差异化的空间。医疗、教育、工业、法律、金融等方向,选择一个领域深入积累数据和业务闭环,将形成长期价值。
七、结语
AR眼镜正在从“能对话”走向“能做事”。大模型提供了认知能力,Agent赋予了行动能力。接下来的关键是:谁来提供这些能力?
是继续沿用手机时代的独立App模式,还是成为Agent生态中的能力提供商?这一选择,可能在很大程度上影响未来三到五年的商业格局。
行业仍处于早期,Agent能力市场尚未完全成型,但方向已日趋清晰。
大会现场见。

参考资料:各企业公开信息、行业访谈
夜雨聆风