乐于分享
好东西不私藏

高德「AI伴行」:一个全模态导航助手是怎么炼成的

高德「AI伴行」:一个全模态导航助手是怎么炼成的

高德「AI伴行」:一个全模态导航助手是怎么炼成的
四月二十四日,高德地图正式对外发布”AI伴行”产品,定位为行业首款面向真实出行场景的全模态出行伙伴。
和历次地图软件更新不一样,这次改的不是界面、不是路线算法,而是人和地图之间最基础的那套交互逻辑。
地图软件的问题不是功能太少,而是它始终假定用户能把自己的需求翻译成机器能懂的语言。”向北步行200米”在屏幕上是清晰的箭头,在现实里是一个在十字路口转了三圈的人。
AI伴行想解决的,是这个翻译问题。
四个模块,一个会思考的副驾驶
从技术架构看,AI伴行是一个以Agent为核心的多模块系统,由四个大模型模块协同驱动:时空上下文感知、多模态融合理解、空间行动能力、复杂任务处理机制。
第一个模块做的事是持续感知:用户的位置、行进方向、导航进度、周边环境,这些信息实时更新,让系统理解”前面””左边”这类情境化表达,而不是把它们当成抽象方位词。这套持续更新的状态,被描述为”微型世界模型”。
第二个模块处理多模态融合:文本、语音、视觉、位置信息同时进来,系统形成对真实场景的整体认知。
这里最有意思的是摄像头的引入。用户对着一栋建筑问”这是什么”,系统会把语音内容、摄像头画面、当前位置三重信息合并处理,识别出建筑,给出历史背景、开放时间、门票情况,同时提供前往入口的导航选项。路过一家感兴趣的店,拍一张就能看到评分、人均和招牌菜。
第三个模块是空间行动能力:AI可以直接调用地图底层工具,操作路线规划、发起导航、标注推荐地点。这不是说给用户听的建议,而是直接干活。
第四个模块是复杂任务处理,高德内部叫”龙虾模式”,背后是QwenPaw任务处理框架。把一个复合需求拆解成多步骤任务,系统来逐步完成——比如”在双井附近找一家评分4.5以上、人均100元以内的淮扬菜,饭后还能遛弯”,系统会先筛餐厅,再以餐厅为中心匹配附近公园,最后把所有结果统一展示在地图上。
多轮对话:不只是记住上下文
传统导航的对话模型是一问一答,而且答了就忘。AI伴行打破的是这个限制。
指代消解是一个基本能力:用户问”前面那个怎么走”,系统能把”那个”转化为当前摄像头可识别、且符合前文语境的参考物。这听起来简单,实际上需要系统维护一个持续更新的场景理解,而不只是处理当前这一句话。
更复杂的是记忆与跨域查询。用户只说”去省立历史博物馆”,系统能结合历史对话补全模糊表达,精准匹配位置。
中途插入的临时需求也能处理。在景区导览进行中,用户突然问最近的洗手间在哪,系统结合当前位置给出即时导航,不会打断也不会丢失正在进行的主线任务。
这些能力加在一起,是把一个原本无状态的工具变成了有状态的系统。它知道你在哪、走了多久、刚才说了什么、现在想要什么。
步行为什么是起点
AI伴行目前只对步行导航开放,驾车场景尚未进入。
高德的逻辑是:步行场景需求更碎片化,更依赖环境信息,最能体现AI理解现实世界的能力。相较于驾车,步行的安全容错空间也更大——走错了可以折回,不会产生即时安全风险。
目前产品已启动测试,正稳步扩大开放范围,高德表示预计近期向更多用户提供体验。具体的邀请逻辑和时间表没有公开。
这也是一个信号:从导航工具向”出行伙伴”的转变,高德选择先在容错最高的场景里跑数据,而不是一次性铺开。
两个方向上的铺垫
AI伴行不是孤立的产品动作。
在模型侧,高德2026年初发布了自研世界模型FantasyWorld,在WorldScore Leaderboard上拿到综合第一,方向是高品质3D世界构建。这和AI伴行的场景感知能力之间有直接的技术关联,但高德没有明确说明FantasyWorld在AI伴行里的具体角色。
在生态侧,通义千问App已于2025年底全面接入高德地图,实现”问答即服务”的出行模式——在千问里问问题,导航直接出来。这是上游流量入口的整合。
在车载侧,北京车展上宝马与阿里云联合推出AI智能座舱助手,含”出行伙伴”功能,由全新BMW iX3长轴距版率先搭载。这是同类技术在车端的延伸。
三个方向——世界模型、问答入口、车载应用——和AI伴行指向同一个目标:出行场景的AI化。目前各部分之间的技术整合程度如何,高德没有对外说明。
“搜索工具”之后
高德自己对这次发布的定位很清晰:”从’搜索工具’升级为持续理解环境、提供建议、主动协助决策的出行伙伴。”
这个转变的技术基础是:实时感知加上多轮记忆加上工具调用能力。三者缺一不可——只有感知没有记忆,就是一个不记得你刚才说什么的助手;只有记忆没有工具调用,就是一个给建议但不能帮你执行的顾问。
现在,步行导航的用户已经可以通过导航页面下方的”按住说话”按钮和它交互。后续能延伸到哪些场景、摄像头功能在驾车模式下能否安全使用,要等高德自己来给答案。