
让AI学会“记路”
TrajRAG

用终身记忆破解零样本导航难题

前言 / INTRODUCTION

想象一下,让一个AI智能体进入一个完全陌生的房间,只告诉它“找到沙发”,它该如何高效探索而不走回头路?
传统的零样本目标导航方法依赖大语言模型或视觉语言模型的常识,但这些知识来自网络文本,缺乏真实的3D空间体验。更重要的是,每次导航的经历都被丢弃,AI无法像人类一样积累“认路”的经验。
今天介绍的这篇CVPR 2026工作《TrajRAG: Retrieving Geometric-Semantic Experience for Zero-Shot Object Navigation》提出了一个革命性框架。它让AI智能体能够持续积累导航经验,并在新任务中检索相似的空间布局记忆来辅助决策,实现了从“每次从头摸索”到“借鉴历史经验”的范式转变。
没有“记忆”的导航者

困局
现有基于大模型的零样本导航方法主要分为两类(如图1所示):
单步上下文(图1a):规划器(LLM/VLM)只接收当前时刻的原始文本观察。缺乏情景记忆导致重复探索和折返。
情景上下文(图1b):将情景记忆构建为提示进行推理,但每次任务后记忆即被丢弃。大模型依赖的网络知识缺乏对具体3D空间布局的体验。

这两种方法都未能建立可迁移、可积累的“长期记忆”。而人类导航恰恰依赖于将短期情景记忆巩固为长期经验。

TrajRAG
——构建终身导航记忆库

破局
TrajRAG的核心是建立一个不断增长的“长期”导航记忆库,它实现两大目标:
(1) 持续积累情景记忆;
(2) 检索几何-语义经验来增强大模型推理。

01
核心表示:拓扑-极坐标轨迹

原始观察序列(RGB-D图像流)存在大量冗余(如局部折返、跨情景的空间重叠)。为此,论文提出了拓扑-极坐标轨迹这一紧凑表示。
拓扑骨架:对语义地图中的可通行区域进行骨架化,提取关键拓扑节点。这提供了轨迹的结构化表示,并能通过检测和剪枝冗余段来实现自检。
极坐标扇区:以每个节点为中心,将周围空间离散化为12个30°的扇区。每个扇区记录观测到的语义标签(物体、障碍物、未知或空闲)。这种表示捕获了相对的几何-语义布局,对不同起点的轨迹具有不变性,成为匹配的“指纹”。
02
分层记忆结构:从粗到细高效检索

TrajRAG采用分层分块架构来组织海量的拓扑-极坐标轨迹:
块:对应一条具体的轨迹,包含轨迹本身、自然语言描述及其嵌入向量。
粗索引:将几何-语义相似的轨迹块分组,合并为一个统一的拓扑-极坐标摘要图,概括该组的整体布局。检索时,先与摘要图进行粗匹配,快速定位相关组。
细索引:在相关组内,使用专门的轨迹编码器将轨迹编码为向量,进行高效的细粒度相似性检索,找到最相关的几条具体历史轨迹。
03
增量构建与匹配

新的导航轨迹在加入记忆库前,会与现有摘要进行语义匹配(使用旋转不变的扇区向量相似度)和几何匹配(使用RANSAC估计2D刚体变换)。只有非冗余的新轨迹才会被整合,更新相应的摘要图或创建新组,确保记忆库紧凑且信息丰富。

性能全面提升与精准检索

成效
论文在MP3D、HM3D-v1、HM3D-v2三个标准数据集上进行了全面评估。
01
导航性能显著领先


如表5所示,集成TrajRAG的导航框架在多个数据集上全面超越了之前的SOTA方法。例如,在HM3Dv1数据集上,TrajRAG将成功率提升至61.7%,SPL提升至33.2%,显著优于依赖情景记忆或纯大模型推理的方法。
02
消融实验验证核心设计



消融实验证实:完整的拓扑-极坐标表示(结合几何与语义)是关键;本文设计的序列编码器能更好地捕获轨迹结构;TrajRAG的检索机制优于简单的文本或图检索方法。
03
精准的跨场景经验检索


如图3所示,TrajRAG能够实现精准的跨场景经验匹配。智能体在当前场景(部分可见)中观测到的布局,能够触发记忆库中不同房屋、但布局相似的历史成功经验,从而获得“接下来往哪走可能找到目标”的宝贵提示。
04
动态决策过程可视化


如图4所示,在寻找“床”的任务中,智能体基于当前构建的骨架地图(红色关键点)生成了多条通往不同前沿的候选轨迹(浅色线)。通过检索相关经验,规划器最终选择了其中一条(深红色轨迹),并成功导航至目标。

启示 / 迈向具身智能的“经验主义”

TrajRAG的工作标志着零样本导航从“依赖静态知识”到“积累动态经验”的重要一步。
经验即知识:它将每次导航的几何-语义体验结构化、持久化,构建了属于智能体自身的、可迁移的“空间常识”库。
检索增强规划:通过检索相关历史经验来增强大模型的推理,巧妙地将场景无关的常识与场景特定的经验相结合,提升了决策的准确性和效率。
终身学习框架:其增量式构建机制为具身智能的终身学习提供了一个可扩展的范例。智能体越“走”越“聪明”,真正实现了经验的复利。
这项工作如同为AI智能体装上了“空间经验地图”,让它不仅能看懂眼前的世界,还能在记忆的“数据库”中检索似曾相识的布局,从而做出更明智的探索决策。这为在未知环境中实现真正高效、通用的自主导航开辟了新路径。
联系方式
派动科技专注于全行业人工智能算法和模型的研发,以及全行业人工智能总体解决方案的工程化落地。
经典案例包括:
1️⃣ 医疗影像识别
2️⃣ 空间单细胞转录
3️⃣ 中医药有效成分检测
4️⃣ 中医药重金属及农残检测
5️⃣ 烟草等级分类
6️⃣ 各行业产品缺陷检测
7️⃣ 各类空间中人员的危险监测及预警
8️⃣ 工业设备的预测性维护
……
欢迎对人工智能技术或工程感兴趣的朋友
随时与我们交流!

派动科技
公司名称 | 上海派动科技有限公司
公司地址 | 上海市浦东新区环科路浦东国际人才港14号楼, AI驿站
联系邮箱 | zhongbing@pydance.cn
联系电话 | 19988102352
人工智能 创造未来
论文链接:https://arxiv.org/abs/2605.01700
(本文核心观点、数据与图表引用均基于上述论文原文)
夜雨聆风