高通AI研究院突破!MAPLE算法实现端到端自动驾驶闭环训练,多智能体博弈无需模拟器!

公众号论文知识库问答助手

智驾人速藏！这个免费问答助手，能直接和最新精选智驾论文对话！告别论文大海捞针！

点击下方名片, 关注智驾通鉴公众号

长按识别下图二维码，加入智驾通鉴交流群

（合作交流投稿可加管理员微信insightagent01）

MAPLE：面向端到端自动驾驶的潜在多智能体博弈

论文卡片

MAPLE提出了一种基于视觉-语言-动作（VLA）模型潜在空间的多智能体闭环训练框架，通过自回归滚动和多样性强化学习，在无需外部模拟器的情况下实现了端到端自动驾驶的SOTA性能。

论文框架: MAPLE 预训练和未来状态预测。左：使用辅助监督（例如地图学习、检测和运动预测）预训练 VLA 主干网络。右：状态转移预训练，通过时间范围 T 预测下一步的自我/代理状态以稳定标记空间。

论文效果: Bench2Drive 上 BEV 定性对比（闭环）。相同路线/场景的鸟瞰视图可视化（RouteScenario_25951_rep0, HazardAtSideLaneTwoWays_1, weather_id=7）。左：ReCogDrive [27]。右：MAPLE（本文的方法）。叠加了规划的自我轨迹，说明在相同情境下的不同交互结果。

主要结果: 统一比较闭环、开环和多能力性能在Bench2Drive基础集上的表现。Avg. L2表示在2秒内以2 Hz的平均轨迹误差。NC = 导航命令，TP = 目标点。† 表示使用几何路径路点监督训练的模型，并用SimLingo中的PID控制器进行评估。

论文信息

• 标题: MAPLE: Latent Multi-Agent Play for End-to-End Autonomous Driving
• 论文: https://arxiv.org/abs/2605.14201v1
• 附言: 19 pages, 9 figures, NeurIPS 2026 submission
• 作者: Rajeev Yasarla, Deepti Hegde, Hsin-Pai Cheng, Shizhong Han, Yunxiao Shi, Meysam Sadeghigooghari, Hanno Ackermann, Litian Liu, Pranav Desai, Fatih Porikli, Mohammad Ghavamzadeh, Hong Cai
• 单位: Qualcomm AI Research, Qualcomm Technologies, Inc
• 日期: 2026-05-13 23:35:14
• 领域: Robotics (cs.RO), Computer Vision and Pattern Recognition (cs.CV)
• 页数: 19 pages, 10 figures, 9 tables

论文概述

研究背景与问题

当前研究领域的背景端到端（E2E）自动驾驶通过统一感知、预测和规划模块，成为自动驾驶研究的热点。近期基于VLA模型的方法（如GPT-Driver、ORION）通过语言指令和多模态推理提升了复杂场景的鲁棒性，但其训练依赖于开放环路的模仿学习，无法建模闭环环境中智能体间的动态交互。

现有方法存在的问题和局限性

1. 闭环交互建模不足：现有VLA模型在训练时将周围智能体视为非反应性对象，导致部署时因协变量偏移（covariate shift）而失效。
2. 依赖外部模拟器：基于强化学习（RL）的方法需依赖符号化模拟器（如CARLA），但这类模拟器计算成本高、视觉保真度低，难以扩展到真实场景。
3. 轨迹标签稀疏性：真实驾驶日志中的轨迹标签仅覆盖有限的动作空间，限制了策略的泛化能力。

论文方法

方法概述MAPLE通过在VLA模型的潜在空间中进行多智能体自回归滚动（autoregressive rollout），实现闭环训练。具体步骤如下：

1. 潜在空间建模：将车辆和周围智能体的状态编码为包含动力学、类型、地图信息等的潜在token。
2. 多阶段训练：

• 监督微调（SFT）：基于真实轨迹标签，通过自回归滚动联合优化主车和反应性智能体的轨迹预测。
• 强化学习（RL）：引入全局安全奖励、个体进步奖励和多样性奖励，鼓励生成多样化且安全的交互行为。

3. 多样性奖励设计：通过行为描述符（如平均加速度、最小TTC）计算不同规划器之间的轨迹差异，防止策略坍缩。

技术实现细节

• 潜在token编码：使用预训练的视觉-语言模型（Qwen2.5-1.5B-VL）提取多视角图像特征，并结合地图分割和运动预测模块生成token。
• 自回归滚动：在8步时间范围内（4秒）逐步预测主车和反应性智能体的token，通过解码器生成轨迹。
• 奖励机制：

• 全局奖励：基于碰撞惩罚和场景稳定性计算。
• 个体奖励：结合路线完成度（RC）、TTC惩罚和进度损失（Lprog）。
• 多样性奖励：通过行为描述符的ℓ1距离衡量不同规划器的轨迹差异。

核心创新点

1. 潜在空间多智能体滚动

• 首次在VLA模型的潜在空间中实现闭环多智能体交互训练，无需像素级模拟器，显著降低计算成本。
• 通过自回归滚动建模主车与反应性智能体的多步交互，支持动态场景演化。

2. 多样性感知强化学习

• 提出基于行为描述符的多样性奖励，鼓励生成超越真实数据的长尾场景（如激进合并、紧急制动），提升策略鲁棒性。
• 使用Group Relative Policy Optimization（GRPO）优化多规划器策略，避免策略坍缩。

3. 无需外部模拟器的扩展性

• 训练完全依赖潜在空间滚动，无需外部图形引擎或扩散生成器，解决了传统模拟器的高成本和低保真问题。

实验结果

实验设置和数据集

• 数据集：在Bench2Drive基准上进行实验，包含1,000段驾驶片段，覆盖44种交互场景。
• 对比方法：与UniAD、VAD、SimLingo等SOTA方法对比。

主要实验结果

• 性能提升：MAPLE在Driving Score（DS）上达到85.2，比SimLingo（85.1）和ReCogDrive（87.1）分别提升0.1和2.1，且Success Rate（SR）达67.1%。
• 多能力测试：在合并（80.7%）、超车（88.1%）、紧急制动（78.1%）等复杂场景中均优于基线方法。

消融实验

• 多规划器策略：启用多规划器（Multi-Planner）使DS提升4.8%，SR提升7.7%。
• 多样性奖励：引入多样性奖励后，DS进一步提升1.7%，验证了其对长尾场景的有效性。

结论与影响

主要贡献

• 提出首个无需外部模拟器的闭环多智能体训练框架，通过潜在空间滚动和多样性强化学习，显著提升了端到端自动驾驶的鲁棒性。
• 在Bench2Drive基准上实现SOTA性能，尤其在复杂交互场景中表现出色。

对领域的影响

• 降低训练成本：潜在空间滚动避免了高成本的像素级模拟，为大规模闭环训练提供新范式。
• 推动长尾场景研究：多样性奖励机制为生成安全且多样化的交互行为提供了有效手段。

未来工作方向

• 物理仿真融合：探索潜在空间滚动与物理动力学模型的结合，提升高精度场景的保真度。
• 真实数据扩展：在真实驾驶数据基础上构建闭环训练框架，验证方法的泛化能力。

论文精读

摘要

视觉-语言-动作（VLA）模型作为端到端运动规划器是有效的，但由于是在传统的模仿学习框架下训练的，因此在闭环环境中评估时可能表现出脆弱性。现有的闭环监督方法缺乏可扩展性，并且无法完全建模反应式环境。本文提出MAPLE，一种新颖的框架，用于在VLA模型的潜在空间中对动态驾驶场景进行反应式、多智能体的滚动操作。自我车辆和附近的交通参与者在多步时间范围内独立控制，同时对场景中的其他智能体做出反应，从而实现闭环训练。MAPLE包括两个训练阶段：(1) 基于真值轨迹的潜在滚动上的监督微调，随后是 (2) 使用全局和特定智能体奖励的强化学习，这些奖励鼓励安全性、进展和交互的真实性。此外，论文还提出了多样性奖励，以鼓励模型生成可能不会出现在记录的驾驶数据中的规划行为。值得注意的是，本文的闭环训练框架具有可扩展性，不需要外部模拟器，而后者运行起来计算成本高昂，并且与现实世界的视觉保真度有限。MAPLE在Bench2Drive上实现了最先进的驾驶性能，并展示了可扩展的闭环多智能体交互，为鲁棒的端到端自动驾驶系统提供了支持。

1 引言

端到端（E2E）自动驾驶已成为一种有前景的范式，它将感知、预测和规划统一到一个学习模型中。最近的E2E规划器，如UniAD [13] 和 VAD [21]，在监督学习下表现出色，但通常难以泛化到长尾和交互式驾驶场景。视觉-语言-动作（VLA）模型通过将驾驶行为植根于语言并利用大型多模态模型的推理能力，进一步推进了这一研究方向。GPT-Driver [31]、EMMA [15]、DriveVLM [40] 和 Senna [22] 等方法在复杂驾驶情境中显示出更强的鲁棒性，而 ORION [9] 和 SimLingo [33] 则加强了语言与运动规划之间的一致性。

现有的视觉语言代理（VLA）规划器的一个核心限制在于，其训练主要以开环方式在大规模记录的驾驶数据上进行监督微调 [9, 50, 33]。因此，这些模型并未明确建模自车与其他交通参与者之间的闭环交互，并且通常在训练过程中将周围智能体视为无反应的。这一差距在部署时变得尤为关键，因为实际驾驶本质上是闭环和多智能体的，需要持续适应其他智能体行为的变化。因此，这些模型会受到协变量偏移的影响，即与演示轨迹的小偏差会随时间累积并导致规划失败 [6, 24]。此外，从驾驶日志中提取的真值轨迹标签非常稀疏，也就是说，它们仅捕捉了动作空间中可能轨迹的一小部分，这使得仅从这些标签中学习鲁棒策略变得具有挑战性 [24]。这些限制突显了对训练机制的需求，该机制应能明确支持闭环、多智能体交互，理想情况下无需依赖成本高昂且难以扩展的模拟流水线。

强化学习（RL）提供了一种自然的方法，通过交互优化策略来执行闭环训练。先前的研究表明，在模拟环境中使用自我博弈和反应式智能体进行的大规模RL可以产生高度鲁棒的运动规划器 [5, 16]。然而，这些方法依赖于操作符号表示的外部模拟器，例如地图、边界框和车辆状态 [11, 10, 38, 4, 5]。虽然这些符号模拟器能够实现可扩展的RL，但它们无法直接应用于处理原始感官输入的端到端（E2E）VLA模型。将RL扩展到E2E规划器需要在像素级别模拟反应式智能体和未来观测结果，这在计算上代价高昂，且使用图形引擎、点绘方法或基于扩散的图像生成技术难以扩展 [7, 14]。此外，像素级别的模拟器通常表现出有限的视觉保真度，并与真实世界数据存在分布不匹配的问题，进一步阻碍了迁移效果。这些挑战促使本文提出一种方法，即在VLA的潜在空间中直接启用RL，从而避免像素级别的模拟，同时仍支持闭环、多智能体交互的学习。

本文的目标是为端到端运动规划器实现这种可扩展的闭环训练形式。为此，本文提出了MAPLE，这是一种在VLA模型潜在空间中模拟自车和多个反应型智能体行为的框架。这解决了在存在反应型智能体的情况下，同时模拟感知数据并训练端到端规划器的闭环环境中的挑战。多样性奖励在训练时鼓励周围智能体表现出分布外的行为，从而提供更丰富的反馈信号。

本文的贡献如下。

• 在SFT和RL中进行多智能体场景的潜在空间回放。本文引入了一种无需模拟器的多智能体回放机制，通过VLA模型潜在空间中的自回归回放，联合演化自车和周围的反应型智能体。这使得在训练过程中完全在潜在空间中实现闭环、多步的智能体交互，与像素级训练相比显著降低了计算成本，并且在推理时可以移除而不会产生额外开销。

• 多智能体博弈中的多样性感知强化学习。为了鼓励超越记录驾驶数据的异构且真实的交互，本文在强化学习阶段引入了多样性感知奖励，明确促进不同的智能体行为。这导致了更丰富的多智能体交互，并提高了闭环驾驶策略的鲁棒性。

• 在闭环自动驾驶基准测试中取得最先进的性能。在Bench2Drive基准上的大量实验和消融研究表明，所提出的多智能体回放机制和多样性感知强化学习显著提升了驾驶性能，将驾驶得分提高了25%以上，达到了新的最先进水平，并增强了在复杂多能力驾驶场景中的鲁棒性。

2 相关工作

端到端和VLA模型用于自动驾驶。早期的E2E规划器如UniAD [13]和VAD [21]将感知、预测和规划统一在一个流程中，但在长尾泛化方面存在困难。VLA模型通过语言来实现运动的定位解决了这一问题。GPT-Driver [31]将规划视为带有思维链推理的文本生成[42]。EMMA [15]将其扩展到大规模多模态语料库。DriveVLM [40]和Senna [22]将一个VLM与传统规划器或元动作头配对。ORION [9]和SimLingo [33]进一步加强了语言-轨迹的一致性。ReCogDrive [27]和DiffRefiner [46]通过识别驱动的规划和基于扩散的优化提高了闭环鲁棒性，但仍依赖于静态记录的轨迹进行训练。尽管有这些进展，所有这些方法都将周围的智能体视为非反应性的，使得闭环多智能体动力学研究不足。MAPLE通过在潜在token空间内完全实现自我车辆和附近智能体的反应式协同规划来弥补这一差距。

▲ 图1：MAPLE预训练和未来状态预测。左图：使用辅助监督（例如地图学习、检测和运动预测）预训练VLA骨干网络。右图：状态转移预训练，通过时间范围T预测下一步自我/智能体的状态以稳定token空间。

多智能体模拟和自我博弈。轨迹预测方法[12, 35, 49]从固定观测中建模联合智能体的未来，但不支持交互式规划。自我博弈在游戏[36, 41]和操作[1]中产生了强大的策略。最近，自我博弈已应用于自动驾驶以获得鲁棒策略[5]。然而，这仅限于使用边界框、地图和车辆状态在符号空间中进行规划。对抗性场景生成[32, 47]合成安全关键行为，但仍依赖于符号规划器，而不是学习的VLA策略。将自我博弈扩展到端到端规划器需要在像素级别模拟未来观测。图形引擎[7]、高斯点绘和基于扩散的生成器[14]可以生成此类输入，但计算成本高、视觉保真度有限，并且对于交互式多智能体展开效果较差。MAPLE提供了一种新颖的框架，可以直接在VLA模型的潜在空间中实现多智能体交互式博弈，无需外部模拟器或图像渲染/生成。

多样的动作生成和基于强化学习（RL）的策略优化。基于扩散的规划器，包括DiffusionDrive [28]、DiffusionPlanner [48] 和 GoalFlow [44]，通过随机采样捕捉多模态轨迹分布，但并未在训练过程中明确鼓励行为多样性，这使得它们在进行RL微调时容易出现模式崩溃 [25]。GRPO [34] 已被应用于 AlphaDrive [23]、R2SE [29] 和 TrajHF [26] 中的驾驶任务，通过基于规则的奖励提高策略稳定性，尽管每个方法都为每个智能体分配了一个单一的规划器。GenDrive [14] 在扩散策略中增加了奖励建模，但仍依赖于模拟器。MAPLE 解决了这两个问题：它为每个智能体分配多个离散的规划器，并通过具有多样性感知能力的 GRPO 奖励惩罚行为重叠，从而防止模式崩溃，并在不使用任何外部模拟器的情况下生成丰富且对安全性至关重要的长尾场景。

3 提出的方法

本文提出 MAPLE，一种用于端到端运动规划的新框架，在视觉-语言-动作（VLA）模型的潜在空间中执行闭环多智能体展开。自车和邻近智能体被表示为紧凑的潜在标记，编码速度、加速度、位置、地图标签和交通状态。给定一个潜在的自车标记、潜在的智能体标记以及高层次的场景描述，MAPLE 通过以自回归方式预测未来标记来展开未来场景。这使论文能够对场景中智能体之间的交互进行建模。动作规划和运动预测头通过一系列奖励进行监督，以鼓励安全且多样化的驾驶行为。图2和图3展示了本文提出的 MAPLE 框架中的多智能体展开机制概览。

3.1 问题设定

给定时间 t 的多视角相机图像，本文的目标是预测一条安全的自车轨迹，其中 T 是规划时间范围，同时考虑周围交通参与者的未来发展。与仅针对自车的规划器不同，后者通过真实轨迹回放来建模邻近智能体的行为，本文则采用反应式智能体进行决策，其中自车的计划取决于由学习策略控制的智能体的预期行为。

▲ 图2: MAPLE监督微调（SFT）阶段。左：单步监督和推理。VLA骨干网络将多视角图像（和地图特征）编码为自我车辆令牌和代理令牌，这些令牌由自我规划器、反应式代理规划器和运动头部进行解码。右：在基于模仿学习的场景回放中，相同模型展开T步。预测的令牌/轨迹以自回归方式反馈，用于监督自我车辆和反应式代理规划的时间范围，同时预测背景代理的运动。

本文将代理分为(i)一组可能与自我车辆交互的反应式代理，以及(ii)行为不太可能影响自我车辆的背景代理。自我车辆和反应式代理的未来状态以自回归方式展开，而背景代理的未来轨迹则通过回归直接预测。

3.2 MAPLE架构

MAPLE是VLA模型的闭环训练框架。该框架包括一个视觉编码器、一个地图编码器、一个大型语言模型（LLM），以及与目标检测、地图分割、运动预测和动作规划相关的多个任务特定头部。动作规划头部是一个变分自编码器，它将自我车辆和反应式代理令牌解码为其各自的轨迹路点 [9]。运动预测头部是一个多层感知机，它从背景代理令牌回归未来的轨迹。架构概览如图2所示。

3.3 预训练

为了学习自我车辆和代理动态的一致性自回归场景生成的稳定令牌化，VLA模型首先被预训练以执行三维目标检测、地图分割、代理运动预测和交通灯分割等辅助任务。所有辅助预训练损失及其权重的详细定义见附录F.1节。这些任务促使共享的骨干网络将几何形状、语义信息和交通上下文编码到可以随时间可靠解码的潜在代理令牌中。模型还被训练以预测自我车辆和周围代理的未来状态。MAPLE未来状态预测的概览如图1所示。

未来状态预测。时间 t 处交通参与者的状态由四个有序的 token 表示：，其中编码代理的动力学信息（例如位置、朝向、速度、加速度），是一个分类 token，取值范围为 {car, truck, pedestrian, cyclist}，

本文定义未来状态预测损失为以下两部分的加权组合：(i) 离散状态标签

其中和表示模型预测和交叉熵损失，，以及是损失项的权重。整体预训练目标是通过最小化3D目标检测、地图分割、运动预测和未来状态预测各自损失的总和来实现。

3.4 MAPLE 回滚和训练框架

闭环框架为自车和部分反应式智能体启用语言条件下的场景回滚。目标是在一个紧凑的 token 空间中进行学习，使得 VLA 骨干网络能够以自回归的方式回滚未来的交通状态，并支持在时间范围 T 内的行为感知动作规划。与仅针对自车的规划器相比，MAPLE 显式建模多步交互，具体包括：(i) 联合回滚自车和反应式智能体的状态，以及 (ii) 通过安全性和多样性奖励鼓励多样化的驾驶行为。

3.4.1 多智能体回滚和监督微调

给定时间 t 的一组历史和当前多视角图像以及高层次的场景描述，MAPLE 将场景编码为一个潜在的自车 token 、一组由索引的潜在反应式智能体 tokens ，以及一组由索引的潜在背景智能体 tokens （见图2）。对步骤进行自回归回滚。在每个回滚步骤中，VLA 模型根据当前 tokens 和场景描述预测下一步的 tokens 。这里表示由自回归回滚生成的潜在 tokens，与从记录数据中获得的真实 tokens 相区别。

预测的token被解码为轨迹，并作为下一步rollout的输入，从而从t到生成一个rollout。规划头为自车和反应式智能体生成航路点轨迹：自车规划器将解码为轨迹，而智能体规划器将反应式智能体token解码为轨迹。令表示动作规划器的集合，其中表示反应式智能体规划器的数量。在每次rollout开始时，本文使用作为自车动作规划器，对于每个反应式智能体，根据该智能体的行为选择一个动作规划器。

运动头预测由索引的背景智能体的未来轨迹。背景智能体参与潜在rollout，但它们不受规划头控制。相反，它们的轨迹是通过一个基于当前场景token的运动预测头生成的。这种设计模拟了被动场景动态，同时将显式的决策保留给自车和反应式智能体。

监督微调（SFT）。在SFT阶段，本文进行基于模仿学习的场景rollout，持续步，监督自车和一组反应式智能体，同时预测背景智能体的运动。本文使用真值轨迹监督每一步，为rollout时间范围提供准确的目标。SFT目标损失定义为在rollout时间范围内每一步规划和运动预测损失的总和。

本文用表示用于监督自车和反应型智能体轨迹的规划损失，用表示应用于背景智能体的运动预测损失。规划损失的具体公式在附录第 F.2 节中提供。

3.4.2 训练后强化学习

MAPLE的主要目标是在执行多步场景推演（这些推演会引发广泛的环境动态和自我代理交互）的同时，学习多样且鲁棒的驾驶行为。在这样的设置中，专家演示通常是多模态的（例如，刹车 vs. 让行 vs. 合并），而在分布偏移的情况下，单纯的模仿学习可能次优甚至产生冲突。因此，仅依赖SFT（公式2）不足以处理长尾事件和新颖的反应性交互。为了解决这些问题，并鼓励安全、高保真度和行为多样化的推演，本文引入了一个基于Group Relative Policy Optimization (GRPO) [34] 的在线策略强化学习微调阶段，并采用结构化奖励设计。

奖励结构。在每个推演步骤处，论文计算三种类型的奖励：(i) 一个全局奖励，用于捕捉场景级别的安全性和稳定性；(ii) 一个车辆特定奖励，用于鼓励每个受控代理的进步和安全驾驶；(iii) 一个多样性奖励，用于促进不同规划器/策略之间的多样化行为。

▲ 图3: MAPLE 强化学习微调阶段。从SFT模型开始，论文在步内优化多步推演，使用具有安全性感知和交互感知的奖励（例如，碰撞避免和TTC）进行强化学习。

在时间 t，论文定义总推演奖励为

其中和是全局奖励和多样性奖励，是对自我车辆的车辆特定奖励，而是对每个反应性代理的车辆特定奖励。

全局奖励。全局奖励鼓励无碰撞的长时间推演，并在场景级别上惩罚违规行为。设 l 为在没有发生碰撞的情况下完成的推演步骤数（提前终止会导致较小的 l）。论文定义在时间 t 的全局奖励为，

其中是从预测轨迹计算出的碰撞惩罚。

车辆特定奖励。车辆特定奖励促进路线完成/进展，同时抑制不安全行为，例如低时间到碰撞（TTC）。本文使用分段奖励，并在时间范围内求和：

在此，衡量沿参考路线的增量进展，对缺乏前进进展或偏离期望轨迹的行为进行惩罚，而 ϕ(TTC) 是一个单调惩罚函数，当 TTC 低于安全阈值时会被激活，例如

多样性奖励。为了鼓励多样化的驾驶行为（例如保守与激进的变道）并防止策略崩溃，本文引入了一种多样性奖励，该奖励基于不同动作规划器在 rollout 过程中产生的轨迹。

本文使用一个紧凑的行为描述符 Γ(·) 来总结每个由规划器诱导的轨迹，该描述符捕捉显著属性，如平均加速度、急动度、最小时间到碰撞（TTC）、车道居中误差和换道时机。

在每次 rollout 开始时，自车由一个固定的规划器控制。设表示为反应式智能体选择的规划器索引。对于每个反应式智能体，本文根据智能体的行为类别选择一个规划器并生成一个对应于时间范围 T 的轨迹。然后，这些结果行为描述符被用于优化反应式智能体策略，以增加由规划器诱导的 rollout 中的行为多样性。

令。本文将多样性奖励定义为不同行为指标之间行为描述符的成对距离的平均值：

当不同的规划器选择导致可测量的明显不同（但安全）行为时，该公式会分配更高的奖励。关于描述符、行为类别和多样性奖励的更多细节，请参见附录 B 节。

GRPO 目标。给定时间处的一组条轨迹，本文计算一个组相对基线和优势。然后使用 GRPO 损失优化策略：

其中是时间的场景描述，表示在第次 rollout 的步骤处反应式智能体或自车的采样动作（例如离散规划器选择或动作标记）。

4 实验设置

数据集。本文使用 Bench2Drive 基准 [19] 对 MAPLE 进行训练和评估，该基准是一个基于 CARLA 仿真器 [7] 构建的闭环端到端自动驾驶套件。按照官方基准设置，数据集包含 1,000 个驾驶片段，其中 950 个用于训练，50 个保留用于开环验证。每个片段大约覆盖 150 米，并捕捉了广泛的交通状况和交互模式。闭环性能通过标准的 Bench2Drive 协议进行评估，该协议在涵盖 44 种不同交互场景的 220 条路线上对智能体进行评估。

评估指标。在 Bench2Drive 上，本文采用官方的闭环评估标准，包括 Driving Score（DS）、Success Rate（SR）、Efficiency、Comfort 和 Multi-Ability [19]。Driving Score 反映整体路线完成情况，同时考虑交通违规行为。Success Rate 报告没有失败的情况下完成路线的百分比。Efficiency 和 Comfort 分别量化智能体的驾驶速度和平滑性。Multi-Ability 指标进一步衡量在五种复杂城市驾驶行为中的性能。

模型架构。本文在多模态LLM骨干网络Qwen2.5-1.5B-VL [2] 上实例化MAPLE，以实现端到端的多智能体规划。Qwen2.5文本编码器和LLM生成场景级文本token以及自我/智能体特定的潜在token。对于视觉输入，MAPLE采用一个基于EVA预训练的视觉Transformer（ViT）[8] 和一个Q-Former模块 [9] 从多视角观测中提取图像token。检测头和运动预测头各自由一个多头注意力模块后接三个MLP层组成。未来状态预测头采用相同的架构。规划器集合P中的每个动作规划头均实现为变分自编码器（VAE），遵循现有的VLA规划头 [9]。除非另有说明，MAPLE仅根据导航命令（NC）进行轨迹预测，而不使用显式的车道中心目标，例如目标点（TP）。MAPLE采用无锚点设计，并预测与Bench2Drive对齐的六种轨迹模式。场景回放仅在训练期间使用，在推理时被禁用。

训练。所有实验均在 8 块 NVIDIA H100 GPU 上进行。MAPLE 的训练分为三个阶段。(1) 预训练：12 个周期，包含辅助监督，包括检测、地图分割、运动预测和未来状态预测，以学习鲁棒的潜在 token 表示。(2) 监督微调（SFT）：24 个周期的场景 rollout，采用模仿学习。自回归 rollout 进行步，监督自我车辆和反应代理的规划以及背景代理的运动预测。(3) 后训练强化学习：12 个周期，使用本文提出的奖励机制（第 3.4.2 节），通过步自回归 rollout，利用代理特定、全局和多样性奖励优化自我和反应代理的规划。本文使用 4 帧输入，为反应代理规划器设置，并使用 rollout 水平。为了增加时间覆盖范围，本文以多个时间步长采样 rollout，对应的有效频率为 0.5Hz、1Hz、1.5Hz、2Hz、5Hz 和 10Hz，覆盖最多 12 秒的未来。所有 Qwen2.5-1.5B 参数在各阶段中更新。优化使用 AdamW 和余弦退火，学习率为，权重衰减为 0.01。

▼ 表 1：Bench2Drive 基础集上闭环规划和多能力性能的比较。Avg. L2 表示在 2 Hz 下 2 秒内的平均轨迹误差。此处 Cond. 是应用的条件 NC = 导航命令或 TP = 目标点。† 表示使用几何路径航路点监督训练的模型，并使用 SimLingo 的 PID 控制器进行评估。

5 结果

本文在 Bench2Drive 上对 MAPLE 进行了闭环评估和多能力测试，并与近期最先进的方法进行了比较。此外，本文还对所提出方法的不同方面进行了消融研究。更多结果可以在附录中找到，包括推理计算分析（C 节）、开环评估（D 节）以及额外的定性可视化结果和比较（E 节）。

5.1 闭环评估

定量结果。表1总结了在Bench2Drive上与最先进方法的定量比较，包括对220条测试路线的闭环评估以及对五种具有挑战性的城市驾驶行为的多能力评估：并道、超车、紧急制动、让行和交通标志处理。本文的方法优于所有现有方法，并在关键指标上实现了最先进的性能。值得注意的是，MAPLE所支持的多样化的多智能体驾驶行为在大多数多能力指标上带来了持续的改进，突显了其在复杂交互驾驶场景中的鲁棒性和有效性。本文还在附录D节中报告了开环评估结果。

定性结果。图4展示了所提出的MAPLE在不同环境和交互场景下的闭环性能。在能见度降低的恶劣天气条件下（顶部一行），策略通过平滑地降低速度并在遇到行人和路边障碍物时施加轻微制动，表现出谨慎且稳定的行为。在有车辆、行人和骑自行车者等动态智能体的清晰郊区环境中（底部一行），MAPLE通过逐渐调整转向和加速来适应其规划轨迹，以安全地让行、超车和协商交互。在所有场景中，规划的自车轨迹始终保持平滑和一致，表明在不同环境条件下动作选择连贯且闭环控制稳定。更多定性结果可以在附录E节中找到。

5.2 消融研究

自车智能体展开设置。本文在Bench2Drive闭环评估上进行了消融研究，以分析在不同训练阶段自车智能体展开的影响，如表2所示。基线模型没有引入未来状态估计或展开。在预训练期间引入单步未来状态估计使驾驶得分（DS）比基线提高了2.3分。启用多步自车智能体展开进一步提升了性能，在DS上比单步估计高出4.2分。在监督微调（SFT）阶段引入展开带来了额外的改进，而当展开在整个预训练、SFT和强化学习（RL）阶段一致应用时，取得了最佳性能。与基线相比，这种完整的展开策略使DS提高了12.3分，并将成功率提高了7.9。

▲ 图4：在 Bench2Drive 上使用 MAPLE 进行闭环驾驶的定性示例。论文展示了多种场景中的代表性轨迹，包括能见度有限和行人突然横穿的恶劣天气场景（上排），以及有骑自行车者和周围车辆等动态代理的清晰郊区交通场景（下排）。蓝色曲线表示规划的自车轨迹，突出了交互操作期间平滑且适应性强的行为。

▼ 表2：在 Bench2Drive 上不同训练阶段进行自车仅滚动的闭环消融研究。Roll 表示训练过程中是否启用自车未来滚动。SFT 和 RL 分别表示监督微调和强化学习。

▼ 表3：在 Bench2Drive 上基于滚动的动作规划策略的闭环消融研究。Single：所有代理共享一个规划器。Multi：为代理分配不同的规划器。

单规划器与多规划器。如表3所示，本文在不同滚动设置下对单规划器、多规划器以及具有多样化动作建模的多规划器进行了消融实验。在自车仅设置中，滚动仅应用于自车代理，而通过采用多规划器策略进一步提升了性能。在推理过程中，最终的规划器是根据强化学习阶段学到的奖励似然选择的。自我博弈设置将滚动同时应用于自车和反应代理，并使用一个共享的规划器。多代理博弈扩展了这一设计，通过从池中为不同的反应代理分配不同的规划器。结果一致表明，多规划器方法在驾驶得分方面优于单规划器基线。此外，具有多样化动作建模的多规划器配置优于跨代理共享单个规划器的配置，并且相比仅自车训练，启用反应代理滚动进一步提高了性能。最重要的是，具有多样化动作建模的多规划器设置取得了最佳的整体结果，驾驶得分额外提高了4.8分，成功率提高了7.7分。

附加结果。本文进行了更多的消融研究，以分析一些设计选择的影响，包括反应代理的数量、奖励组件以及 SFT 中的监督损失项，这些内容可以在附录A节中找到。

6 结论

本文介绍了MAPLE，一种无需模拟器的多智能体训练框架，它通过视觉-语言-动作模型中的潜在空间rollouts实现闭环、交互式规划。通过将rollouts扩展到反应式智能体并结合多样性感知的强化学习，MAPLE生成了更丰富的交互，并在数据稀缺的情况下提高了鲁棒性。在Bench2Drive上的大量实验证明了其最先进的闭环性能，突显出MAPLE作为一种可扩展且有效的方法，有助于推动端到端自动驾驶的发展。

局限性。尽管MAPLE表现出色，但它仍有一些局限性。首先，多智能体交互是通过潜在空间rollouts建模，而不是物理模拟。这使得训练快速且可扩展，但在需要极高精度动力学的场景中可能会有有限的保真度。其次，本文的实验主要是在Bench2Drive上进行的。作为未来的工作，当稳健且准确的基于真实数据的闭环模拟器可用时，本文将扩展实验到真实世界的数据。

更广泛的影响。MAPLE提供了一种无需模拟器的多智能体闭环训练框架，提升了端到端自动驾驶模型的鲁棒性。本文的工作可以促进自动驾驶系统的发展，使其在复杂驾驶场景中具有更高的安全性、适应性和性能，特别是在数据稀缺或长尾情况下。