
你是一个AI智能体。
你被放进一个陌生环境,身边还有一个从未见过的队友。
你不知道它会怎么行动,不知道它的策略,也看不到它的“内心”。
但你做了一件很像人类的事:
你开始想象它。
你在脑子里模拟它可能要去哪里、想做什么、会不会配合你、会不会突然改变计划。
换句话说,AI开始“梦见”队友了。
这正是论文 《Dreaming Of Others: Latent Teammate Modeling In World Models For Multi-Agent Reinforcement Learning》 想表达的核心思想。
这篇工作被 2026 World Modeling Workshop 接收,并于 5 月 29 日挂上 arXiv。虽然它目前更像是一篇概念性论文,但提出的问题非常有意思:
世界模型不应该只模拟物理世界,也应该模拟“别人怎么想”。
01
过去的AI,只会梦见世界
先说什么是世界模型。
在强化学习里,世界模型的思路很直观:
让AI先学会一个“脑内世界”。
它不用每次都真的去环境里试错,而是可以在自己的模型里提前想象:
如果我这么做,会发生什么?
如果我走这条路,会不会失败?
如果我改变策略,结果会不会更好?
DeepMind 的 Dreamer 系列就是代表。它让智能体在“梦境”中进行大量想象 rollout,然后用这些想象出来的经验训练策略。
这有点像人类下棋:
高手不会真的把棋子一步步乱走,而是在脑子里预演很多种可能。
AI也是如此。
只不过,过去的世界模型主要梦见的是:
环境怎么变化。
比如门会不会打开,箱子会不会移动,奖励会不会出现。
但问题来了。
真实协作任务里,影响结果的不只有环境。
还有队友。
02
一旦有队友,世界就“不稳定”了
单智能体强化学习里,环境通常被假设是相对稳定的。
你做一个动作,环境给一个反馈。
但多智能体场景完全不同。
因为你的队友也在学习,也在决策,也在变化。
今天它喜欢往左走,明天它可能学会了往右走。
这一刻它想搬箱子,下一刻它可能突然去拿钥匙。
对你来说,队友不是背景。
队友本身就是环境的一部分。
更麻烦的是,你通常看不到队友的策略,也不知道它真正的意图。
你只能通过它的行为猜测:
它是不是要配合我?
它是不是误解了任务?
它是不是有自己的计划?
这就是多智能体协作最难的地方:
你必须和一个你看不懂的队友合作。
03
传统方法:要么开上帝视角,要么共享大脑
多智能体强化学习里,常见路线大致有两类。
第一类是 CTDE,也就是“中心化训练、去中心化执行”。
训练时给智能体开上帝视角,让它们看到全局信息;真正执行时,再让每个智能体只用自己的局部观测行动。
MAPPO、QMIX 这类方法都属于这一大类。
第二类是把世界模型扩展到多智能体系统里。
比如 MA-Dreamer、CoDreamer 等方法,会让多个智能体共享某些潜在状态,或者在统一的想象空间里协同训练。
这些方法当然很强。
但它们往往隐含一个前提:
训练时可以拿到比较丰富的中心化信息,或者智能体之间可以共享某些内部表示。
可现实世界未必如此。
人类协作里,我们很少真正知道别人脑子里在想什么。
我们更多时候是在观察、猜测、修正,再继续协作。
这篇论文的切入点就在这里:
不靠上帝视角,不靠通信信道,而是让每个智能体自己建模队友。
04
核心思想:把队友“塞进”世界模型
这篇论文最有意思的地方,是它把世界模型拆成了两部分。
过去,世界模型通常只压缩一个整体潜在状态。
现在,作者提出可以把潜在状态分解为:
z_t = [z_t^env, z_t^team]其中:
z_t^env 表示环境状态。
它负责建模物理世界,比如位置、物体、地形、任务进展。
z_t^team 表示队友状态。
它负责建模队友的行为模式、意图倾向和可能动作。
这一步很关键。
因为它意味着,AI脑中的“世界”不再只是地图、障碍物和奖励。
它还包括另一个智能体。
也就是说:
世界模型开始拥有社会维度。
05
AI如何“读懂”队友?
当然,AI并不是真的读心。
它做的是行为推断。
论文中引入了一个类似“心智理论”的模块,也就是 Theory-of-Mind 头。
这个模块会根据局部观测到的队友行为,推断队友的潜在嵌入。
比如:
它经常先去拿食材,说明它可能偏向准备型角色;
它总是靠近目标区域,说明它可能在主动完成任务;
它突然改变路线,可能意味着它发现了新的机会或障碍。
这些信息会被压缩进 z_t^team。
然后,智能体在自己的“梦境”中训练策略时,不再只想象环境怎么变。
它还会想象:
这个队友可能怎么行动?
我该如何配合它?
如果它换一种风格,我还能不能协作?
这就是标题里的“梦见队友”。
不是文学修辞,而是技术路径。
06
真正厉害的地方:遇到陌生队友也能协作
这个方向最值得关注的能力,是零样本协作。
什么叫零样本协作?
就是AI遇到一个从没见过的队友时,不需要重新训练,也能马上配合。
这在人机协作、多机器人协作、自动驾驶、游戏AI、智能制造里都非常重要。
因为现实世界中的队友不可能永远固定。
你今天合作的是这个人,明天可能换成另一个人。
每个人的习惯、节奏、偏好都不同。
一个真正有用的AI,不应该只会和“训练时见过的队友”合作。
它应该能观察几步,就大致判断:
这个队友是什么风格?
它想怎么完成任务?
我应该主动补位,还是让它主导?
这篇论文提出的队友潜在建模,正是朝这个方向迈了一步。
07
为什么这件事重要?
我认为这篇论文值得关注,不是因为它已经给出了惊艳实验结果。
事实上,它目前更像是一个概念框架,实验验证还没有完全展开。
它真正重要的地方在于,它把一个长期被忽略的问题摆到了台面上:
AI要想协作,就不能只理解世界,还要理解队友。
过去的世界模型,更像是“物理世界模拟器”。
它关心的是物体怎么动、状态怎么变、奖励怎么来。
但未来的世界模型,可能还要变成“社会行为模拟器”。
它不仅要回答:
如果我这样做,世界会怎样?
还要回答:
如果我这样做,队友会怎么理解?
如果队友这样行动,它可能想表达什么?
我怎样才能和它形成默契?
这才是真正的协作智能。
08
从多智能体,到人机协作
这个方向还有一个更大的想象空间:
人机协作。
人类比AI队友更复杂。
人类会犹豫,会犯错,会临时改变计划,也会有自己的偏好和习惯。
如果AI只能按照固定策略行动,它就很难成为真正可靠的助手。
但如果AI能通过世界模型模拟人的潜在行为模式,它就可能变得更“懂人”。
比如在协作厨房里,它能判断人类下一步可能要拿盘子;
在智能驾驶中,它能推断其他驾驶员的意图;
在机器人协作中,它能提前补位,而不是等命令;
在复杂任务规划里,它能根据人的风格调整自己的动作。
这听起来像“读心”。
但更准确地说,是基于观察的行为建模。
AI不是知道你在想什么。
而是通过你的行为,构建一个关于你的动态模型。
09
当然,挑战也不少
这个方向很有潜力,但问题也很明显。
第一,队友数量增加怎么办?
一个队友还好,如果有十个队友,z_t^team 怎么设计?是每个队友一个表示,还是整体压缩成团队状态?
第二,想象会不会越想越错?
如果队友建模本身有误差,那么在世界模型里反复 rollout,误差可能会被不断放大。
第三,如何证明它真的理解了队友?
模型预测动作准确,不一定代表它理解了意图。
它可能只是学到了表面相关性。
第四,实验还需要补上。
这篇论文目前最吸引人的地方是思想,而不是结果。它提出了评估方向,比如 Multi-Agent Particle Environments、Overcooked-AI、Melting Pot 等,但真正的性能提升还需要后续实验验证。
10
写在最后:AI协作的下一步,是“想象他人”
这篇论文最后有一句话很漂亮:
智能体不仅要梦见它所处的世界,也要梦见共享这个世界的其他心智。
这句话概括了整篇工作的野心。
世界模型过去解决的是“我如何理解环境”。
而多智能体世界模型要解决的是:
我如何理解和我一起行动的别人。
这也许是AI从“单体智能”走向“协作智能”的关键一步。
当AI不仅能预测物理世界,还能模拟队友行为、理解协作意图、适应陌生伙伴时,它就不再只是一个会执行任务的工具。
它开始像一个真正的合作者。
所以,“AI梦见队友”听起来像科幻。
但它背后的问题非常现实:
未来的AI,究竟是一个孤独的决策者,还是一个能理解他人的队友?
这篇论文给出的答案是:
先让它学会,在脑子里想象别人。
参考论文
标题:Dreaming Of Others: Latent Teammate Modeling In World Models For Multi-Agent Reinforcement Learning作者:Tomas Leroy-Stone会议:2026 World Modeling Workshop PosterarXiv:2605.31361
夜雨聆风