乐于分享
好东西不私藏

世界模型如何预测?举例说明,给新手一些建议

世界模型如何预测?举例说明,给新手一些建议

最近有小伙伴问我这个类似的问题,合并一起回答。

将分三个方面来回答,世界模型的原理,实际应用举例,该如何选择世界模型?

世界模型的原理

世界模型(World Model)的核心本质,是为机器人、自动驾驶、具身智能等智能体构建了一个可交互、可推演的环境数字孪生模拟器;预测的目标不是未来将发生什么,而是如果智能体执行XX 动作,环境、世界会发生什么样的状态变化(有时也会做无动作的 Rollout,纯预测下一状态),这是和其他预测模型最大的区别,也是世界模型的预测未来的主要逻辑。

当然,任何模型的逻辑都是遵循输入、处理和输出,预测的支撑不会是凭空捏造,就像小朋友会看到苹果从树上掉落到地上,而不是失去地心引力直接窜天。

训练方式多为自监督或模型-Based RL,用过去的数据让模型重建、预测下一帧或下一状态,通过最小化预测误差来优化。数据、参数规模越大,模型对物理规律、社会动态的直觉(预测)就越强。主要技术点如下,

1.过去的观测数据和经验

从图像、视频、传感器读数、动作历史等大量真实或模拟数据中学习环境的运行规律。模型它会提取关键特征,像物体位置、速度、物理交互(重力、碰撞等)、因果关系等,而不是记住每一个像素,但目前也有直接研究像素的思路,生成式AI干的多,具身智能倾向于搞表征。

2.压缩的内部表示(Latent Representation)

现实世界太复杂,AI不会逐像素模拟一切,而是把观测压缩成低维的抽象状态(Latent Space)。这个空间捕捉本质动态,比如一个球在空中,而不是所有光影细节,这样能更加高效的预测。

3.当前状态与潜在动作

预测通常是条件性的,给定当前世界状态(或其表示),以及如果我采取某个动作,模型会推演下一个可能的状态,学习的是转移动态(Transition Dynamics),即状态如何随时间和动作变化。

4.概率或分布预测

由于不是确定性输出,而是预测多种可能结果的概率分布,主要是世界有不确定性,如风向、行人行为等因素,这就借鉴了大脑的预测编码(Predictive Coding)机制,大脑不断预测感官输入,如果实际输入与预测不符,就更新模型。

实际应用举例

以DeepMind的DreamerV3 机器人世界模型为例,预测目标是让机械臂无需真实环境试错,直接在虚拟的世界模型中,模拟抓取杯子直接倒水到碗里的一套完整动作,预测每一步动作后的物体状态变化,输出可直接在真实机械臂上执行的零失误动作序列。主要过程如下,

1.状态表征

把机械臂摄像头的画面、关节力矩传感器数据,压缩成隐状态表征(压缩的内部表示),精准保留杯子、碗、水的位置、形状,以及机械臂的关节角度、夹爪力度等核心信息。

2.动态转移规律

学习了海量机械臂与物体的交互数据,习得了夹爪闭合到多大力度能稳定抓取玻璃杯、杯子倾斜多少度水会稳定流出、水倒出后的流动轨迹等物理交互规律,甚至能模拟水的流体特性。

3.实时初始状态

以当前机械臂的空间位置、杯子和碗的摆放坐标、杯子内的水量等实时数据,作为推演的起点。

4.序列推演

模型在隐空间中,提前模拟XX步的关节动作序列,推演每个微小的关节转动后,机械臂、杯子、水的状态变化。比如关节转动 5 度,杯子倾斜 30 度,水刚好倒入碗中、无洒出的概率 XX%,最终输出完整的动作序列,真实机械臂执行后一次成功,仅需少数任何真实环境的试错微调(正常理想情况,实际问题实际调整)。

还有自动驾驶也是,输入当前摄像头、雷达看到的场景,内部模型先把这输入压缩成内部状态,内设:已学真实驾驶视频和模拟数据,懂物理规律,和行为模式,预测未来,如果地板油继续加速,模型会模拟未来几秒、几十秒,走向可能有3个,行人停下,我安全通过;行人突然加速,我需要紧急刹车,否则对对碰;如果我现在变道,会不会更好?以及其他模拟,在内部想象多个未来轨迹,评估风险和奖励。输出与决策,基于以上这些预测,选择最佳动作。

总的来说,比那些只看当前帧的AI要机智,能处理长时规划和罕见场景等长尾问题。

该如何选择世界模型?

小白刚进入这个领域,要谨记,选型的核心不是追最新的 SOTA(榜一),而是先匹配自身基础、算力、研究方向,从吃透经典、跑通闭环、建立体系下手,否则就容易被高门槛、高算力的模型劝退。分两个方面,一方面是需要准备的基础知识学习,另一方面,开始选型。

基础知识

由于世界模型融合强化学习+ 生成模型(VAE/RNN/Transformer),得先搞懂Python + PyTorch(或JAX),CNN、RNN/LSTM、VAE,RL入门等基本深度学习理论。

这方面的资源很多,B站免费的有不少,注意要边看边动手,不要光看。

接着选型

大家的目标不同,有多模态大模型,也有具身智能,还有其他方向。但逻辑其实差不多,不要光看Github上的项目星星,要先看你的卡、你的目标,你的兴趣。

  • 开源代码是必须的,上Colab/Notebook直接就能跑。
  • 论文要清楚,纯数学可稍后,视觉化强点(数学好的人忽视这点)
  • 搜下社区的帖子或者内容,如果已经很久没人吐槽,没人夸,赶紧下一个,不能扩展的要慎重。

像Agent/RL方向建议看Dreamer系列,官方dreamerv3是JAX版的,PyTorch版的NaturalDreamer对小白更友好。

Source:github.com/InexperiencedMe/NaturalDreamer

如果是视频、具身智能以及交互方向可以考虑Genie系列,但DeepMind貌似没完整代码,可以考虑在官方网站去熟悉建模,然后也有人按照24年的论文复现(Open-Genie),可以一边读论文,一边看官方和别人的复现开源,了解整体模型的架构和思路。

官方论文读的时候可以先去官网体验一下后,再进行学习,效果更好。

Source:arxiv.org/pdf/2402.15391v1

虽然是非官方的复现项目,但官方貌似没出全部代码,所以还是得花时间弄懂比较好。

非官方的个人复现学习。| Source:github.com/myscience/open-genie

官方体验网站有好几个,但这个链接可以体验实时的,适合卡源不富的小伙伴。

Source:labs.google/projectgenie

————

往期内容
特斯拉最新专利,可能是近年来最大突破之一
世界模型优于扩散策略50%以上?Yann LeCun团队成果上新了!
Yann LeCun团队再上新,机器人看AI视频学习
YannLeCun又又上新了,潜在动作世界模型
为机器人量身定做,被李飞飞教授点赞过的生成式世界模型教程出炉~
斯坦福李飞飞教授团队最新成果,3D物体流
斯坦福大学李飞飞团队新作,PointWorld
223篇ICLR Accept Oral为啥能成Top 1.1%?九大分类的研究趋势是啥?Oral高频标签是啥?ICLR2026总结篇
投7过6篇,高手策略通关?拼凑宏大叙事易被秒?关于Li Fei-Fei团队ICLR 2026过稿与拒稿原因学习与复盘
投7过5篇,得出ICLR偏好?基于世界模型的规划为啥被拒?基于Yann LeCun团队在ICLR 2026中的过稿与拒稿原因研究
ICLR 2026 Accept Oral具身智能论文总结,223篇选20篇,四大趋势,三个切入点,基于罗德里格斯公式的新神经网络架构?闭环世界模型?
从0开始打造人形腿(12DOF)
YannLeCun聊具身智能AI|达沃斯论坛最新观点长文版
全球灵巧手盘点以及新趋势猜想
机器人入行思路(邪修建议版)
MIT与BCG,当前及3年后,各位将如何看待 AI 的角色?
什么机器人项目可以拥有27.8K颗星星?Github开源项目盘点
2025 Nature 生物技术与AI回顾,哪些可借鉴
面对AI即将取代程序员的工作,Andrej Karpathy大佬怎么想的?

ScienceRobotics近十年来最高引用排名前十的论文集合,榜一和你想的一样吗?

你认为具身智能是通往AGI(通用人工智能)的必经之路吗?

LLM智能超预期却笨得可爱?Andrej Karpathy大佬年度总结

北京VS旧金山?谁是Oral + Spotlight榜一大哥?基于NeurIPS 2024 & 2025 Accept Top50 数据分析研究

自动控制、机器人领域有哪些不错的综述文章?

为什么机器人能完成普通人做不了的空翻这种高难度动作,却做不了普通人都能做的稳定的端茶倒水?

机器人核心技术?

仿生机器人最困难的是找到场景商业化吗?技术难点在哪儿?

在机器人领域,有哪些热门的研究方向?

人形机器人站立与行走,有哪些关键技术?

机械臂的逆运动学求解有统一的方法吗,还是每个机械臂的求解方式不一样?