英伟达物理AI模型:Cosmos-Reason1和2

PART.01

Cosmos-Reason1论文

一、研究背景

这篇论文由NVIDIA团队提出，核心目标是打造面向物理世界的多模态大模型，让AI不仅能看懂视频画面，还能理解真实世界的物理规律，并且为机器人、自动驾驶车辆等具身智能体做出符合物理规则的决策。

当前主流的大语言模型和多模态模型，在数学、代码、文本推理上表现优秀，但存在一个核心缺陷：缺乏真实物理世界的落地能力。它们能背诵物理知识，却无法把知识和视频里的物体运动、空间关系、时间顺序结合起来，更无法指导智能体在现实中完成动作。

而物理AI需要完成两件核心事：第一，具备人类一样的物理常识，知道重力、物体永存性、时间不可逆这些基础规律；第二，具备具身推理能力，能根据环境感知、预测动作后果、遵守物理约束。这篇论文就是围绕这两个能力，构建模型、数据、评测体系，最终提出Cosmos-Reason1系列模型。

二、物理AI推理的核心能力定义

论文先明确了物理AI必须具备的两类核心推理能力，并且用本体论（可以理解为标准化的能力分类框架）把能力拆解清楚，为后续建模、数据、评测提供统一标准。

（一）物理常识推理

物理常识是和具体智能体无关的、对物理世界的基础认知，是所有具身智能的基础。论文把它分成三大维度、16个细分子类：

空间维度
：判断物体的空间位置关系、某个空间摆放是否合理、物体能用来做什么、场景环境特征。
时间维度
：理解动作内容、事件发生的先后顺序、因果关系、相机运动、基于观察做未来规划。
基础物理维度
：识别物体属性（质量、材质、温度）、物体状态变化（生鸡蛋变熟鸡蛋）、物体永存性（被挡住的物体依然存在）、力学/电磁学/热力学规律，以及识别反物理现象（反重力、时间倒流）。

简单来说，物理常识就是让AI知道“苹果会往下掉、杯子倒了水会流出来、视频倒着放不符合现实”。

（二）具身推理

具身推理是智能体和物理世界交互时需要的推理能力，和机器人、自动驾驶、人类等具体载体绑定，核心有四个要求，论文重点研究前三个：

处理复杂感知输入
：从视频这类原始、模糊、不完整的感官数据里提取有效信息。
预测动作效果
：知道做一个动作会产生什么物理后果，比如机器人抓物体要预估重量，避免抓坏或掉落。
遵守物理约束
：动作必须符合惯性、摩擦力、材质等现实规则，保证安全、稳定执行。
从交互中学习
：根据环境反馈调整行为，论文把这部分作为未来工作。

论文把具身推理的能力和智能体类型做成二维框架，覆盖人类、机械臂、人形机器人、自动驾驶汽车等，确保模型能适配不同物理载体。

三、Cosmos-Reason1模型架构设计

论文提出两个规格的模型：Cosmos-Reason1-7B和Cosmos-Reason1-56B，采用解码器-only多模态架构，整体结构如图3所示，核心分为三部分：视觉编码器、投影层、大语言模型主干。

（一）整体架构逻辑

模型的输入是视频+文本指令，输出是长链推理过程+自然语言决策。处理流程是：

视频帧先进入视觉编码器，提取视觉特征；
投影层把视觉特征转换成和文本token对齐的向量，让大模型能“看懂”视频；
对齐后的视觉token和文本token拼接，输入大语言模型主干；
大模型先进行长链思考推理，再输出最终的答案或动作决策。

这种架构和LLaVA、NVLM-D一致，优势是结构简单，能统一处理图像、视频、文本所有模态，适配推理任务。

（二）各模块细节

视觉编码器

7B版本用ViT-676M，56B版本用InternViT-300M-V2.5；
视频处理：均匀采样最多32帧，每帧缩放到448×448，用14×14的patch提取特征，再通过PixelShuffle做2×2下采样，减少视觉token数量，提升效率。

投影层

两层MLP结构，负责视觉特征的下采样和维度对齐，把视觉特征映射到文本大模型的嵌入空间；
7B和56B版本的下采样倍率、维度参数不同，匹配各自的大模型主干。

大语言模型主干

7B版本：纯Transformer架构，基于Qwen2.5-VL；
56B版本：混合Mamba-MLP-Transformer架构，这是核心创新点之一。原理：Transformer的自注意力处理长序列是二次复杂度，速度慢；Mamba是线性时间复杂度，处理长序列效率高，但细节捕捉能力不足。所以56B模型把Mamba层、MLP层、Transformer层交替组合，用少量Transformer层补足长上下文建模能力，兼顾效率和效果，如图4所示。

（三）并行训练配置

7B模型：张量并行TP=4；
56B模型：张量并行TP=8+流水线并行PP=2，适配超大参数量的训练。

四、两阶段训练方法：物理AI有监督微调+强化学习

模型训练分两个阶段，先通过有监督微调打下物理常识和具身推理的基础，再用强化学习进一步提升推理准确性，这是模型效果提升的核心方法。

（一）第一阶段：物理AI有监督微调（SFT）

核心目标：让模型学会物理常识和具身推理的基本逻辑，数据是模型效果的基础，团队精心构建了约400万条视频-文本对标注数据。

1. 数据构建逻辑

数据分为三大类，严格对应前面定义的本体论：

物理常识数据
：基于人工筛选的高质量视频，做详细字幕标注，再生成自由问答和选择题，包括理解类（直接看视频就能答）和推理类（需要结合物理知识），再用DeepSeek-R1生成长链推理轨迹。
具身推理数据
：覆盖机械臂、人形机器人、自动驾驶、人类第一视角视频，聚焦三个核心任务：任务完成验证、动作可行性判断、下一步动作预测，同样生成推理轨迹。
直觉物理数据
：专门补全基础物理能力，包括空间拼图（打乱视频patch让模型还原）、时间箭头（判断视频正放/倒放）、物体永存性（判断物体被遮挡后是否消失），这部分数据是自监督生成，成本低、规模大。

2. 数据处理流程

以具身推理数据为例，如图7所示：

把长视频拆成短片段，聚焦短期动作；
用视觉-语言模型做状态-动作字幕标注；
生成推理问答对；
用DeepSeek-R1生成推理轨迹；
规则清洗，去掉无关描述，得到有效训练样本。

3. 训练参数

7B模型：训练12500次迭代，学习率从1e-5余弦退火到1e-6；
56B模型：先30000次迭代用1e-5，再20000次迭代用1e-6；
优化器：融合Adam，权重衰减0.1，平衡采样数据避免单一领域过拟合。

（二）第二阶段：物理AI强化学习（RL）

核心目标：在SFT基础上，用可验证的规则化奖励，进一步提升推理的准确性和逻辑性，解决开放回答难以打分的问题。

1. 强化学习算法：GRPO

选用GRPO算法，优势是不需要单独训练评论家模型，流程简单、计算效率高。原理：对同一个prompt生成一组回答，计算每个回答的奖励，用组内奖励的均值和标准差做归一化，得到优势函数，再优化模型策略，公式用语言解释就是：每个回答的优势 = （该回答奖励 - 组内奖励均值）/ 组内奖励标准差，让模型优先输出高优势的回答。

2. 创新训练框架：全异步高鲁棒性框架

如图5所示，框架分为调度器、智能体 rollout、策略训练三部分：

异构部署：策略训练和智能体生成解耦，避免同步开销，训练效率提升约160%；
容错机制：节点故障时能快速重配置，不中断训练；
调度器冗余：提升框架稳定性，支持动态扩缩容。

3. 奖励设计（核心创新）

物理推理的回答是开放的，很难直接打分，团队把所有训练样本转换成单选题，用两种规则化、可验证的奖励：

准确率奖励
：判断模型输出的答案是否和标准答案匹配，字符串匹配即可，简单可靠；
格式奖励
：鼓励模型用标签包裹推理过程，标签包裹最终答案，用正则表达式匹配，保证推理结构规范。

4. 强化学习训练细节

批量大小：128个问题，每个问题采样9个输出，最大长度6144token；
学习率：4e-6，KL惩罚系数0.005，训练500次迭代；
数据处理：动态打乱单选题选项，提升模型泛化能力。

五、评测基准构建

团队没有用现成评测集，而是根据自己定义的本体论，构建了物理常识评测集和具身推理评测集，保证评测针对性。

（一）物理常识评测集

426个视频，604道题，分为空间、时间、基础物理三类；
题型：二选一问题+多选题，覆盖16个细分子类。

（二）具身推理评测集

600个视频，610道题，覆盖BridgeData V2、RoboVQA、AgiBot、HoloAssist、自动驾驶、RoboFail六个场景；
核心评测三个能力：任务完成验证、动作可行性、下一步动作预测，全部用单选题，方便自动评测。

（三）直觉物理评测集

针对时间箭头、空间拼图、物体永存性三个任务，各100个视频，确保无训练数据泄露。

六、实验结果与核心结论

（一）核心效果提升

物理常识
：Cosmos-Reason1-56B超过OpenAI o1，7B版本比基线Qwen2.5-VL-7B提升6.9%；
具身推理
：7B和56B版本比基线模型提升超10%，远超GPT-4o、Gemini 2.0 Flash；
直觉物理
：现有模型在时间箭头、物体永存性上接近随机猜测，Cosmos-Reason1-7B平均提升32.4%，RL后再提升7%；
整体
：SFT让模型性能提升超10%，RL再提升超5%。

（二）关键现象

RL后模型学会拒绝不合理选项：面对模糊问题，能判断所有选项都不对，而不是强行选择；
RL优化推理逻辑：时间推理上能识别反物理运动，空间推理不再混淆时序和空间，物体永存性推理更简洁准确。

（三）局限性

RoboFail评测集效果提升有限，原因是该场景物理约束复杂、训练数据不足，是未来需要优化的方向。

七、论文贡献总结

定义物理AI的核心能力框架，提出物理常识和具身推理两大本体论；
提出Cosmos-Reason1系列多模态大模型，7B纯Transformer+56B混合Mamba架构，适配物理推理；
构建两阶段训练方案，结合物理AI有监督微调和规则化奖励的强化学习；
构建专属评测基准，验证模型在物理常识、具身推理、直觉物理上的显著提升；
开源代码和模型，推动物理AI领域发展。

PART.02

Cosmos-Reason2

NVIDIA 官方尚未发布专门针对 Cosmos-Reason2 的单一独立学术论文，但该模型的技术框架和核心理念主要包含在 Cosmos World Foundation Model (WFM) 平台的系列论文和技术文档中。

NVIDIA 推出的 Cosmos-Reason2 是其专为“物理 AI（Physical AI）”设计的推理型视觉语言模型（VLM）的最新一代。相比于第一代 Cosmos-Reason1，osmos-Reason2 的核心进步在于它将 “看懂物理世界” 提升到了 “精确测量并规划物理行为” 的高度。它更轻、更快，且具备极强的空间坐标处理能力，是专为下一代机器人和自动化系统打造的“物理逻辑引擎”。

1. 核心技术规格对比

特性	Cosmos-Reason1	Cosmos-Reason2
上下文窗口	16K tokens	256K tokens (大幅提升)
模型尺寸	7B, 56B	2B, 8B (更轻量，适合边缘部署)
空间感知能力	基础视觉理解	2D/3D 点定位、边界框（Bounding Box）坐标
时间精度	标准视频理解	增强的时间戳精度（更精准的动作捕捉）
输出功能	自然语言推理	推理说明 + 轨迹坐标输出

2. 关键性能提升

超长上下文 (256K)：
Reason2 的上下文窗口从 16K 扩展到了 256K。这意味着它可以一次性“阅读”更长时间的视频序列或更复杂的环境数据，从而在长时段的任务规划中保持连贯性。
物理常识与时空推理：
Reason2 强化了对物体如何在时空中移动的理解。它不仅能看到物体，还能预测其运动轨迹，并以 2D/3D 坐标的形式精确输出。这对于机器人避障、路径规划等任务至关重要。
部署灵活性：
Reason1 提供的是较大的 7B 和 56B 模型，而 Reason2 推出了 2B 和 8B 版本。这使得 Reason2 能够更容易地部署在如机器人、自动驾驶汽车等边缘计算设备上，而不必完全依赖云端。

3. 应用场景的演进

从“观察”到“规划”：
Reason1 主要侧重于理解物理世界并生成逻辑描述；而 Reason2 更像是一个“行动大脑”，它能够直接为物理代理（Physical Agents）规划下一步动作，支持更复杂的具身智能（Embodied AI）决策。
典型案例：

自动驾驶 (Uber)：
Reason2 被用于自动生成视频标注，将视频内容转化为可搜索的、带推理逻辑的文本数据，极大提升了数据标注的效率。
工业安全：
能够精确识别工业环境中的违规行为，并提供精确的时间戳和空间定位信息。