什么是物理 AI:当 AI 从比特世界走向原子世界

每天跟你打交道的 AI，大多数都住在屏幕里。你跟 ChatGPT 聊天，用 Midjourney 画图，让 Clude code 帮你写代码，它们全都活在比特（bits）的世界里。

物理 AI（Physical AI）想做的事不不一样。它要从屏幕里走出来，进入原子（atoms）的世界，也就是你我真实生活的物理空间。它得能看见周围的东西，能推理发生了什么，还得亲手做点什么。

这听起来像是机器人该干的活。可机器人已经存在几十年了，为什么到了 2026 年，"物理 AI"突然成了所有人都在谈论的热词？

老式机器人：精准，但脆弱

先说说旧的范式。物理 AI 流行起来之前，机器人靠的是规则和程序脚本。

汽车流水线上的焊接臂，一天焊一千次同一条焊缝，位置不差毫厘。这种机器被造出来就是为了做到极致精准、极致的重复。但它也极致的受限，只能做被写死的那件事，而且要求环境也被提前调好—零件要摆在固定位置，光线要稳定，抓手要对准。

一旦换零件、换车间、换工艺，整套脚本就得重写一遍。老式机器人像一位"只会按配方做菜的厨师"，菜谱上没有的就做不了。

新一代机器人：有常识，会学习

改变发生在机器人被装上语言模型之后。

当一个机械臂背后跑着一个对世界有"通识"的模型时，它就不再是纯脚本的执行者。它大致知道杯子是用来装水的、上螺丝要顺时针拧、盘子掉地上会碎。这种通识再配上强化学习（Reinforcement Learning，简称 RL），也就是在仿真环境里大量试错，机器就能在通识之上再长出一项专业技能。

而且，物理 AI 远不只是机械臂。

智能工厂
里的机器，彼此协调着决定谁先干、谁让路；
能源电网
根据负载、天气、价格信号自己优化功率分配；
公路上越来越多的自动驾驶车队在实时感知、预测、决策。

只要是一个存在于物理世界、又可以被 AI 增强的系统，它都算物理 AI 的一员。

为什么是现在：三个瓶颈同时松动

物理 AI 不是新概念。它之所以突然被推到聚光灯下，是因为过去几年里，几个长期卡住它的瓶颈同时被打破了。

第一个瓶颈是模型。

真正的突破点叫 VLAM（Vision-Language-Action Models，视觉-语言-动作模型）。名字就说明了它在干什么，视觉负责感知世界，语言负责推理，动作负责输出行为。在 VLAM 之前，机器人能"看"，也能"动"，但它没法像人一样对一个没见过的新场景推理一遍再决定怎么办。VLAM 把这三件事串在同一个模型里，让机器人开始具备"看到陌生情况、想一想、再动手"的能力。

更关键的是，开源的机器人基础模型（Robotics Foundation Models）出现了。这些模型在数千万小时的驾驶或机器人操作数据上训练，捕捉了现实世界的基本物理规律和物体操纵经验。今天你可以直接从 Hugging Face 下载一个，就像下载一个开源的大语言模型那样。

第二个瓶颈是数据，尤其是"仿真—现实"之间的落差。

机器人学里一直有个老问题叫 sim-to-real gap，仿真到现实的差距。机器人在仿真里训练得好好的，一搬到真实场景就翻车，因为真实世界永远比仿真里建模的那个版本更乱，地板有划痕，零件有毛刺，空气湿度让摩擦力也在变。

现在出现的世界基础模型（World Foundation Models）正在补这上一块。它们能生成带物理一致性的合成训练数据，生成出来的场景不仅视觉上像真的，连重力、碰撞、摩擦都合乎物理。用这种数据训出来的策略，迁移到真实世界时的表现稳定得多。

第三个瓶颈是算力，尤其是算力的效率。

处理 2000 万小时的视频数据，在使用上一代 CPU 上可能要跑三年；在当前这一代 GPU 上，几个星期就能搞定。算力没"变强"的时候，再好的模型也训不起来。现在算力够了，模型才真正被喂饱。

更好的模型、更真实的仿真、更便宜的算力，三件事在同一个时间点叠加，这就是 2026 年你到处听到"物理 AI"的主要原因。

怎么训练一个物理 AI

训练物理 AI 跟训练一个 LLM 很不一样。大语言模型的训练素材是文本和图片，静静躺在硬盘上就行。物理 AI 要学的是动作，是东西在动、会碰撞、会反弹的真实世界。你没法靠爬几个TB的文本就把它训出来。

一条相对成熟的训练路径大致是这样的。

第一步，造一个仿真世界。

假设我们要训练一个机器人在工厂里装配零件。我们得在仿真里造出机器人本身、它要操作的零件、它坐着的工作台，以及一切可能影响它干活的东西，比如灯光、阴影、零件的摆放角度、不同湿度下的摩擦系数。

这里有个关键技巧叫域随机化（Domain Randomization），故意把这些参数随机打乱。让零件的位置偏一点，让光线忽明忽暗，让摩擦系数跳来跳去。机器人在这种"每次都有点不一样"的环境里练出来，才不会在真实世界里一遇到偏差就崩溃。

第二步，让它在仿真里反复试。

这一步是强化学习（RL）登场的时刻。机器人尝试装配，成功了，奖励；失败了，没奖励。几千次、几百万次之后，它自己总结出哪种抓法管用、哪种角度一定夹不住、哪种顺序最省时间。

这个过程里没有人手把手教它。奖励信号负责告诉它目标在哪儿，其余都是它自己摸索出来的。

第三步，部署到真实世界。

机器人在仿真里打到某个成功率阈值后，就可以搬到真正的车间里一试身手了。现实会立刻给它一个下马威。仿真里没见过的零件毛刺、仿真里没建模的地面反光、仿真里默认不存在的机器老化，这些都会出现。

所以不能只部署一次就完事。真实数据得被采回来，喂回仿真里，让模型再训一轮，再部署。仿真和现实之间的这条反馈闭环，才是物理 AI 真正收敛的机制。

从比特世界到原子世界

过去十几年，AI 的惊人进步几乎都发生在屏幕里：更聪明的对话、更逼真的图像、更长的上下文。这些成果有价值，但它们始终停留在比特一侧。

物理 AI 意味着 AI 开始跨过那条分界线，进入工厂、进入仓库、进入公路，以后也许会进入千家万户的厨房。它不再只是一个能跟你聊天的软件，而是一个能帮你拧螺丝、打包裹、开车、做饭的真实存在。

模型够好了，算力够便宜了，仿真够真实了。这三件事同时成立的窗口并不常见，而我们此刻刚好站在这里面。此前，AI 一直住在比特的世界，现在，它正学着开始在原子的世界里生活。

2026年5月8日