每天跟你打交道的 AI,大多数都住在屏幕里。你跟 ChatGPT 聊天,用 Midjourney 画图,让 Clude code 帮你写代码,它们全都活在比特(bits)的世界里。
物理 AI(Physical AI)想做的事不不一样。它要从屏幕里走出来,进入原子(atoms)的世界,也就是你我真实生活的物理空间。它得能看见周围的东西,能推理发生了什么,还得亲手做点什么。
这听起来像是机器人该干的活。可机器人已经存在几十年了,为什么到了 2026 年,"物理 AI"突然成了所有人都在谈论的热词?
老式机器人:精准,但脆弱
先说说旧的范式。物理 AI 流行起来之前,机器人靠的是规则和程序脚本。
汽车流水线上的焊接臂,一天焊一千次同一条焊缝,位置不差毫厘。这种机器被造出来就是为了做到极致精准、极致的重复。但它也极致的受限,只能做被写死的那件事,而且要求环境也被提前调好—零件要摆在固定位置,光线要稳定,抓手要对准。
一旦换零件、换车间、换工艺,整套脚本就得重写一遍。老式机器人像一位"只会按配方做菜的厨师",菜谱上没有的就做不了。
新一代机器人:有常识,会学习
改变发生在机器人被装上语言模型之后。
当一个机械臂背后跑着一个对世界有"通识"的模型时,它就不再是纯脚本的执行者。它大致知道杯子是用来装水的、上螺丝要顺时针拧、盘子掉地上会碎。这种通识再配上强化学习(Reinforcement Learning,简称 RL),也就是在仿真环境里大量试错,机器就能在通识之上再长出一项专业技能。
而且,物理 AI 远不只是机械臂。
- 智能工厂
里的机器,彼此协调着决定谁先干、谁让路; - 能源电网
根据负载、天气、价格信号自己优化功率分配; 公路上越来越多的自动驾驶车队在实时感知、预测、决策。
只要是一个存在于物理世界、又可以被 AI 增强的系统,它都算物理 AI 的一员。
为什么是现在:三个瓶颈同时松动
物理 AI 不是新概念。它之所以突然被推到聚光灯下,是因为过去几年里,几个长期卡住它的瓶颈同时被打破了。
第一个瓶颈是模型。
真正的突破点叫 VLAM(Vision-Language-Action Models,视觉-语言-动作模型)。名字就说明了它在干什么,视觉负责感知世界,语言负责推理,动作负责输出行为。在 VLAM 之前,机器人能"看",也能"动",但它没法像人一样对一个没见过的新场景推理一遍再决定怎么办。VLAM 把这三件事串在同一个模型里,让机器人开始具备"看到陌生情况、想一想、再动手"的能力。
更关键的是,开源的机器人基础模型(Robotics Foundation Models)出现了。这些模型在数千万小时的驾驶或机器人操作数据上训练,捕捉了现实世界的基本物理规律和物体操纵经验。今天你可以直接从 Hugging Face 下载一个,就像下载一个开源的大语言模型那样。
第二个瓶颈是数据,尤其是"仿真—现实"之间的落差。
机器人学里一直有个老问题叫 sim-to-real gap,仿真到现实的差距。机器人在仿真里训练得好好的,一搬到真实场景就翻车,因为真实世界永远比仿真里建模的那个版本更乱,地板有划痕,零件有毛刺,空气湿度让摩擦力也在变。
现在出现的世界基础模型(World Foundation Models)正在补这上一块。它们能生成带物理一致性的合成训练数据,生成出来的场景不仅视觉上像真的,连重力、碰撞、摩擦都合乎物理。用这种数据训出来的策略,迁移到真实世界时的表现稳定得多。
第三个瓶颈是算力,尤其是算力的效率。
处理 2000 万小时的视频数据,在使用上一代 CPU 上可能要跑三年;在当前这一代 GPU 上,几个星期就能搞定。算力没"变强"的时候,再好的模型也训不起来。现在算力够了,模型才真正被喂饱。
更好的模型、更真实的仿真、更便宜的算力,三件事在同一个时间点叠加,这就是 2026 年你到处听到"物理 AI"的主要原因。
怎么训练一个物理 AI
训练物理 AI 跟训练一个 LLM 很不一样。大语言模型的训练素材是文本和图片,静静躺在硬盘上就行。物理 AI 要学的是动作,是东西在动、会碰撞、会反弹的真实世界。你没法靠爬几个TB的文本就把它训出来。
一条相对成熟的训练路径大致是这样的。
第一步,造一个仿真世界。
假设我们要训练一个机器人在工厂里装配零件。我们得在仿真里造出机器人本身、它要操作的零件、它坐着的工作台,以及一切可能影响它干活的东西,比如灯光、阴影、零件的摆放角度、不同湿度下的摩擦系数。
这里有个关键技巧叫域随机化(Domain Randomization),故意把这些参数随机打乱。让零件的位置偏一点,让光线忽明忽暗,让摩擦系数跳来跳去。机器人在这种"每次都有点不一样"的环境里练出来,才不会在真实世界里一遇到偏差就崩溃。
第二步,让它在仿真里反复试。
这一步是 强化学习(RL) 登场的时刻。机器人尝试装配,成功了,奖励;失败了,没奖励。几千次、几百万次之后,它自己总结出哪种抓法管用、哪种角度一定夹不住、哪种顺序最省时间。
这个过程里没有人手把手教它。奖励信号负责告诉它目标在哪儿,其余都是它自己摸索出来的。
第三步,部署到真实世界。
机器人在仿真里打到某个成功率阈值后,就可以搬到真正的车间里一试身手了。现实会立刻给它一个下马威。仿真里没见过的零件毛刺、仿真里没建模的地面反光、仿真里默认不存在的机器老化,这些都会出现。
所以不能只部署一次就完事。真实数据得被采回来,喂回仿真里,让模型再训一轮,再部署。仿真和现实之间的这条反馈闭环,才是物理 AI 真正收敛的机制。
从比特世界到原子世界
过去十几年,AI 的惊人进步几乎都发生在屏幕里:更聪明的对话、更逼真的图像、更长的上下文。这些成果有价值,但它们始终停留在比特一侧。
物理 AI 意味着 AI 开始跨过那条分界线,进入工厂、进入仓库、进入公路,以后也许会进入千家万户的厨房。它不再只是一个能跟你聊天的软件,而是一个能帮你拧螺丝、打包裹、开车、做饭的真实存在。
模型够好了,算力够便宜了,仿真够真实了。这三件事同时成立的窗口并不常见,而我们此刻刚好站在这里面。此前,AI 一直住在比特的世界,现在,它正学着开始在原子的世界里生活。
夜雨聆风