AI的下一站

今天，机器人板块大涨3%。有两大消息。

一个是华为云发布具身智能平台CloudRobo。

这是全球首个全流程具身智能开发平台，而且全国产，搭建国产机器人AI仿真、训练全链路底座，新松、亿嘉和、凌云光等产业链头部首批入驻，国产算力+机器人软硬件打通，提振国产零部件、本体厂商估值。

还有一个是英伟达的CEO黄仁勋在韩国表态：机器人是韩国核心支柱产业，英伟达全面落地制造+半导体机器人合作。

叠加此前英伟达发布Cosmos3物理AI大模型、落地GR00T人形机器人开发套件。这个AI巨头在持续加码机器人。

现在的趋势很清晰了：AI的下一站是物理AI，机器人的下一站是AI机器人。物理AI做大脑，机器人是身体，两者结合起来会爆发巨大的威力，彻底改变世界。

所谓物理AI，就是AI掌握物理规则，比如空间、重力、摩擦，从而理解现实世界、并操控实体。现在时常能听到世界模型、具身大模型这两个词，很多AI厂商、机器人厂商，在做这个。

物理AI=世界模型（认知大脑）+具身大模型（落地行动）+物理引擎+仿真+硬件闭环。

物理AI是由这几项集合成的完整技术体系。

1、认知层：世界模型（懂物理规律、预判环境）

2、决策层：具身大模型/VLA（翻译指令、生成动作方案）

3、底层：可微分物理引擎、物理信息神经网络（内嵌力学公式、仿真训练）

4、落地层：传感器+机器人/自动驾驶硬件（物理落地执行）

现在知道做一个人有多不容易了吧？

只有生了孩子，才知道做父母有多不容易。

只有做了机器人，才知道把人做出来的那个造物主是多么的深不可测。

······

AI的发展有几个历史阶段：感知AI、生成AI、物理AI。

分时间轴来看。

感知AI：2012-2021（机器看和听，落地摄像头、语音、机器视觉产业链）

生成式AI：2022-2024（ChatGPT、AIGC画图，文字图像凭空生成）

物理AI（具身）：2025起（看懂+听懂+动手干活）

所谓感知AI，就是让让机器长出眼睛、耳朵，具有感知能力。具体来说，就是靠摄像头、麦克风、雷达、传感器采集外界画面、声音、距离，看懂画面、听懂语音、识别物体。这个阶段的AI，能看、能听，但不会像现在这样自由创作、也不会操控实物动作。

打个比方。

感知AI：看见猫，认出是猫；

生成AI：根据你的文字描述画出一只猫；

物理AI：看到猫，可以伸手去抓猫。

感知是AI的最早期阶段。虽然它2012年才爆发，但之前几十年就在探索和积累。

1958年，人工神经网络之父——美国康奈尔大学的罗森布拉特（1928-1971）发明感知机，这是全世界第一个机器视觉学习模型，让机器第一次能简单识别图形，是视觉感知的起点。当时它搭载400个光电传感器（20×20感光阵列），能自主识别英文字母、区分图案，由美国海军出资研发，登上了《纽约时报》头条，当时媒体预言：机器未来能视物、说话、自主思考。

1962年，IBM发明全球首款实用语音感知设备，能识别16个英文数字、单词，语音感知便也落地了。

之后经过几十年的发展，图片识别的错误率仍然在25%左右，陷入了瓶颈。

2009年，一位中国出生、16岁随家人移居美国的美籍华人科学家李飞飞，牵头打造了ImageNets数据集。1400万标注图片、1000分类，第一次提供超大规模图像数据集，告别小数据集无法练深网络的问题。

随后几年，李飞飞的ImageNet（海量标注数据）+英伟达的GPU算力+2012年的AlexNet深度学习算法，三大条件凑齐。

终于在2012年发生了质变和飞跃，把图片识别的错误率从25%降低到15%。所以2012年被认为是感知AI爆发阶段的起点，之后才有了智能手机人脸识别、扫码的全民时代。

向人工智能的开拓者们致敬！