今天,机器人板块大涨3%。有两大消息。
一个是华为云发布具身智能平台CloudRobo。
这是全球首个全流程具身智能开发平台,而且全国产,搭建国产机器人AI仿真、训练全链路底座,新松、亿嘉和、凌云光等产业链头部首批入驻,国产算力+机器人软硬件打通,提振国产零部件、本体厂商估值。
还有一个是英伟达的CEO黄仁勋在韩国表态:机器人是韩国核心支柱产业,英伟达全面落地制造+半导体机器人合作。
叠加此前英伟达发布Cosmos3物理AI大模型、落地GR00T人形机器人开发套件。这个AI巨头在持续加码机器人。
现在的趋势很清晰了:AI的下一站是物理AI,机器人的下一站是AI机器人。物理AI做大脑,机器人是身体,两者结合起来会爆发巨大的威力,彻底改变世界。
所谓物理AI,就是AI掌握物理规则,比如空间、重力、摩擦,从而理解现实世界、并操控实体。现在时常能听到世界模型、具身大模型这两个词,很多AI厂商、机器人厂商,在做这个。
物理AI=世界模型(认知大脑)+具身大模型(落地行动)+物理引擎+仿真+硬件闭环。
物理AI是由这几项集合成的完整技术体系。
1、认知层:世界模型(懂物理规律、预判环境)
2、决策层:具身大模型/VLA(翻译指令、生成动作方案)
3、底层:可微分物理引擎、物理信息神经网络(内嵌力学公式、仿真训练)
4、落地层:传感器+机器人/自动驾驶硬件(物理落地执行)
现在知道做一个人有多不容易了吧?
只有生了孩子,才知道做父母有多不容易。
只有做了机器人,才知道把人做出来的那个造物主是多么的深不可测。
······
AI的发展有几个历史阶段:感知AI、生成AI、物理AI。
分时间轴来看。
感知AI:2012-2021(机器看和听,落地摄像头、语音、机器视觉产业链)
生成式AI:2022-2024(ChatGPT、AIGC画图,文字图像凭空生成)
物理AI(具身):2025起(看懂+听懂+动手干活)
所谓感知AI,就是让让机器长出眼睛、耳朵,具有感知能力。具体来说,就是靠摄像头、麦克风、雷达、传感器采集外界画面、声音、距离,看懂画面、听懂语音、识别物体。这个阶段的AI,能看、能听,但不会像现在这样自由创作、也不会操控实物动作。
打个比方。
感知AI:看见猫,认出是猫;
生成AI:根据你的文字描述画出一只猫;
物理AI:看到猫,可以伸手去抓猫。
感知是AI的最早期阶段。虽然它2012年才爆发,但之前几十年就在探索和积累。
1958年,人工神经网络之父——美国康奈尔大学的罗森布拉特(1928-1971)发明感知机,这是全世界第一个机器视觉学习模型,让机器第一次能简单识别图形,是视觉感知的起点。当时它搭载400个光电传感器(20×20感光阵列),能自主识别英文字母、区分图案,由美国海军出资研发,登上了《纽约时报》头条,当时媒体预言:机器未来能视物、说话、自主思考。

1962年,IBM发明全球首款实用语音感知设备,能识别16个英文数字、单词,语音感知便也落地了。
之后经过几十年的发展,图片识别的错误率仍然在25%左右,陷入了瓶颈。
2009年,一位中国出生、16岁随家人移居美国的美籍华人科学家李飞飞,牵头打造了ImageNets数据集。1400万标注图片、1000分类,第一次提供超大规模图像数据集,告别小数据集无法练深网络的问题。

随后几年,李飞飞的ImageNet(海量标注数据)+英伟达的GPU算力+2012年的AlexNet深度学习算法,三大条件凑齐。
终于在2012年发生了质变和飞跃,把图片识别的错误率从25%降低到15%。所以2012年被认为是感知AI爆发阶段的起点,之后才有了智能手机人脸识别、扫码的全民时代。
向人工智能的开拓者们致敬!
夜雨聆风