聊聊具身智能,当AI穿上机器人的身体
去年波士顿动力发了一条视频,Atlas机器人在工厂里搬箱子、跳跃、翻跟头,动作流畅得让人有点不舒服。
去年波士顿动力发了一条视频,Atlas机器人在工厂里搬箱子、跳跃、翻跟头,动作流畅得让人有点不舒服。评论区一片哗然,有人说「这已经不像机器人了」,有人说「离失业不远了」。但我当时盯着那段视频反复看,脑子里一直有个问题,它到底「懂」自己在干什么吗?还是只是在精准地执行一套编好的动作序列?
这个问题,其实就是具身智能这个概念的核心矛盾所在。
具身智能,Embodied AI,说到底就是让AI有一个物理身体,让它能感知、能行动、能和真实世界产生交互。听起来好像只是给AI装了个壳,但背后的逻辑转变是巨大的。过去我们说的大模型,GPT也好、Claude也好,它们活在数字世界里,输入文字,输出文字,对物理世界没有任何直接感知。但一旦AI穿上机器人的身体,它就必须面对一个全新的挑战,真实世界是混乱的、不确定的、充满噪音的,不像数字世界那样整洁可控。
你想想看,一个小孩学会抓东西,不是因为有人告诉它「手指施加多少牛顿的力」,而是通过无数次触碰、失败、调整,用身体去感受世界的反馈。这套学习机制,认知科学家叫它「具身认知」,意思是智能不只存在于大脑,它是大脑、身体和环境三者持续交互的产物。过去的AI完全跳过了这个过程,直接在人类产生的文字数据上训练,相当于一个从没摸过任何东西的人,靠读遍所有关于「如何骑自行车」的书来学骑车。能学到很多,但那个最关键的平衡感,永远缺失。
这就是为什么具身智能被很多人认为是通往AGI的必经之路。光有语言理解还不够,AI需要在物理世界里真正行动,才能补上那块「常识」的缺口。为什么杯子放在桌子边上会掉下去?为什么湿地板很滑?这些对人类来说不需要解释的常识,对纯语言模型来说是天大的谜题,因为它从没「经历」过。但一个在真实环境里运作的机器人,哪怕摔倒过几百次,也会慢慢建立起对重力、摩擦力、空间关系的直觉理解。
顺着这个再聊聊现在的进展。2024年前后,具身智能这块突然热起来,不是偶然的。Figure AI拿了OpenAI的投资,发布了Figure 01,可以一边干活一边用语言和人对话;特斯拉的Optimus已经在工厂里跑流水线;国内这边,宇树科技、智元机器人、开普勒都在密集发布新产品,资本疯狂涌入。更关键的是,大模型的能力突破给了具身智能一个「大脑」,而过去机器人领域最缺的恰恰就是这个。以前的机器人,感知不错,执行不错,但一遇到没见过的情况就懵了,完全没有泛化能力。现在把一个训练好的大模型接进来,机器人突然就有了「理解指令、推理情境、灵活应变」的能力,这个组合是以前根本想不到的。
但我一直觉得,现在大家对具身智能的期待有点跑偏了。很多报道把它描述成「马上就能取代工人」,实际情况要复杂得多。机器人在结构化环境里,比如工厂流水线,确实可以做得很好。但一旦进入非结构化的真实场景,比如家庭、餐厅、户外,挑战就指数级上升。一个普通的家庭厨房,对人类来说毫无难度,对机器人来说却是噩梦,光线变化、物品摆放不规律、地面材质不同,每一个细节都可能让它卡住。坦率的讲,我们现在看到的很多演示视频,都是在高度控制的条件下拍的,离真正的通用场景还有相当大的距离。
还有一个问题很少有人提,就是数据。大语言模型之所以能做到今天这一步,靠的是互联网上海量的文字数据。但机器人在物理世界交互的数据,根本就没有这种规模的积累。你没办法去「爬」现实世界的数据,只能让机器人一遍遍地去做任务,慢慢积累。Google的RT-2、DeepMind的一系列工作,都在尝试用仿真环境来生成大量训练数据,再迁移到真实世界,但「仿真到现实的迁移」本身就是一个很难的问题,仿真环境再精细,和真实世界之间总有一道缝。特斯拉那边的思路是直接用Optimus在真实工厂里跑,积累真实数据,但这个过程注定是漫长的。
•说到底,具身智能现在的处境有点像2012年的深度学习,概念已经成立,方向已经明确,但工程难题还堆积如山,真正的爆发还需要几个关键节点的突破。
那结果会怎样呢,如果具身智能真的跑通了,影响会比大模型更深远。大模型改变的是信息的生产和处理方式,但具身智能改变的是物理世界的劳动方式。制造业、物流、医疗、家政,这些行业涉及的人口规模,比写代码、写文章的人多得多。而且一旦机器人的成本降下来,一台能干活的人形机器人定价跌到几万块,社会结构会发生什么变化,没人能说清楚。
我有时候想,人类花了几百万年进化出这副身体,才能灵活地在这个世界里生存。我们现在要用几十年,把这套能力复刻到硅基机器上。这件事本身就已经很疯狂了。更疯狂的是,我们甚至不确定,当AI真正有了身体、有了感知、有了在世界里行动的能力之后,它还会不会只是一个工具。
这个问题,现在还没有答案。但留着它,可能比急着找答案更重要。
这个问题,现在还没有答案。但留着它,可能比急着找答案更重要。
夜雨聆风