乐于分享
好东西不私藏

具身智能目前的发展是受限于硬件还是软件

具身智能目前的发展是受限于硬件还是软件

这个问题看似是个二选一:具身智能落地慢,是被硬件拖了后腿,还是软件不给力?但如果只停留在“硬件vs软件”的二元框架里,你很容易陷入技术细节的泥潭,却始终看不清行业全貌。

我想换一个角度,用三个大家更熟悉的行业来做比对——个人电脑、智能手机、自动驾驶。它们的起起落落,已经把具身智能的未来剧透了大半。

一、个人电脑的启示:为什么“大脑”再聪明,没“身体”也不行?

1970年代的微处理器已经能让计算机完成复杂运算,但个人电脑真正走进家庭,等了差不多十年。卡住它的不是芯片算力,而是缺少一台“IBM PC”。

在IBM PC出现之前,市场上已经有了Apple II、Commodore 64这些产品,但它们互不兼容。软件公司要为每一款机器单独写程序,外设厂商要为每一款机器定制驱动,用户买一台电脑就像买了一个孤岛。

真正打破僵局的,是IBM PC兼容机架构的出现。它没有发明革命性的新硬件,也没有创造惊世骇俗的软件,它只是用一套标准把硬件、操作系统和扩展接口统一了起来。于是,英特尔专心做CPU,微软专心做操作系统,第三方厂商疯狂涌入做显卡、声卡、打印机……生态滚雪球一样壮大,成本指数级下降。

今天的具身智能,就活在1978年的个人电脑市场里。

我们有波士顿动力那样运动能力惊人的机器人(就像当年昂贵的专用工作站),也有基于大模型的视觉语言模型(就像带着一堆软盘的DOS系统),但两者之间缺少一套“机器人界的IBM PC兼容机标准”。每家公司都在自己搭自己的本体:你的电机是直驱的,他的是行星滚柱丝杠的;你的传感器挂在胸口,他的藏在掌心;你的代码只在自己的本体上跑得动,换一台机器立刻抓瞎。

大家各自在孤岛里把“硬件好/软件好”吵得震天响,但没有标准化的硬件平台,软件开发就无从大规模并行展开;没有杀手级应用,硬件厂商就不敢下血本把成本打下来。两者互为死锁。所以具身智能的第一个瓶颈,不是单纯的硬件或软件,而是缺一个能解耦两者的“标准化中间层”。

二、智能手机的启示:为什么有了“App Store”才算真正引爆?

2007年iPhone发布以前,智能手机已经存在好多年了。诺基亚、黑莓、Palm哪个不是智能机?但它们只能叫“功能强大的手机”,成不了生态。

苹果真正做的,是用电容触控屏+直观的iOS交互,把使用门槛降到三岁小孩都能上手。然后又用App Store,让全球开发者无需理解基带芯片怎么驱动,就能用一套统一的API和开发工具发布应用。硬件是入口,软件是生态,而连接它们的,是一套足够好用的开发框架和分发渠道。

回到具身智能。今天我们刚摸到“通用机器人操作系统”的边,比如ROS虽然强大,但离“iOS级别的开发者体验”还差十万八千里。更关键的是,机器人没有自己的“App Store”——没有一种方式让我在手机上点一下,就给家里的机器人下载一个“叠衣服”或“刷马桶”技能包,并且百分之百适配我家的机器人硬件。

更深层次看:手机的传感器主要是麦克风、摄像头、触摸屏、陀螺仪,信息相对结构化。但机器人要面对的物理世界是非结构化的:毛巾是软的还是湿的?地板是木头的还是瓷砖的?这个杯子是玻璃的还是纸的? 这些信息,目前没有任何一套标准传感器套件能完整且廉价地采集上来。

所以,具身智能的第二个瓶颈,是缺乏“物理世界的iOS”——一套能屏蔽底层硬件差异、提供统一世界感知与操作原语的软硬件体系。 有了它,软件的迭代速度才会从“手工小作坊”进入“工业大生产”。

三、自动驾驶的启示:我们可能还得等一个“Waymo教训”

自动驾驶行业走过的弯路,对具身智能是极好的参照。2015年前后,一堆创业公司喊着L4很快到来,投资者把钞票当纸烧。结果呢?Waymo花了十几年、几百亿美元,至今还在有限区域运营。行业发现自己严重低估了 “长尾问题”——99%的路况不难,但那1%的边缘场景,需要吞掉90%的研发成本。

更关键的是,自动驾驶早期也是“硬件先行”,激光雷达64线一下子堆满车顶,每台车成本几百万。跑了好几年数据之后才发现,不是传感器不够多,而是大脑处理不过来这么多非结构化信息,决策算法的鲁棒性根本跟不上。

具身智能现在处在比自动驾驶早期更分裂的阶段:一些公司疯狂堆硬件——双足人形机器人,关节自由度奔着30个去,灵巧手恨不得每根手指都有触觉;另一边,软件大模型在互联网文本图片上聪明绝顶,一进真实厨房就“智障”——它没见过真实摔碎一个鸡蛋和虚拟模拟摔碎鸡蛋的区别,不知道用力几分会捏爆一颗草莓。

这背后是“莫拉维克悖论”的现代化身:大模型让机器人有了常识和语义理解,这是“高级智能”;但感知与控制所需的“低级智能”——比如在不确定环境中稳定抓取、动态平衡、触觉反馈——依然极其原始。

所以,如果非要问“更需要硬件还是软件突破”,现阶段我的回答是:两者都需要,但它们突破的节奏必须匹配。 目前软件的“大脑”跑得稍快,但“小脑与神经系统”(感知-运动闭环、低延时可靠控制、真实物理交互数据)还瘫在轮椅上。这导致你给机器人一个博士级别的大脑,它也只能指挥一个婴儿级别的身体。

四、具身智能的iPhone时刻还有多远?

综合上面三个行业的类比,我们可以试着回答你最后那个问题:大潮在几年内能来?

我的判断是:5年内会在特定场景里出现真正能用的具身智能产品,但通用家庭服务机器人的“大航海时代”,大概率要8到10年以上。

5年内能落地的,一定是环境受控、任务边界清晰的领域:仓储搬运、物流分拣、工厂里的柔性上料、无人商超的夜间理货。这些场景里,地是平的,光是稳的,物品种类是有限的——相当于为机器人划出了一块“自动驾驶的封闭园区”。在这个范围内,硬件不需要极其通用,软件不需要处理无穷无尽的长尾,只要把有限几件事的可靠性做到99.9%,就能产生商业价值。这类场景催生的,更像是“机器人界的工业PC”:不性感,但赚钱,能养出供应链。

而那种可以帮你带娃、做饭、换床单的人形机器人,它需要的不仅是更便宜的谐波减速器和更大容量的固态电池,还需要一套数据飞轮——成千上万台机器人在真实世界里操作,把动作序列、力反馈、视觉等多模态数据回传,持续训练基础操作模型。这就像特斯拉FSD依靠几十万辆车在路上采集真实驾驶数据一样。可问题在于,汽车天然就能到处跑着搜集数据,而机器人目前还没有这样一个“低成本量产-大规模部署”的启动条件。

所以,现在行业正在淌的坑,其实就是“先有鸡还是先有蛋”:硬件贵,所以没人买;没人买,就没有真实数据;没有数据,软件就傻;软件傻,就更没人买。打破这个死锁,要么靠一场硬件供应链革命,把高端关节和传感器的成本砍下一个数量级;要么靠某一巨头不计成本地投放数万台机器人进千家万户去“填喂”数据——后者的剧本,大概只有当年的“通信巨头送基站下乡”可以类比。

具身智能的缓慢,不是一条单行道的堵车,而是整个立交桥的匝道还没修通。 而你恰好站在修建匝道的路口——这比已经挤在主路上的许多人,要幸运得多。