当AI撞上玻璃墙:人形机器人如何跨越“世界模型”的物理鸿沟?-夜雨聆风

当AI撞上玻璃墙:人形机器人如何跨越“世界模型”的物理鸿沟?

Preface序言

在人工智能的时间尺度上，18个月足以跨越一个时代。

当全世界都在为大语言模型的参数狂飙而沸腾时，硅谷的人形机器人赛道，正在发生一场更为硬核、也更少被外界真正理解的底层革命。

近日，一场发生于Figure总部、长达一个半小时的内部深度对谈中，Figure创始人Brett Adcock以前所未有的坦诚，剥开了当前人形机器人行业的华丽外衣。他讲得最透彻的一点，并非“机器人又学会了什么新动作”，而是重新定义了人形机器人的真正分水岭——从来不是杂技般的后空翻表演，而是能否在真实世界中，彻底抛弃传统代码，依靠端到端的神经网络持续、闭环、稳定地完成有用工作。

本文基于该期访谈实录进行提炼，试图还原人形机器人赛道最真实的竞争壁垒，以及我们距离那个“丰裕时代”还有多远。

这不是一家公司的技术迭代，而是整个人工智能产业向“物理世界模型”进军的冲锋号。

原视频来自

Peter H. Diamandis

《The Humanoid Takeover: $50T Market, Figure’s Full Body Autonomy, and Robots in Dorms #229》

告别“死胡同”：全面抛弃传统控制代码，走向全栈神经网络

Peter：距离上次我们在播客里交流大概只有18个月，但按AI的时间尺度看，几乎像过了十年。今天在Figure总部走了一圈，我最大的感受是：你们已经完全不是原来的样子了。

Brett：我们内部也有同样的感觉。18个月前，我们还处于试图弄清楚硬件基础的阶段。而今天，整个业务的底层逻辑已经完全不同。过去这两年，我们越来越确定一件事：人形机器人不能靠手写代码一路走到终局。你可以用C++写出很多控制逻辑，但那条路最终会遇到绝对的边界。

Peter：我还记得你们早期那个很关键的时刻——Figure 1把咖啡胶囊放进了咖啡机。真正重要的地方，似乎不只是它完成了这个动作，而是它证明了双手人形机器人可以用神经网络去完成真实任务？

Brett：对。当时跑在机器人上的是一个双臂神经网络。在此之前，我们写了几十万行的C++代码。你要知道，写一行这样的代码成本可能高达100美元，不仅极其昂贵，而且很难测试、很难保证可靠性，更不可能去建模真人在现实环境中会遇到的所有复杂行为。

那次之后，我们就决定全力押注神经网络。不是局部使用，而是整个系统都往这个方向重构。到今天发布的Helix 2，我们把剩下的10.9万行C++代码也彻底拿掉了。现在，整个身体的动态控制都已经交给了端到端的神经网络。

Peter：所以Helix 2的意义，不只是模型更新，而是机器人第一次真正开始“全身工作”了？

Brett：没错。过去行业比较强的是桌面级操作（抓取、放置）。但让机器人一边移动、一边操作、一边规划、一边纠错，这是完全不同维度的难度。

我们花了很长时间重构架构，目的就是让眼、手、脚、腿、躯干都协同起来。你会看到它在厨房里工作时，甚至会用胯部去关门、用身体姿态去配合动作，这些根本不是工程师事先写死的，而是神经网络自然生成的行为。它开始接近“自己学会怎么做”。

跨越鸿沟：LLM只懂常识，机器人需要“物理智能”

Peter：你们早期和OpenAI深度合作过。现在行业里也有很多人试图直接把大语言模型（LLM）塞进机器人里。既然LLM已经这么强大，它能不能直接作为机器人的大脑？

Brett：LLM当然重要，但它解决的只是问题的一小部分。它擅长的是语义理解和常识，比如它知道“这是一个水瓶，应该从侧面抓取”。

但机器人真正困难的地方，是物理理解。当它伸手去拿水瓶时，肘部怎么摆？骨盆怎么退？手指怎么施力？接触面的物理反馈是怎样的？一个拥有40多个自由度的人形机器人，其状态空间比宇宙中的原子还要多。这些极其复杂的物理规律和动态协调，是纯文本训练的LLM天然不懂的。

我们曾经做过极限测试，也就是所谓对LLM进行“Zero-shot（零样本）”测试。我们给了一个多模态大模型最基础的X、Y轴导航控制权限，让它寻找出口离开大楼。结果呢？方向是对了，但它直接全速撞上了一堵透明的玻璃墙。

Peter：所以，文本世界里的“知道”，和物理世界里的“会做”，中间还隔着很远。LLM以为自己什么都会，但一进入真实的物理机器，它就原形毕露了。

Brett：完全正确。这也是为什么我们的团队最终决定跑在前面，靠自己的力量去构建底层架构。从观测空间到动作空间的隐性物理映射，必须在物理世界中进行海量的模型训练。我们建立了一套强化学习的“System 0”底层控制器，让机器人真正学会如何在遵守物理定律的前提下控制自己的躯体。世界上以前从没有人能在人形机器人上做到这一点。

戳破泡沫：不迷信“炫技视频”，闭环自治才是王道

Peter：我们目前正处于一个机器人大爆发的时代。现在外界最容易被吸引的，往往是机器人后空翻、跑跳、甚至打功夫这些东西。你如何看待这种竞争格局？最后会像早期的汽车工业一样，从几百家整合到只剩几家巨头吗？

Brett：全球最终只会整合到极少数的几家头部企业。大家普遍大大低估了做通用人形机器人的难度。

很多极其酷炫的演示，本质上是“开环动作回放”，或者干脆是“遥操作（Teleoperation，背后有真人遥控）”。你让一个人通过动捕把动作做出来，再让机器人复现，这绝对不等于机器人真的学会了。

Peter：那你评判技术分水岭的标尺是什么？

Brett：我在乎的是：你能不能把机器人放进一个没见过的陌生环境（比如一个刚租的Airbnb），让它在那里全自主地连续工作几天。

真正难的，不是做一个漂亮动作，而是“闭环控制”——持续感知、持续推理、持续行动，还能在未知环境里泛化。你当然可以做10万台只能遥操作的机器人，但这毫无意义。现在行业里真正值得看的，不是谁会表演，而是谁能解决“通用机器人”问题。

Peter：也就是说，今天大量看起来很震撼的视频，和真正可部署的机器人之间，其实还隔着一大段距离。

Brett：没错。你当然可以做10万台只能遥操作或只能回放固定动作的机器人，但那并不说明你解决了问题。真正重要的是：哪怕只有10台，它们也能进入陌生场景，完成真实而有价值的工作。

硬件现实：为什么“拼装货架零部件”永远造不出好机器人？

Peter：让我们聊聊硬件。Figure 3的进化令人瞩目。你提到成本降低了90%，重量减轻了约30磅，动作也更加流畅自然。很多创业公司或者其他团队，会选择购买现成的电机、机械手进行组装。你们为什么选择极其耗时的重度垂直整合？

Brett：如果能直接从货架上买到电机和机械手，拧上螺丝就能用，那当然是世界上最美好的事。但现实情况是：这完全行不通。

那些货架上的硬件，其技术成熟度极低，而且根本不是为“跑通神经网络”而设计的。如果你去买一台现成的商用人形机器人，为了让它运行大模型，你不得不在它背后外挂一个巨大的“算力背包”，里面塞满电池、计算板，拖着乱七八糟的线缆，还要自己解决极其棘手的散热问题和底层固件通信。这就好比你在造火箭，结果图省事买了个外包的二级助推器直接拿胶带绑在侧面——在早期实验室里玩玩可以，但如果你想规模化量产，这就等同于自杀。

Peter：所以Figure 3的设计逻辑是彻底反过来的？先有AI，再有硬件？

Brett：完全正确。Figure 3唯一的设计原则就是：如何为Helix神经网络设计一个最完美的物理容器。

我们的手、脚、传感器分布，全都是围绕大模型的数据吞吐需求来定制的。比如，人类在伸手去高处或深处拿东西时其实往往是视线受阻的，为了让AI更好地理解抓取过程，我们在Figure 3的每一个指尖都配备了高分辨率触觉传感器，并在掌心嵌入了摄像头。比如我们在脚部加入了被动柔性脚趾，让机器人在下蹲工作时拥有极佳的运动范围。

我们移除了内部所有杂乱的线缆，让外骨骼直接承担结构载荷。而且，为了保证计算效率且不消耗过度电能，我们的推理计算完全在本地运行，没有依赖H100这种高功耗集群，而是极低延迟的定制边缘算力。充电方面，我们采用脚部无线感应充电，机器人只需要站在薄垫上，无需插拔任何线缆，充电一小时就能高强度工作四五小时。

如果你不能完全掌握硬件底层，当你试图提升3到5倍的运行速度时，你的可靠性系统瞬间就会崩溃，你连错出在哪里都不知道。我们甚至计划在今年夏天前，将几乎所有的供应链完全从外部剥离，实现高度的自主可控。

数据飞轮与路线图：终局不仅是工厂，而是家庭

Peter：你刚才提到一个特别关键的点：在神经网络时代，数据会变成真正的资产。

Brett：这已经是一场纯粹的数据竞赛了。人类的学习是孤立的，但机器人群体的进化是指数级的——一旦某一台机器人学会了某项任务，整个机群理论上瞬间就能共享这项能力。这意味着，谁能更快获取高质量、多样化、持续积累的真实世界数据，谁就建立了最深的护城河。

Peter：如果把视角放到2026年，Figure最关心的三个目标是什么？

Brett：第一，在我们的超级工厂里，让“机器人制造机器人”大规模发生。

第二，大规模部署到工业和商业客户场景中。我们已经有很多客户需求，现在关键是交付和运行。

第三，也是最核心的——继续逼近“通用机器人”。不是一个只能执行固定流程的机器，而是一个你可以对话、可以交代事情、能理解上下文、也能真正去完成任务的系统。

Peter：所以商业场景的意义，不只是订单，而是锤炼系统。

Brett：对。只有进入真实世界，机器人才能真正变成熟。你会在客户现场学到大量关于连续运行、维护、安全、调度、修复的东西。我们真正想做的，不是摆出一个demo，而是把机器人跑起来，而且天天跑。

Peter：但你真正描绘的未来，显然不只是工业应用。

Brett：当然。家庭一定是终局之一。尤其是养老、居家照护、长期陪伴，这些都是真实存在而且会越来越大的需求。

我从小接触养老场景，所以很清楚：很多人真正需要的，不只是一个会干活的工具，而是一个既能帮忙做事、又能理解情境、还能长期陪伴的系统。

Peter：所以你理想中的机器人，不只是执行器，更像一个“在身体里的智能体”。

Brett：是的。它要能对话，能记住你说过的话，能理解你的处境，也能在数字世界和物理世界同时行动。最终它不只是一个机器，而是某种意义上的“合成人类能力体”。

寻找物理世界的大航海图

这场超过万字的深度对话，带来了一种令人窒息的科技压迫感，同时也揭示了当前通用人工智能赛道最隐秘的核心命题。

从十万行C++代码的彻底清退，到整个机器人的神经控制接管；从简单的LLM对话，到必须理解重力、摩擦力、空间几何与材料形变的具身智能。Brett Adcock用最直接的工程现实告诉我们：理解文字的规则，与理解物理法则，是两套截然不同的叙事。

Figure 3惊人的流畅度背后，是其系统正在拼命构建一个能精准映射现实的“物理世界模型（World Models）”。但这同时引出了当前赛道最亟待填补的行业空白，也是下一阶段技术与资本必须锚定的核心战役：下一代空间动态数据获取。

传统的2D互联网视频已经无法喂饱这个庞大的物理怪兽，我们需要更高维的数据，来为机器人标注极其细腻的动作抓取、力矩变化与空间轨迹。

从实验室里的步伐，到工厂流水线上的自我制造，钢铁躯壳的物理进化已经走过了最艰难的从0到1。但在通往那个价值50万亿美元的丰饶经济时代前夜，谁能率先跨越这道“数据获取”的鸿沟，为AI铺设最精准的物理世界大航海图，谁就能在接下来的史诗级具身智能浪潮中，真正扼住产业的咽喉。

我们正站在这个巨变奇点的边缘。而且，它来得比任何人预想的都要快。

周蒙🌙：内容研究整理

周蒙🌙：文字排版

Lanshi Rushi 🦁：选题策划

https://www.youtube.com/watch?v=S_fXhVT67Uw：原文链接