AI智能体走进现实:不靠遥操靠人类数据,具身智能终于落地

我接触过上百位具身智能从业者，在这行混久了，最让我受不了的，是圈子里一个谁都不敢戳破的默契。

大家都说“真机数据是王道”，都说“遥操作数据采集是唯一正解”。

然后呢？数据成本居高不下，采集一小时动辄花掉数百元，还要搭一套动捕设备；节奏更是慢得让人想骂人——人盯着屏幕遥控机械臂，那种龟速采集，怎么可能跟得上真实工厂的作业节拍？（注：采集成本数据来自新智元2026年4月12日报道，网易转载）

前阵子和一位做具身智能落地的老朋友吃饭，他喝着啤酒，说了句一直压在心里的话：“兄弟，我们其实都知道，真机遥操这条路根本走不下去。只是没人敢第一个说出来。”

怕什么？怕说出来显得自己不专业，怕投资人不高兴，怕被同行嘲笑“不够硬核”。

但我看了灵初智能2026年4月10日这场发布之后，憋不住了。

他们直接拿近10万小时的人类操作数据砸出来，不搞花活、不做对齐，就靠规模暴力拆解，直接登顶MolmoSpaces榜单——碾压了PI、英伟达GEAR、DreamZero这些全球顶尖玩家。（MolmoSpaces信息来自搜狐2026年4月11日报道，艾伦人工智能研究所发起，NVIDIA、PI等顶尖团队参与评测）

等等，这里有个很关键的点我必须说明白——我不是在给任何公司站台，我关注的是一件事：这场发布本质上暴露了整个具身智能行业一个压抑已久的真相。

真机遥操作数据，从来就不是具身智能scaling的正解。它只是一块漂亮的遮羞布，把“数据荒”这个致命问题遮了起来。

一、真机数据的“体面死亡”：不是太贵，而是太慢

说一个行业内公开但没人愿意摆在台面上的事实：真机遥操作数据的最大问题，根本不是“贵”，而是“慢”。

贵可以烧钱解决。但慢——对不起，烧再多钱也解决不了。

具身智能和大语言模型不一样。大模型能从互联网上直接扒海量文本数据，自动驾驶有多年路测积累，机器人呢？它必须靠物理世界一口一口喂。而真机遥操作，本质上是一套“受限于物理世界的线性积累过程”——操作员遥操一台真实机器人做任务演示，一小时就是一小时，你砸一个亿进去，也改变不了这个线性速度。

“我还是认同，最终智能其实来源于数据。”这是灵初智能00后联合创始人陈源培在4月10日那场直播里说的原话。原力灵机创始人唐文斌也承认，数据是具身智能当前的瓶颈之一。（陈源培原话来自第一财经2026年4月11日海斌访谈；唐文斌观点来自九方智投2026年3月29日报道）

更狠的还在后面——节拍。真实工厂里标准作业流程的动作频率，可能逼近机械臂1200的物理极限，但遥操作的采集节拍常常只能做到800甚至更低。你用800的数据训练出来的机器人，怎么可能在1200的产线上不掉链子？

所以那些实验室里跑得风生水起的Demo，到了工厂、仓储现场，往往被速度、成本和稳定性三重暴击，直接现原形。你花钱请人遥操出来的数据，和真实产线的作业节奏根本不在同一个频道上。

这不是我的主观臆断。据新智元4月12日报道分析，“单纯依赖遥操作数据，恐怕无力同时支撑大规模训练与产业落地”。

话说回来，那怎么办？仿真数据也有Sim2Real gap，尤其在处理布料等柔性物体时简直捉襟见肘。

那换条路呢？人类本来就在真实作业场景中完成海量高精细操作——让人直接干活，再把人的操作数据扒下来给机器人用。

二、人类数据的暴力美学：10万小时、100条轨迹就能干活

这条路说起来简单，做起来有两个扎心的坑。

第一，人手和机械手长得不一样，人的操作不能直接平移到机器人身上。这就是圈内常说的“embodiment gap”——本体差异。

第二，如果只靠第一视角视频去还原人手动作，精度顶多到厘米级。但对于手机装配这种需要亚毫米精度的精细活儿，厘米级的误差等于直接废掉。

灵初的解法出乎意料的“不花哨”。

他们自研了一套外骨骼触觉手套数采系统，把手部的3D轨迹采集精度推到亚毫米级；同时还有一部分裸手数据，精度没那么高，但胜在规模大，专门负责提供泛化能力。（外骨骼手套信息来自深圳特区报2025年12月12日报道）

换句话说，高精度数据负责“上限”——保证机器人能胜任精细任务；大规模数据负责“广度”——保证模型见过足够多的场景。两者搭配，才是真正能落地的数据体系。

更值得细品的是他们的模型思路。

他们试过一堆更复杂的招：图像修复、关键点辅助loss、特征空间对齐……这些方法在小数据量时确实管用，但数据量一上来，反而全成了瓶颈。

原因不复杂。那些方法本质上都在努力模糊人和机器人的差异，想让人类数据看起来更像机器人数据。但现实是——对于长程、精细、接触密集的任务，这种差异恰恰是最不能被抹平的。

越复杂的任务，越需要承认“人手”和“机械手”本来就是两种东西。

于是他们走上了一条朴素得近乎“笨”的路线：人手关节用运动学公式硬算成机械手关节，图像原封不动直接喂给模型，人为处理越少越好。用腾讯新闻2026年4月11日报道里的话说，“Raw Data In，Raw Data Out”。

结果呢？据DoNews 4月11日报道，Psi-R2基于10万小时人类数据完成预训练后，只需要不到100条真机轨迹做微调，就能完成手机装配、工业包装、叠纸盒这些长程、高精度的任务。

100条轨迹。注意这个数字。要知道传统的VLA模型微调，动辄需要几百甚至上千条真机轨迹。这不是10%的提升，这是量级上的碾压。

我忽然意识到刚才忽略了一个关键问题：人类数据再好，它能教机器人“什么会失败”吗？

不能。

因为人类数据本质上都是“成功轨迹”——人不会故意演示“怎么把事情搞砸”。但机器人必须知道，动作偏一毫米会怎样，接触晚一点会怎样。这些反事实信息，从成功轨迹里根本学不到。

三、世界模型把“失败”补回来了——数据飞轮这才真正转起来

这就是为什么灵初拿出了两套模型，而不是一套。

策略模型Psi-R2，负责学“任务该怎么做”——它吃人类数据和真机数据，输出机器人的动作。

世界模型Psi-W0，负责补“换种做法会怎样”——它吃图像、语言指令和动作轨迹，吐出未来场景的视频预测。

说白了，Psi-R2像会做题的学生，Psi-W0像能把过程重新推演的系统。Psi-R2知道什么动作曾经成功，但不知道动作偏一点、顺序乱一点会发生什么。Psi-W0来回答这个问题。

为了让它真正理解失败，灵初在训练数据里额外加进了约30%的失败样本，来自专项采集和推理过程。这样一来，世界模型不光认识“成功长什么样”，也开始知道“失败会怎样展开”。

更妙的用法在后面：它直接把人类数据转成机器人数据。

以抓苹果为例——人类抓苹果的动作映射到机器人身上，可能就差那么一丁点就抓不起来。传统做法是把场景重建进仿真器，再在仿真里做强化学习微调，流程重、成本高，还得忍受Sim2Real gap。

灵初换了个思路：先让Psi-R2学一条人类轨迹，再把这条轨迹交给Psi-W0推演——在机器人视觉和动力学的条件下，看动作结果会怎样。如果不理想，直接在“梦里”用强化学习接着调，直到轨迹真正贴近机器人的执行状态。

这相当于多了一层“梦里试错”的空间。好的轨迹回流到训练中，成为新数据；偏掉的轨迹也有价值，它们帮助模型识别失败的边界，推动世界模型越来越准。数据飞轮——这个被行业念叨了无数遍的概念——第一次有了看得见的运转逻辑。

坦白说，最开始看到这条新闻时，我心里是有保留的。榜单第一、10万小时数据、双模型架构——这些词我见过太多。但真正让我沉默的，是那个没有被广泛讨论的细节：

他们敢开源1000小时的数据。

在具身智能这个圈子里，数据就是命。特斯拉、波士顿动力、谷歌DeepMind对核心训练数据普遍采取闭源或有限开放策略。而灵初不仅公开了部分数据，还计划在年底把数据集扩展到百万量级。（开源数据规模来自量子位2026年4月11日报道）

这不是慈善，而是一种对自身方法论的绝对自信——他们赌的是，就算把数据全给你，你如果没有那套世界模型和策略模型的协同框架，也很难真正用出这些数据的全部价值。

我接触过的具身智能从业者里，大多数人都在纠结“用什么传感器”“用什么机器人本体”“用什么仿真引擎”。但灵初把牌面直接翻了过来：别管本体，先把人类的数据规模堆上去。本体差异的问题，用世界模型去消化。

这不是技术路线的胜利，这是一场数据范式的公开处刑。

结语：具身智能的“数据红利”，不在真机身上

这篇文章写到这里，我想问大家一个问题：

具身智能的数据荒，本质上是一道选择题。继续烧钱堆真机遥操作数据，就像在沙漠里打井——打一口少一口，越来越贵，越来越慢。还是放下对“真机数据”的执念，承认人类才是最大的数据富矿？

当然，人类数据这条路也远非完美。目前所有“人类到机器人”的映射，对于高动态、全身协同的复杂运动，仍然是世界模型的盲区。灵初这套方案能否在两年内真正跑通百万小时量级的训练，能否覆盖足够的场景多样性，都还是未知数。但这至少是一个方向——一个敢于承认“我们之前走错了路”的方向。

留给各位两个开放性问题：

1. 如果人类数据真的能跑通规模化训练的飞轮，那么“做机器人硬件”的公司，和“做数据基础设施”的公司，五年后谁更有话语权？

2. 100万小时人类数据训练出来的机器人，还需要人类吗？

欢迎在评论区留下你的看法。也欢迎把这篇文章转发给你那位还在花大钱搞遥操作数据采集的朋友——让他看看，这条路可能早该换换了。

【合规参考说明】本文部分行业数据参考自新智元、量子位、DoNews、第一财经、搜狐、腾讯新闻等媒体公开报道。