乐于分享
好东西不私藏

刚刚,国产AI破晓!“零宣发”世界模型杀穿双榜,具身智能的iPhone时刻真的来了?

刚刚,国产AI破晓!“零宣发”世界模型杀穿双榜,具身智能的iPhone时刻真的来了?

导语:就在刚刚,一款神秘模型屠榜了。悄无声息,没有任何宣发,却在代表“世界预测”与“任务执行”的两个国际终极考场上,同时拿下了全球第一。当行业巨头还在为路线之争喋喋不休时,这匹黑马用硬实力直接给出了答案。

一阵风,一场春雨,和一个插花的机器人。

没有任何发布会、Logo,甚至没有一篇融资稿。就在世界模型赛道巨头林立,李飞飞的World Labs、阿里巴巴、Physical Intelligence接连出手的激烈当口,一个名为MotuBrain的模型,不动声色地杀穿了整个行业的天花板。

它拿下的是WorldArena和RoboTwin2.0两个榜单的世界第一。

为什么这件事极其离谱?因为这两个榜单就像“懂王”与“干王”的较量,过去五年从来没人能同时在两边赢。WorldArena考的是机器人对环境变化与物理规律的推演力;

RoboTwin2.0考的是机器人在真实环境中的稳定存活与执行能力。做世界模型的看得懂、动不了;做VLA的能动手、想不远。然而MotuBrain把两张卷子都做了满分。

在WorldArena中,MotuBrain以63.77的EWM Score登顶,同时在Motion Quality、Flow Score等多个关于“运动真不真”的关键指标上全面领跑。

而在RoboTwin2.0的考场里,哪怕环境被加上随机扰动,它也拿下了96.1的高分,是榜单上唯一在随机环境中平均分超过95的模型。

谜底揭开的那一刻,具身圈集体屏住了呼吸。它不是阿里的“快乐生蚝”,不是字节的大招,而是来自国产生成式AI公司——生数科技。

而这家公司最可怕的,不是单纯的刷榜,而是把通用世界行动模型World Action Model直接适配给了多个头部机器人本体。

看一段工业级的demo:

装上MotuBrain的机器人,先插花,后浇水。花茎插入瓶中的角度、喷壶洒水的力度,一镜到底,丝滑得不像机器人。

另一台机器人在身后整理沙发:把衣物放入洗衣篮,将靠枕摆回原位,弯腰捡起掉落的东西——那不是编程好的机械重复,而是真正读懂了世界后再作出行动的逻辑。

更惊艳的是“机器人大厨”:舀出一颗丸子放入碗中,顺带倒一杯果汁。

如果不是勺子在里面打了个转,你几乎要以为这背后是人类的灵魂。而这背后没有上层规划器的拆解、没有VLM的辅助,仅凭MotuBrain一脑贯通。

它直接用混合专家架构融合了视频生成、语义理解与动作生成的三条通路,具备了一脑预见的能力——不仅看懂眼前,更能推演物理世界的走向,再驱动每一个关节的律动。

传统机器人最怕的就是“一换场景就废”。但MotuBrain展示出来的是一脑多能:一个大脑搞定插花、倒水、调酒、整理、折叠各种任务;哪怕面对液体流变、织物形变这种复杂的物理反馈,它也能稳定拿捏。

更可怕的是一脑多型——同一个大模型,毫秒级适配不同形态、不同自由度的机器人硬件,不再是某台机器的专属灵魂,而是一个可以进入任何载体的通用智能生命体。

能够做到这一点,是因为MotuBrain的进化并非一日之功。

在大模型时代,行业一直在争论:是要做“看懂世界的技术宅”,还是做“撸起袖子干活的实干派”?

过去两年最火的VLA(视觉-语言-动作)大模型,局限性极为明显——它只能学已经标注好的专一任务轨迹,一旦换件、转换任务,极易过拟合,成功率断崖下跌。

而生数科技一直在走一条更底层的路:世界动作统一建模。

去年12月,生数科技联合清华开源的大一统架构Motus,把五种本不搭界的范式拧在了一起:VLA、世界模型、视频生成、逆动力学、视频-动作联合预测。

关键的一步是 “潜动作”机制——它能从海量无标签的互联网视频和人类操作录像里,主动抽提运动规律。从此世界模型不再是一个冷眼旁观的预测家,而是直接掌握了“腿脚”。

而作为完全的商业级产物的MotuBrain,把这种预测与执行统一的能力推进到了可以实时闭环的极限。

更令人难以置信的是它的泛化曲线:随着任务数量增加,当别的模型误入歧途时,MotuBrain的成功率反而在爬坡。

这说明它不是死记硬背任务轨迹,而是在学真正的世界规律。几十条轨迹就能适应新任务,这是无数机器人实验室梦寐以求的效果。

也许这才是具身智能最大的壁垒。

做一条手臂远比做一颗大脑容易。当行业里满眼万亿参数的卷王,真正卡住所有人的是——面对世界的纷繁复杂,它失明了、失智了、手残了。

资本正在密集押注机器人操作系统的入口,谁先拿下World+Action的统一架构,谁就锁定了下一个十年的核心基础设施。

生数科技不止布局物理空间。在数字空间,它的视频大模型Vidu已经服务全球200多个国家地区的数千万用户,甚至与好莱坞工作室达成了合作。

一脉同源的架构同时驱动着数字内容生成与物理世界的具身行动,这种贯通“理解、生成、执行”的闭环能力,几乎是在为AGI真正降临物理世界铺设底牌。

也许要不了几年,你家里的扫地机不再像个傻大个,而是能看懂小朋友踢翻的积木、预判洒掉的牛奶走向,起身拿起抹布,安安静静帮你复原整齐。

而这一切的起点,就始于这个没有Logo的夜晚,一匹黑马用一镜到底的长视频,向全世界证明了——机器人的iPhone时刻,或许已经提前来了。