电影《流浪地球》里,那些笨重的门框机器人,曾经是我们对人工智能最科幻的想象。 但现实往往比电影更魔幻。 前段时间,小米开源了一个叫 MiMo-Embodied 的“具身大模型”。通俗点说,就是他们造了一个“通用大脑”,只要把这个大脑装进不同的机器人体内,机器人就能自己学会走路、拿东西、甚至干家务。 最关键的是,这个大脑,不是靠人类一行行写代码教出来的,而是它自己看视频学会的。
01 AI 的终极形态:从“脑子”到“身体”
这两年,我们被各种大模型刷屏了。它们能写诗、能解题、能写代码,智商奇高。 但它们有个致命的缺陷:它们是“瘫子”。 你让 ChatGPT 帮你倒杯水,它只能告诉你“倒水的步骤是:拿起杯子、拧开水龙头……”,但它连一个瓶盖都拧不开。
为了让 AI 真正能替人类干体力活,科技圈搞出了一个新概念:具身智能(Embodied AI)。 简单来说,就是给聪明的大脑,装上一个机械身体(比如人形机器人、机器狗、机械臂)。
难点在哪?在于“大脑”和“身体”的配合。 你告诉机器人“把桌子上的苹果扔进垃圾桶”,它需要经过极其复杂的计算:苹果在三维空间的具体坐标是什么?手臂抬起多少度?抓取时用多大的力气才不会把苹果捏烂?
02 中国团队的“降维打击”:让 AI 看视频学动作
国外的巨头(比如波士顿动力、特斯拉)是怎么教机器人干活的? 靠的是“老牛拉破车”式的强化学习:让机器人在虚拟环境里跌倒一万次,或者人类工程师拿着遥控器,一点点引导机器人做动作,然后把数据喂给它。
但小米开源的这个 MiMo-Embodied,走了一条极其聪明的“中国式捷径”:不靠摔打,靠看视频。
研究人员把网上成千上万段人类走路、抓取物品、做家务的视频丢给这个模型。AI 就像一个看动画片学本领的小孩,通过观察人类的行为,自己总结出了物理世界的规律(比如重力、摩擦力、物体的体积感)。 它不需要你告诉它“腿要抬高 5 厘米”,它自己看着视频就悟出了怎么走得稳。
这种“通过视觉理解来驱动身体”的技术路线,直接把训练成本打下来了,而且让机器人面对没见过的复杂环境时,不再那么容易“智障”。
03 不只是造玩具,还在颠覆“开车”的逻辑
这种“看懂世界”的能力,不仅用在人形机器人上,更彻底引爆了自动驾驶领域。
以前自动驾驶是怎么做的?工程师在地上画好线,写几十万行代码:“遇到白线向左打方向盘,遇到红灯踩刹车”。结果一到雨雪天,或者遇到没见过的障碍物,系统直接瘫痪。
现在,结合国产大模型的能力,像比亚迪、吉利这些中国车企,正在跟英伟达等芯片巨头合作,搞“端到端自动驾驶”。 什么意思?就是不再写死板的规则代码了。 给汽车装上摄像头,让 AI 模型直接看路。它看到的不再是“白线”和“红灯”,而是像人眼一样,理解“前面有个水坑,旁边有辆车在变道,我该减速让行”。 这本质上是把汽车,变成了一个有四个轮子的“具身智能机器人”。
04 尾声:属于中国的“赛博时代”正在降临
为什么我们在具身智能上跑得这么快? 因为中国拥有全球最庞大的制造业基础、最复杂的路况数据,以及最完整的机器人供应链。AI 大脑再聪明,也得靠中国的工厂把它造出来、降下成本。
从写诗作文的“文弱书生”,到能自己学走路的“钢铁侠”,国产 AI 的进化速度正在挑战人类的想象力。 也许不用等太久,当你下班回到家,打开门,一个装着国产 AI 大脑的机器人已经把地扫完,并把热好的饭菜端到了桌上。 它会用标准的普通话对你说:“主人,欢迎回家。”
那一刻,你会真切地感受到:科幻,正在中国变成现实。
夜雨聆风