不写代码、不造车,这家中国公司凭什么让AI学会了“走路”?

电影《流浪地球》里，那些笨重的门框机器人，曾经是我们对人工智能最科幻的想象。但现实往往比电影更魔幻。前段时间，小米开源了一个叫 MiMo-Embodied 的“具身大模型”。通俗点说，就是他们造了一个“通用大脑”，只要把这个大脑装进不同的机器人体内，机器人就能自己学会走路、拿东西、甚至干家务。最关键的是，这个大脑，不是靠人类一行行写代码教出来的，而是它自己看视频学会的。

01 AI 的终极形态：从“脑子”到“身体”

这两年，我们被各种大模型刷屏了。它们能写诗、能解题、能写代码，智商奇高。但它们有个致命的缺陷：它们是“瘫子”。你让 ChatGPT 帮你倒杯水，它只能告诉你“倒水的步骤是：拿起杯子、拧开水龙头……”，但它连一个瓶盖都拧不开。

为了让 AI 真正能替人类干体力活，科技圈搞出了一个新概念：具身智能（Embodied AI）。简单来说，就是给聪明的大脑，装上一个机械身体（比如人形机器人、机器狗、机械臂）。

难点在哪？在于“大脑”和“身体”的配合。你告诉机器人“把桌子上的苹果扔进垃圾桶”，它需要经过极其复杂的计算：苹果在三维空间的具体坐标是什么？手臂抬起多少度？抓取时用多大的力气才不会把苹果捏烂？

02 中国团队的“降维打击”：让 AI 看视频学动作

国外的巨头（比如波士顿动力、特斯拉）是怎么教机器人干活的？靠的是“老牛拉破车”式的强化学习：让机器人在虚拟环境里跌倒一万次，或者人类工程师拿着遥控器，一点点引导机器人做动作，然后把数据喂给它。

但小米开源的这个 MiMo-Embodied，走了一条极其聪明的“中国式捷径”：不靠摔打，靠看视频。

研究人员把网上成千上万段人类走路、抓取物品、做家务的视频丢给这个模型。AI 就像一个看动画片学本领的小孩，通过观察人类的行为，自己总结出了物理世界的规律（比如重力、摩擦力、物体的体积感）。它不需要你告诉它“腿要抬高 5 厘米”，它自己看着视频就悟出了怎么走得稳。

这种“通过视觉理解来驱动身体”的技术路线，直接把训练成本打下来了，而且让机器人面对没见过的复杂环境时，不再那么容易“智障”。

03 不只是造玩具，还在颠覆“开车”的逻辑

这种“看懂世界”的能力，不仅用在人形机器人上，更彻底引爆了自动驾驶领域。

以前自动驾驶是怎么做的？工程师在地上画好线，写几十万行代码：“遇到白线向左打方向盘，遇到红灯踩刹车”。结果一到雨雪天，或者遇到没见过的障碍物，系统直接瘫痪。

现在，结合国产大模型的能力，像比亚迪、吉利这些中国车企，正在跟英伟达等芯片巨头合作，搞“端到端自动驾驶”。什么意思？就是不再写死板的规则代码了。给汽车装上摄像头，让 AI 模型直接看路。它看到的不再是“白线”和“红灯”，而是像人眼一样，理解“前面有个水坑，旁边有辆车在变道，我该减速让行”。这本质上是把汽车，变成了一个有四个轮子的“具身智能机器人”。

04 尾声：属于中国的“赛博时代”正在降临

为什么我们在具身智能上跑得这么快？因为中国拥有全球最庞大的制造业基础、最复杂的路况数据，以及最完整的机器人供应链。AI 大脑再聪明，也得靠中国的工厂把它造出来、降下成本。

从写诗作文的“文弱书生”，到能自己学走路的“钢铁侠”，国产 AI 的进化速度正在挑战人类的想象力。也许不用等太久，当你下班回到家，打开门，一个装着国产 AI 大脑的机器人已经把地扫完，并把热好的饭菜端到了桌上。它会用标准的普通话对你说：“主人，欢迎回家。”

那一刻，你会真切地感受到：科幻，正在中国变成现实。