赵昊团队:AI“第三语言”让机器人秒懂世界

赵昊团队：AI“第三语言”让机器人秒懂世界

【文章导读】：2026年5月，清华大学赵昊团队在CVPR 2026上发表了四篇论文，提出通过引入“中间表示”来弥合多模态AI中的巨大鸿沟。研究发现，在动作与视频、图像与4D场景、首帧与未来视频、异构硬件与统一策略之间，使用Occupancy、Gaussian Map、Pose-Appearance-Motion链以及FAAS等功能性中间表示，比强迫模型进行直接映射更有效。这一方法学原则能显著提升生成质量、可控性和泛化能力，为构建更强大、通用的AI系统提供了新思路。

想象一下，你让家里的机器人帮你“把那个杯子拿过来”。对你来说，这简单得不能再简单了。你看到杯子，大脑瞬间理解了“拿”这个动作，手就伸过去了。但对机器人来说，这简直是一场灾难性的“跨服聊天”。它听到的是“语言”，看到的是“像素”，需要执行的是“电机控制指令”。这三者之间，就像中文、摩斯密码和乐谱一样，完全是不同的“语言”，中间隔着巨大的鸿沟。

过去，AI科学家们总想用蛮力解决这个问题，逼着模型直接“翻译”，比如输入一串动作参数，就指望它直接输出一段视频。这有点像逼着一个人，只听法语，就立刻写出中文的书法作品，结果往往是一团糟。直到最近，清华大学赵昊团队在CVPR 2026上扔出了一套“组合拳”——四篇论文，它们不约而同地指向了一个更聪明、更优雅的解法：别硬来，找个“翻译官”。

这个“翻译官”，就是中间表示，也被他们称为AI的“第三语言”。它不是什么神秘代码，而是一种介于两种原始信息之间的、结构化的、更容易被双方理解的“桥梁”。这听起来有点抽象？别急，我们来看看他们是怎么用这个“桥梁”解决实际难题的。

一、从“像素流”到“3D世界”：让机器人学会“空间思考”

第一个难题是：如何让机器人通过看人类的操作视频，学会新技能？

你给机器人看一段你拿杯子的视频，它看到的只是一堆快速闪过的像素点，它完全无法理解这些点和“拿起”这个动作有什么关系。这就是所谓的“表征鸿沟”。赵昊团队提出的 ORV（Occupancy-centric Robot Video Generation） 方法，引入了一个关键的“翻译官”——Occupancy（占据格）。

你可以把Occupancy想象成一个3D的“乐高世界”。在这个世界里，每个小方块（体素）只标记一件事：这个位置有没有被物体占据。比如，杯子和手所在的位置被标记为“占据”，空气部分标记为“未占据”。这样一来，抽象的动作（“关节转动了15度”）就被翻译成了具象的3D空间事件（“手在移动，即将接触杯子”）。

💡 核心突破：ORV不再强迫AI从动作直接“画”出视频，而是分两步走：先把动作翻译成4D的Occupancy序列（3D空间+时间），再从这个“乐高世界”渲染出任意角度的视频。

这招有多灵？实验数据说话：生成的视频质量指标FVD比最好的“硬翻译”方法提升了18.8%。更绝的是，用这些AI生成的视频去训练机器人，能让它在真实任务中的成功率提升6.4%。这6.4%的飞跃，意味着AI生成的“教材”不再是花架子，而是真正能教机器人本事的“好老师”。

二、扔掉“拐杖”：AI自己学会从混乱照片中重建4D世界

第二个难题更刁钻：如何从一堆可能角度混乱、毫无章法的照片或视频中，重建出动态的3D场景？

传统方法有个“潜规则”：你必须事先知道每张照片是从哪个角度拍的（相机位姿）。这就像拼乐高却必须按说明书顺序来，一旦顺序乱了就抓瞎。赵昊团队的 DGGT（Dynamic Gaussian Graph Transformer） 方法，直接把这个“潜规则”给掀了。他们让AI自己猜照片的拍摄角度，同时重建4D场景。

他们的“翻译官”叫做 Gaussian Map（高斯图）。你可以把它想象成无数个微小的、有颜色和透明度的“泡泡”，这些泡泡共同填充和描述了一个动态的3D场景。关键是，这个“泡泡世界”的描述是与相机角度解耦的。

🔥 颠覆性思路：DGGT让AI玩一个“大家来找茬”的循环游戏：先摆一堆“泡泡”猜一个场景，再猜一个拍摄角度，看看从这个角度渲染出来的图片和输入的照片像不像。不像就同时调整“泡泡”和猜测的角度，直到两者完美匹配。

结果令人震惊：它能在0.4秒内完成一个动态场景的4D重建，而传统方法需要几分钟甚至几小时。更厉害的是，在Waymo数据上训练的模型，可以直接用在NuScenes的数据上，效果损失极小。这意味着AI通过“高斯图”这个中间语言，真正抓住了场景的本质，而不是死记硬背某个特定数据集的“拍照角度”。这为自动驾驶汽车实时理解复杂路况，提供了前所未有的可能性。

三、从“统一语言”到“通用策略”：终结机器人硬件乱局

最后一个难题，可能最让工程师头疼：硬件碎片化。世界上有千百种机械手，有的两根手指，有的五根，关节数量、驱动方式各不相同。为一个手写的控制程序，换一个手就全废了，几乎要推倒重来。

这就像每个品牌的手机都用自己独特的充电接口，烦不胜烦。赵昊团队的 UniDex 方案，就是要做那个**“万能充电协议”**。他们的“翻译官”叫做 FAAS（功能-执行器对齐空间）。

FAAS不再描述“每个关节转多少度”这种硬件细节，而是描述高层功能，比如“捏”、“握”、“按”。无论你的手是16个关节还是24个关节，执行“捏”这个功能时，AI核心策略只输出“捏”的指令。到了具体执行时，再通过一个快速的“翻译层”，把“捏”转换成对应机械手的关节角度。

🌟 行业价值：这彻底改变了游戏规则。一个策略，所有手通用。 在一个灵巧手上训练好的抓取策略，无需任何修改，就能直接用在另一个完全不同结构的灵巧手上，实现了“零样本”迁移。这解决了机器人领域长期存在的“重复造轮子”问题，让研究和应用可以聚焦于算法本身，而不是为每个硬件适配。

结语：好“翻译”胜过十个“大力士”

看完这四个案例，你发现其中的共同点了吗？无论是Occupancy、Gaussian Map，还是FAAS，它们都不是最终输出，但却是让复杂问题变简单的关键。它们把一道“从北京直接飞越太平洋到纽约”的难题，拆解成了“从北京到首尔，再从首尔到夏威夷，最后到纽约”几个更短、更可控的航程。

赵昊团队这四篇论文，与其说是四个独立的技术突破，不如说是向整个AI界宣告了一种更高级的方法论：面对多模态的鸿沟，堆算力、堆数据（大力出奇迹）可能已接近瓶颈，而引入巧妙的“中间表示”（第三语言）才是更本质、更优雅的解题思路。 它让AI系统变得更可控、更可解释、更高效，也更像人类那种分层次、结构化的思考方式。

下一次，当你听到某个AI模型又多了千亿参数时，或许可以多问一句：它找到属于自己的、高效的“第三语言”了吗？因为，一个好的“翻译官”，其价值可能真的胜过十个只会蛮干的“大力士”。

欢迎在评论区聊聊：你觉得，这种“寻找中间表示”的思路，除了机器人，还能在哪些AI应用领域（比如医疗、教育、娱乐）大放异彩？

想及时获取人工智能领域最新深度解读，请关注我们。

赵昊团队：AI“第三语言”让机器人秒懂世界

一、 从“像素流”到“3D世界”：让机器人学会“空间思考”

二、 扔掉“拐杖”：AI自己学会从混乱照片中重建4D世界

三、 从“统一语言”到“通用策略”：终结机器人硬件乱局

结语：好“翻译”胜过十个“大力士”

一、从“像素流”到“3D世界”：让机器人学会“空间思考”

二、扔掉“拐杖”：AI自己学会从混乱照片中重建4D世界

三、从“统一语言”到“通用策略”：终结机器人硬件乱局