赵昊团队:AI“第三语言”让机器人秒懂世界
【文章导读】:2026年5月,清华大学赵昊团队在CVPR 2026上发表了四篇论文,提出通过引入“中间表示”来弥合多模态AI中的巨大鸿沟。研究发现,在动作与视频、图像与4D场景、首帧与未来视频、异构硬件与统一策略之间,使用Occupancy、Gaussian Map、Pose-Appearance-Motion链以及FAAS等功能性中间表示,比强迫模型进行直接映射更有效。这一方法学原则能显著提升生成质量、可控性和泛化能力,为构建更强大、通用的AI系统提供了新思路。
想象一下,你让家里的机器人帮你“把那个杯子拿过来”。对你来说,这简单得不能再简单了。你看到杯子,大脑瞬间理解了“拿”这个动作,手就伸过去了。但对机器人来说,这简直是一场灾难性的“跨服聊天”。它听到的是“语言”,看到的是“像素”,需要执行的是“电机控制指令”。这三者之间,就像中文、摩斯密码和乐谱一样,完全是不同的“语言”,中间隔着巨大的鸿沟。
过去,AI科学家们总想用蛮力解决这个问题,逼着模型直接“翻译”,比如输入一串动作参数,就指望它直接输出一段视频。这有点像逼着一个人,只听法语,就立刻写出中文的书法作品,结果往往是一团糟。直到最近,清华大学赵昊团队在CVPR 2026上扔出了一套“组合拳”——四篇论文,它们不约而同地指向了一个更聪明、更优雅的解法:别硬来,找个“翻译官”。
这个“翻译官”,就是中间表示,也被他们称为AI的“第三语言”。它不是什么神秘代码,而是一种介于两种原始信息之间的、结构化的、更容易被双方理解的“桥梁”。这听起来有点抽象?别急,我们来看看他们是怎么用这个“桥梁”解决实际难题的。
一、 从“像素流”到“3D世界”:让机器人学会“空间思考”
第一个难题是:如何让机器人通过看人类的操作视频,学会新技能?
你给机器人看一段你拿杯子的视频,它看到的只是一堆快速闪过的像素点,它完全无法理解这些点和“拿起”这个动作有什么关系。这就是所谓的“表征鸿沟”。赵昊团队提出的 ORV(Occupancy-centric Robot Video Generation) 方法,引入了一个关键的“翻译官”——Occupancy(占据格)。
你可以把Occupancy想象成一个3D的“乐高世界”。在这个世界里,每个小方块(体素)只标记一件事:这个位置有没有被物体占据。比如,杯子和手所在的位置被标记为“占据”,空气部分标记为“未占据”。这样一来,抽象的动作(“关节转动了15度”)就被翻译成了具象的3D空间事件(“手在移动,即将接触杯子”)。
💡 核心突破:ORV不再强迫AI从动作直接“画”出视频,而是分两步走:先把动作翻译成4D的Occupancy序列(3D空间+时间),再从这个“乐高世界”渲染出任意角度的视频。
这招有多灵?实验数据说话:生成的视频质量指标FVD比最好的“硬翻译”方法提升了18.8%。更绝的是,用这些AI生成的视频去训练机器人,能让它在真实任务中的成功率提升6.4%。这6.4%的飞跃,意味着AI生成的“教材”不再是花架子,而是真正能教机器人本事的“好老师”。
二、 扔掉“拐杖”:AI自己学会从混乱照片中重建4D世界
第二个难题更刁钻:如何从一堆可能角度混乱、毫无章法的照片或视频中,重建出动态的3D场景?
传统方法有个“潜规则”:你必须事先知道每张照片是从哪个角度拍的(相机位姿)。这就像拼乐高却必须按说明书顺序来,一旦顺序乱了就抓瞎。赵昊团队的 DGGT(Dynamic Gaussian Graph Transformer) 方法,直接把这个“潜规则”给掀了。他们让AI自己猜照片的拍摄角度,同时重建4D场景。
他们的“翻译官”叫做 Gaussian Map(高斯图)。你可以把它想象成无数个微小的、有颜色和透明度的“泡泡”,这些泡泡共同填充和描述了一个动态的3D场景。关键是,这个“泡泡世界”的描述是与相机角度解耦的。
🔥 颠覆性思路:DGGT让AI玩一个“大家来找茬”的循环游戏:先摆一堆“泡泡”猜一个场景,再猜一个拍摄角度,看看从这个角度渲染出来的图片和输入的照片像不像。不像就同时调整“泡泡”和猜测的角度,直到两者完美匹配。
结果令人震惊:它能在0.4秒内完成一个动态场景的4D重建,而传统方法需要几分钟甚至几小时。更厉害的是,在Waymo数据上训练的模型,可以直接用在NuScenes的数据上,效果损失极小。这意味着AI通过“高斯图”这个中间语言,真正抓住了场景的本质,而不是死记硬背某个特定数据集的“拍照角度”。这为自动驾驶汽车实时理解复杂路况,提供了前所未有的可能性。
三、 从“统一语言”到“通用策略”:终结机器人硬件乱局
最后一个难题,可能最让工程师头疼:硬件碎片化。世界上有千百种机械手,有的两根手指,有的五根,关节数量、驱动方式各不相同。为一个手写的控制程序,换一个手就全废了,几乎要推倒重来。
这就像每个品牌的手机都用自己独特的充电接口,烦不胜烦。赵昊团队的 UniDex 方案,就是要做那个**“万能充电协议”**。他们的“翻译官”叫做 FAAS(功能-执行器对齐空间)。
FAAS不再描述“每个关节转多少度”这种硬件细节,而是描述高层功能,比如“捏”、“握”、“按”。无论你的手是16个关节还是24个关节,执行“捏”这个功能时,AI核心策略只输出“捏”的指令。到了具体执行时,再通过一个快速的“翻译层”,把“捏”转换成对应机械手的关节角度。
🌟 行业价值:这彻底改变了游戏规则。一个策略,所有手通用。 在一个灵巧手上训练好的抓取策略,无需任何修改,就能直接用在另一个完全不同结构的灵巧手上,实现了“零样本”迁移。这解决了机器人领域长期存在的“重复造轮子”问题,让研究和应用可以聚焦于算法本身,而不是为每个硬件适配。
结语:好“翻译”胜过十个“大力士”
看完这四个案例,你发现其中的共同点了吗?无论是Occupancy、Gaussian Map,还是FAAS,它们都不是最终输出,但却是让复杂问题变简单的关键。它们把一道“从北京直接飞越太平洋到纽约”的难题,拆解成了“从北京到首尔,再从首尔到夏威夷,最后到纽约”几个更短、更可控的航程。
赵昊团队这四篇论文,与其说是四个独立的技术突破,不如说是向整个AI界宣告了一种更高级的方法论:面对多模态的鸿沟,堆算力、堆数据(大力出奇迹)可能已接近瓶颈,而引入巧妙的“中间表示”(第三语言)才是更本质、更优雅的解题思路。 它让AI系统变得更可控、更可解释、更高效,也更像人类那种分层次、结构化的思考方式。
下一次,当你听到某个AI模型又多了千亿参数时,或许可以多问一句:它找到属于自己的、高效的“第三语言”了吗?因为,一个好的“翻译官”,其价值可能真的胜过十个只会蛮干的“大力士”。
欢迎在评论区聊聊:你觉得,这种“寻找中间表示”的思路,除了机器人,还能在哪些AI应用领域(比如医疗、教育、娱乐)大放异彩?
想及时获取人工智能领域最新深度解读,请关注我们。
夜雨聆风