空间智能:让AI从「看懂图」到「看懂世界」

空间智能：让AI从「看懂图」到「看懂世界」

你有没有想过一个问题：为什么 AI 能认出图片里有一只猫，但分不清桌子上的水杯离你有多远？为什么 AI 能描述一张照片，但没法帮你把桌上的东西整理好？

这个问题困扰了 AI 研究者很多年。但最近，一个新方向开始突破——空间智能（Spatial Intelligence）。

如果说大语言模型让 AI 学会了「思考」，那空间智能让 AI 学会的是「感知」和「行动」。

这件事的重要性，可能比我们想象的还要大。

1. 什么是空间智能？先从一个问题开始

给你看一张图：一个小机器人站在一张乱糟糟的桌子前面。桌上有一本书、一个水杯、一串钥匙。

你能立刻告诉我：水杯在书的左边还是右边？钥匙离机器人有多远？如果我让机器人把钥匙拿给我，它应该怎么走过去？

对你来说，这些都是本能。但对 AI 来说，过去这几乎是不可能完成的任务。

这就是空间智能要解决的问题——让 AI 理解三维物理世界的空间关系，并且能够基于这种理解去行动。

不是一个图像分类问题，不是一个语音助手问题，是一个「AI 怎么在真实世界里存活」的问题。

2. 为什么这件事突然热起来了

空间智能这件事，学术研究其实做了很久。但为什么这两年突然成了业界最火的词之一？

三个原因。

第一，视觉语言模型的突破。

GPT-4V、Claude 的视觉能力、 Gemini 的多模态模型出来之后，AI 第一次能比较准确地「看懂」图像里的内容——不是死板地分类，而是能理解上下文、能描述场景、能推理关系。

这个能力是空间智能的基础。AI 得先知道「桌上有什么」，才能去想「怎么把这些东西收拾好」。

第二，3D AI 技术的成熟。

以前 AI 看的都是 2D 图片。2D 图片能提供的信息有限，缺少深度信息。

现在有了 LiDAR、结构光、深度相机这些硬件，加上 NeRF（神经辐射场）和 Gaussian Splatting 这类 3D 重建技术，AI 第一次能建立完整的三维空间表示。

简单说：AI 现在能「看到」深度了，能知道一个物体在你前面两米、左边半米的位置。

第三，机器人成本的下降。

空间智能最终要落地，需要物理世界的载体——机器人。

这两年机器人核心零部件的成本降得很快：一个机械臂的价格从十几万跌到几万块；深度相机的成本从几千块跌到几百块。

成本降了，AI+机器人的组合才有可能从实验室走向真实场景。

3. 现在的空间智能能做什么

说几个最近让我印象深刻的进展。

进展一：机器人的手眼协调

Google DeepMind 最近发布了一个机器人系统，能根据自然语言指令完成复杂的空间操作任务。

比如你说「把那个红色盒子从架子上拿下来，放到蓝色箱子旁边」，机器人能理解这个指令里的空间关系，自己规划路径，完成抓取和放置动作。

之前这种任务需要人工示教，或者非常精确的编程。现在 AI 自己能理解「哪里」「拿什么」「放哪里」。

进展二：自动驾驶的「空间大脑」

很多人不知道自动驾驶现在最难的点在哪里——不是识别障碍物，而是理解空间关系。

一个典型场景：路边停了一辆车，这辆车突然开车门。自动驾驶系统必须判断：这个车门会挡住哪条车道？行人会不会被逼到我的车道上？我应该减速还是变道？

这些都是空间推理问题，不是简单的图像分类。

Tesla 的 FSD 和 Waymo 最新的系统，都在空间智能上下了大功夫。他们用的技术是把 2D 图像重建为 3D 空间，然后在这个空间里做推理。

进展三：空间计算与 AR/VR

Apple Vision Pro 发布的时候，用了一个词叫「空间计算」（Spatial Computing）。

简单说就是让 AI 理解你周围的三维空间，然后把虚拟内容和真实空间融合在一起。你转头，虚拟物体的角度跟着变；你走近，虚拟物体向你靠近。

这个体验的基础，是 AI 对空间的高精度理解——不是「这里有个东西」，而是「这个东西在这个位置、朝这个方向、离你这么远」。

4. 为什么这件事比大语言模型更难

大语言模型再强，它的输入输出本质上还是文字。空间智能不一样，它的输入是真实的三维物理世界，输出是动作。

这个难度差别在哪里？

大语言模型的错误，大部分时候只是「说错了」。空间智能的错误，可能是「撞到了」「抓空了」「估算距离差了一米」。

一个是语言问题，一个是物理问题。

物理世界的容错率更低。一段文字错了，读者能理解你的意思。一个机器人把距离算错了，可能直接砸坏东西。

这就是为什么空间智能的研究方法跟大语言模型不一样——光靠「Scale it up」不够。你需要更精确的空间表示、更鲁棒的推理机制、更安全的执行策略。

5. 这件事对普通人意味着什么

说几个可能很快会发生的。

机器人进入生活场景。

五年内，家庭机器人可能会从「玩具」变成「实用工具」。不是帮你做饭那种全能机器人，而是能帮你「把脏衣服放到洗衣机旁边」「把散落在各处的遥控器收拾到茶几上」这种具体任务。

这个能力的基础就是空间智能——机器人得知道东西在哪里、怎么走过去、用多大力气抓。

AR 眼镜真正有用。

现在 AR 眼镜最大的问题是「不知道你在看什么」。空间智能成熟之后，AR 眼镜能理解你眼前的空间结构，把虚拟信息放在对的位置、做对的事情。

比如你走进一个会议室，它能告诉你「这个座位是谁的」「这个白板上的图是谁画的」「上次会议讨论到哪了」。

具身智能改变生产制造

「具身智能」（Embodied AI）这个词最近也很火，意思差不多——AI 得有一个身体，得在真实空间里行动。

工厂里的质检、仓库里的分拣、家庭里的整理……这些工作以前只能靠人，因为 AI 看不懂真实空间。现在有了空间智能，AI 做这些事成为了可能。

写在最后

我一直觉得，「AI 会抢工作」这件事要分开看。

有些工作确实是重复性的、危险性的，AI 学会做这些，对人类是好事。

空间智能让 AI 具备了进入物理世界的能力。这意味着接下来十年，AI 的能力边界会从「数字世界」扩展到「真实世界」。

这个转变的影响，可能比大语言模型还要深远。

觉得有收获，点个在看，下期聊点别的。

如果这篇文章对你有帮助，请随手点赞、在看、转发三连，可以让更多小伙伴看到；如果你想第一时间收到推送，也可以给我一个星标⭐️，感谢你的支持。

关于作者

陆同学AI，香港大学研究生，AI相关的知识分享

个人网站：https://f81b4fea.ai-toolkit-45v.pages.dev/^[1]