空间智能:让AI从「看懂图」到「看懂世界」
你有没有想过一个问题:为什么 AI 能认出图片里有一只猫,但分不清桌子上的水杯离你有多远?为什么 AI 能描述一张照片,但没法帮你把桌上的东西整理好?
这个问题困扰了 AI 研究者很多年。但最近,一个新方向开始突破——空间智能(Spatial Intelligence)。
如果说大语言模型让 AI 学会了「思考」,那空间智能让 AI 学会的是「感知」和「行动」。
这件事的重要性,可能比我们想象的还要大。
1. 什么是空间智能?先从一个问题开始
给你看一张图:一个小机器人站在一张乱糟糟的桌子前面。桌上有一本书、一个水杯、一串钥匙。
你能立刻告诉我:水杯在书的左边还是右边?钥匙离机器人有多远?如果我让机器人把钥匙拿给我,它应该怎么走过去?
对你来说,这些都是本能。但对 AI 来说,过去这几乎是不可能完成的任务。
这就是空间智能要解决的问题——让 AI 理解三维物理世界的空间关系,并且能够基于这种理解去行动。
不是一个图像分类问题,不是一个语音助手问题,是一个「AI 怎么在真实世界里存活」的问题。
2. 为什么这件事突然热起来了
空间智能这件事,学术研究其实做了很久。但为什么这两年突然成了业界最火的词之一?
三个原因。
第一,视觉语言模型的突破。
GPT-4V、Claude 的视觉能力、 Gemini 的多模态模型出来之后,AI 第一次能比较准确地「看懂」图像里的内容——不是死板地分类,而是能理解上下文、能描述场景、能推理关系。
这个能力是空间智能的基础。AI 得先知道「桌上有什么」,才能去想「怎么把这些东西收拾好」。
第二,3D AI 技术的成熟。
以前 AI 看的都是 2D 图片。2D 图片能提供的信息有限,缺少深度信息。
现在有了 LiDAR、结构光、深度相机这些硬件,加上 NeRF(神经辐射场)和 Gaussian Splatting 这类 3D 重建技术,AI 第一次能建立完整的三维空间表示。
简单说:AI 现在能「看到」深度了,能知道一个物体在你前面两米、左边半米的位置。
第三,机器人成本的下降。
空间智能最终要落地,需要物理世界的载体——机器人。
这两年机器人核心零部件的成本降得很快:一个机械臂的价格从十几万跌到几万块;深度相机的成本从几千块跌到几百块。
成本降了,AI+机器人的组合才有可能从实验室走向真实场景。

3. 现在的空间智能能做什么
说几个最近让我印象深刻的进展。
进展一:机器人的手眼协调
Google DeepMind 最近发布了一个机器人系统,能根据自然语言指令完成复杂的空间操作任务。
比如你说「把那个红色盒子从架子上拿下来,放到蓝色箱子旁边」,机器人能理解这个指令里的空间关系,自己规划路径,完成抓取和放置动作。
之前这种任务需要人工示教,或者非常精确的编程。现在 AI 自己能理解「哪里」「拿什么」「放哪里」。
进展二:自动驾驶的「空间大脑」
很多人不知道自动驾驶现在最难的点在哪里——不是识别障碍物,而是理解空间关系。
一个典型场景:路边停了一辆车,这辆车突然开车门。自动驾驶系统必须判断:这个车门会挡住哪条车道?行人会不会被逼到我的车道上?我应该减速还是变道?
这些都是空间推理问题,不是简单的图像分类。
Tesla 的 FSD 和 Waymo 最新的系统,都在空间智能上下了大功夫。他们用的技术是把 2D 图像重建为 3D 空间,然后在这个空间里做推理。
进展三:空间计算与 AR/VR
Apple Vision Pro 发布的时候,用了一个词叫「空间计算」(Spatial Computing)。
简单说就是让 AI 理解你周围的三维空间,然后把虚拟内容和真实空间融合在一起。你转头,虚拟物体的角度跟着变;你走近,虚拟物体向你靠近。
这个体验的基础,是 AI 对空间的高精度理解——不是「这里有个东西」,而是「这个东西在这个位置、朝这个方向、离你这么远」。

4. 为什么这件事比大语言模型更难
大语言模型再强,它的输入输出本质上还是文字。空间智能不一样,它的输入是真实的三维物理世界,输出是动作。
这个难度差别在哪里?
大语言模型的错误,大部分时候只是「说错了」。空间智能的错误,可能是「撞到了」「抓空了」「估算距离差了一米」。
一个是语言问题,一个是物理问题。
物理世界的容错率更低。一段文字错了,读者能理解你的意思。一个机器人把距离算错了,可能直接砸坏东西。
这就是为什么空间智能的研究方法跟大语言模型不一样——光靠「Scale it up」不够。你需要更精确的空间表示、更鲁棒的推理机制、更安全的执行策略。
5. 这件事对普通人意味着什么
说几个可能很快会发生的。
机器人进入生活场景。
五年内,家庭机器人可能会从「玩具」变成「实用工具」。不是帮你做饭那种全能机器人,而是能帮你「把脏衣服放到洗衣机旁边」「把散落在各处的遥控器收拾到茶几上」这种具体任务。
这个能力的基础就是空间智能——机器人得知道东西在哪里、怎么走过去、用多大力气抓。
AR 眼镜真正有用。
现在 AR 眼镜最大的问题是「不知道你在看什么」。空间智能成熟之后,AR 眼镜能理解你眼前的空间结构,把虚拟信息放在对的位置、做对的事情。
比如你走进一个会议室,它能告诉你「这个座位是谁的」「这个白板上的图是谁画的」「上次会议讨论到哪了」。
具身智能改变生产制造
「具身智能」(Embodied AI)这个词最近也很火,意思差不多——AI 得有一个身体,得在真实空间里行动。
工厂里的质检、仓库里的分拣、家庭里的整理……这些工作以前只能靠人,因为 AI 看不懂真实空间。现在有了空间智能,AI 做这些事成为了可能。
写在最后
我一直觉得,「AI 会抢工作」这件事要分开看。
有些工作确实是重复性的、危险性的,AI 学会做这些,对人类是好事。
空间智能让 AI 具备了进入物理世界的能力。这意味着接下来十年,AI 的能力边界会从「数字世界」扩展到「真实世界」。
这个转变的影响,可能比大语言模型还要深远。
觉得有收获,点个在看,下期聊点别的。
如果这篇文章对你有帮助,请随手点赞、在看、转发三连,可以让更多小伙伴看到;如果你想第一时间收到推送,也可以给我一个星标⭐️,感谢你的支持。

关于作者
陆同学AI,香港大学研究生,AI相关的知识分享
个人网站:https://f81b4fea.ai-toolkit-45v.pages.dev/[1]
夜雨聆风