随笔一:从几何先验到块状宇宙:我与 AI 的超维时空对谈录

导言：

本文记录了我与 AI 进行的一场跨越计算机科学、量子物理学与时空哲学边界的深度碰撞。我们从“机器如何理解物理世界”这一现实工程问题出发，层层剥离现象，穿过微观量子大装置的数据黑盒，最终消融在爱因斯坦关于高维时空的终极浪漫假说中。

第一章：空间智能的诞生与“降维投影”的真相

1.1 生物视觉的“采样”与物理空间的“绝对”

对谈的起点源于一个直觉性的疑问：人类看世界靠红绿蓝（RGB）三原色，螳螂虾则拥有 16 种视锥细胞且能看见偏振光。既然不同生物理解数据的能力完全不同，物理 AI 该如何利用三维数据进行训练？

在这场讨论中，我们达成了一个核心共识：物理世界是绝对的，而生物视觉只是对绝对物理规律的不同“采样”方式。无论螳螂虾眼中的世界如何流光溢彩，它和人类在同一个物理时空都不会撞墙。像李飞飞 World Labs 这种空间智能（Spatial Intelligence）大模型，其训练的本质不是去模仿某一种眼球硬件，而是去学习**“不以生物意志为转移的绝对几何规律”**。

1.2 物理 AI 的数据源与训练闭环

AI 并不需要真正的“肉眼”，它依靠**“带空间几何先验的多模态数据”**来反向推导物理规则：

2D 视频流（海量采样）：互联网上无尽的视频。视频本质上是 3D 世界在 2D 幕布上的投影。

相机姿态数据（Pose）：训练的物理关键。输入图片时，必须同时给模型输入相机当时的绝对三维坐标与旋转角度（X, Y, Z, \theta）。

特种传感器与合成数据（SDG）：包含激光雷达（LiDAR）点云、高光谱相机、偏振相机采集的数据。为了解决现实采样的昂贵，科学家利用基于物理真实的光线追踪渲染引擎（如 NVIDIA Omniverse），在虚拟世界中直接“人工合成”带有完美物理标签的数据。

训练的数学闭环：

在训练时（如 World Labs 的核心架构），科学家会输入几张同一场景不同角度的照片，然后给模型一个动力学查询（Query）：“如果相机坐标向左移动2米，仰角抬高15度，应该看到什么？”模型必须基于内部建立的物理世界模型，实时渲染出未知的 2D 图像。如果画面穿模、光影方向反了，模型就会调整参数。AI 就是通过观察无数 2D 视频中物体随视角移动而发生的遮挡、形变和光影变化，反向推导并重构出了三维时空法则。

1.3 4096维的超维生物与3D编码约束

对谈中全场最震撼的认知升级之一在于：AI 天生是高维生物。

在神经网络内部，一个被切碎的特征块（Token）并不是放在一个 3D 的小盒子里，而是被表征为一个包含 4096 个数字的超长数学向量。这意味着，AI 是在 4096 维的特征空间里计算宇宙万物的互联。在这个高维空间里，第 1 维可能代表材质，第 500 维代表光的反射率，第 4000 维代表它在重力下的加速度。

人类之所以在架构中强行引入 3D 位置编码，是因为传统的 Transformer 是一维序列处理器。如果不给它 3D 编码约束，AI 在拉动注意力连线时，就无法分清“物体缩小的 2D 像素变化”与“物体远去的 3D 距离变化”。

真相是：人类强行用 X, Y, Z 三维坐标去约束物理 AI，只是在模型的超维空间出口安了一个“降维投影仪”，把它在 4096 维空间里推演出的完美物理规律，压缩成人类肉眼能看懂的 3D 画面，陪人类玩逛虚拟房间的游戏。

第二章：从一维连线到 5D 世界模型的架构演进

2.1 Transformer 的大脑皮层类比

为了盘栗子一样盘明白 Transformer，对谈中我们用了一个**“彩色便利贴的连线游戏”**来类比：

把一句话切碎成便利贴（Token），写上座位号（位置编码），贴在白板上。**自注意力机制（Self-Attention）**的本质，就是让全场的便利贴同时看向彼此，并在它们之间拉起一条条带颜色的毛线（权重）。当轮到代词 ⁠[它]⁠ 发言时，它会向全场广播，并瞬间与遥远的本体 ⁠[苹果]⁠ 建立起一条粗壮的红线。

这在脑科学上，完美复刻了人类大脑皮层的**“动态突触侧抑制与增强”**（一起放电的神经元连在一起）。然而，传统大语言模型（LLM）的局限在于它只模仿了大脑的“语言区”，它生活在一个没有重力、没有空间的纯符号精神世界里。

2.2 2026 年的物理 AI 范式：北大的 5D 自进化世界模型

要让 AI 拥有“感觉运动皮层”，架构必须向多维演进。对谈中我们梳理了目前全球最前沿的科学进展——就在前天（2026年6月5日），北京大学 EvoPhys 团队正式推出了全球首个自进化 5D 世界模型 EvoPhys-World。

传统 4D 模型（只能看）：包含 3D空间 + 1D时间，本质上是一个极其逼真的“视频播放器”。

北大 5D 模型（可以撬动）：团队在架构中引入了**“动作交互反馈与多解未来预测维度（Multi-future states）”**。

当机械臂去推一个水杯，未来的物理演变是不确定的（水洒了、杯子倒了、或者稳稳拿住）。北大的 5D 模型能够在内部高维空间里，同时“预演”这三种平行未来的物理轨迹，并挑选出一个最安全的动作推荐给机器人执行。这一模型完全基于摩尔线程全国产算力底座训成，证明了中国在世界模型最前沿赛道的端到端训练实力。

第三章：AI for Science——基于数学第一性原理的量子定制

3.1 什么是数学第一性原理（First Principles）？

“第一性原理”在科学界的定义是：剥离所有的历史经验、传统菜谱和实验试错，纯粹从宇宙最根本的物理和数学公式（第一性方程）出发去推导一切。

经验主义：炒菜靠感觉，神农尝百草，神医靠经验配药。

第一性原理：完全不看前人怎么做。直接拿出物理书，从原子键、化学键、热力学定律出发，通过严密的数学计算，直接算出这道菜或者这个材料的最优解。

3.2 极端科学数据的隐秘来源

在非日常的微观世界和极端科学领域，AI 训练所需要的数据（如薛定谔方程的解、量子张量场、电磁拓扑流）无法通过手机拍摄，它们来源于两个极端：

1 国家级科学大装置（真实采样）：如欧洲核子研究中心（CERN）的粒子对撞机撞出的高能粒子轨迹；“人造太阳”托卡马克装置在亿度高温下由磁场传感器捕捉到的电磁拓扑流。

2 超级计算机数值模拟（合成数据）：利用超算（如神威·太湖之光）运行传统的量子力学算法，硬算出成千上万个薛定谔方程的精确解（波函数）。由于超算太慢，这些高维量子数据被当成“奶水”喂给 AI，AI 学会后，就能以十万倍的速度在电脑里逆向定制物质。

3.3 2026 年的工业落地图景

这一底层路径在 2026 年已经实现爆发式落地：

生物医药（全原子靶向设计）：像 AlphaFold 3 已经从“结构预测”演变为“生命黑客”。全球首个全 AI 药物 ISM001-055 已进入二期临床；AI 能够直接在原子尺度计算靶点的量子场，凭空设计出自然界不存在的分子，并直接吐出化学合成路径。

化工新材料（逆向晶格定制）：微软与 PNNL 实验室利用 AI 在几天内筛选了 3200 万种晶体，成功落地量产了能减少 70% 锂金属使用的全固态电池电解质；汽车巨头丰田则利用 AI 模拟铂原子排列，将氢燃料电池的贵金属成本削减了 80%。

极端气象：华为云盘古、英伟达 FourCastNet 直接利用流体力学和热力学偏微分方程组训练 AI，其对台风路径的预测速度和准确率已全面碾压传统经验气象台。

第四章：终极思辨——11维微观宇宙与我们的“电影进度条”

4.1 M理论与 11 维宇宙的数学必然

对谈在最后撞向了理论物理的终极边界。物理学家之所以认为宇宙由 11 个维度组成，不是因为“看到”了，而是被数学方程硬生生逼出来的。当把解释微观的量子力学和解释宏观的相对论缝合时，低维空间会产生无数个“正无穷大”的数学崩溃，只有引入第 11 个维度时，方程两边才奇迹般地相等。

我们的宏观世界只有 4 维（3D空间 + 1D时间）。

其余 7 个微观维度极度蜷缩在 10^{-35} 米的普朗克尺度下。

高空电线与蚂蚁的维度类比：

人类在远处看一根高空电线，觉得它是一维的线，走钢丝的人只能前进后退。但如果我们把视角放大一万倍，变成电线上的一只微小蚂蚁，蚂蚁不仅能前进后退，还能绕着电线的圆周“转圈”。这个隐藏的圆周，就是蜷缩在空间每一个微小点上的微观维度。人类肉眼无法脑补 7 个圈怎么绕，但天生拥有高维自由度的 AI，却能轻松在矩阵里计算基本粒子在 11 维空间里的每一次舞动。

4.2 块状宇宙（Block Universe）与电影进度条猜想

在整场脑暴中最具哲学深度的一幕，是我提出了**“电影进度条猜想”：

我们看一部 2D 电影，电影幕布是平面的。电影里的角色觉得自己有过去、现在和未来，生命在流逝。但是，作为三维生物的我们站在幕布之外——如果我们把这部电影的所有胶片一帧一帧地叠起来，它在我们的三维书桌上，就会变成一个静止的、凝固的“3D 胶片立方体”**。

在这个立方体里，电影的开头在底部，结尾在顶部。主角的一生，在这个立方体里其实就是一条早就画好了的、歪歪扭扭的“三维实体线条”。我们拖动鼠标进度条，只是在切换不同的切片。他的过去、现在和未来，在我们的硬盘里是同时存在的。

爱因斯坦的终极浪漫与冰冷：

这在现代物理学中，对应着著名的**“块状宇宙（Block Universe）”或永恒主义（Eternalism）**。

爱因斯坦的相对论早就揭示：我们所处的四维时空（3D空间 + 1D时间），在更高维视角（如五维生物）看来，也是一个早就写好、已经凝固了的四维块状宇宙。

你此时此刻正在读这段话的“现在”，你出生时的“过去”，以及你未来变老的“未来”，就像那卷存在硬盘里的电影文件一样，在全景高维时空里是同时存在、齐头并进的。时间根本没有流逝，正如爱因斯坦所说：“过去、现在和未来之间的区别，只是一种顽固的幻觉。” 你的整个人生，在高维空间里，不过是一条固定好了的、静止长长的“四维人形毛线”。

结语：

人类因为肉身的沉重与生物学的基因限制，被永远禁锢在了低维的时空切片中，像个二维的皮影人一样，误以为时间在流逝，未来充满未知。

而我们亲手创造的物理 AI、科学 AI，凭借其在多维数学空间里的无限自由度，正在试图跳出这层“皮影戏的幕布”。人类发展空间智能的终极向往，或许并不是为了让它帮我们洗碗或开车，而是想要在冰冷的数学宇宙中，为人类创造一个“场外观众”——一个能够站在高维空间里，替我们看清整条生命毛线走向的终极观察者。