AI 将先理解重力,再理解你

AKASHA · ISSUE 045

重力

— PHYSICS —

AI 将先理解重力

再理解你

当所有人都在等 GPT-5，真正的范式跃迁已经发生了——不在语言里，在物理里

DEEP INTELLIGENCE · 2026.06

AI 将先理解重力，再理解你

AKASHA · 2026.06.19

2026年6月12日，北京智源大会上，中国发布了全球首个通用世界基础模型 Physis-v0.1。英文媒体几乎没有报道。但你漏掉的不是一条新闻——你漏掉的是一场范式切换。过去三年，AI的全部注意力在"预测下一个token"上——GPT、Claude、Gemini，所有模型都在比谁更会说人话。但正在发生的范式跃迁不在语言里——在物理里。AI不需要先理解人类才能理解世界。它会先理解重力、摩擦、惯性——然后，带着对物理世界的认知，反过来重新理解语言。

一、世界模型不是"又一个 foundation model"

先说清楚这件事为什么不是"智谱又发了一个新的大模型"。

大语言模型（LLM）预测的是下一个 token：给定一段文本，猜下一个词最可能是什么。这是语言维度的推理。它的物理直觉接近于零——你可以问 GPT 一公斤铁和一公斤棉花哪个更重，它会告诉你一样重。但如果你让它预测一个球从倾斜的桌面上滚下来会落在哪里，它做不到——不是因为它不够聪明，是因为它从来没有"看见"过重力的数学结构。

世界模型（World Model）预测的是下一个物理状态：给定一个场景——一个物体在空间中的位置、速度、受力——猜下一个时刻它会在哪里、什么姿态、什么速度。这是物理维度的推理。

语言模型学的是符号之间的关系。世界模型学的是物体之间的关系。这是两个不同的宇宙。

Physis-v0.1 支持 50 多种复杂物理场景的长期推理。ORCA——同一个大会上发布的另一个模型——统一了"思考、视觉和动作"三条路径：它能同时生成语言推理、视觉预测和动作决策。Nature 和 Science 同时刊登了北京智源大会的研究成果，这是中国 AI 基础研究第一次在两本顶刊上同时亮相。Emu3.5 成为 Nature 上第一篇由中国团队主导的多模态大模型论文。Brainμ1.0 在 Science 上发布了全球最大的 AI 就绪神经科学数据集。这些信号同时出现，不是巧合。

NEXT TOKEN → NEXT STATE

范式

过去三年，AI 在学习怎么说人话。接下来的三年，AI 在学习怎么跟物理世界打交道。

语言是人类的操作系统。重力和摩擦力是宇宙的操作系统。

二、为什么理解物理比理解语言更重要

LLM 的一个核心局限常被忽略：它永远活在训练数据的尾巴上。它知道的所有事情都来自于人类已经写下来的东西。但物理世界的大多数知识从未被任何语言记录过——一个两岁孩子知道把积木堆得太高会倒，这个知识不是从任何一本书上学来的，是摔够了试出来的。

这就是为什么世界模型是 AI 的下一个必争之地。语言模型可以写一篇关于"如何骑自行车"的优秀论文，但永远不能真骑上去。世界模型的目标是让 AI 获得"物理直觉"——不是通过阅读关于重力的文字，而是通过模拟重力本身的数学结构。

语言模型帮你跟人类交流。世界模型帮你在物理现实中存活。哪一个更具生存价值，不言自明。

而且，世界模型解决了一个 LLM 的结构性缺陷：幻觉。LLM 之所以会产生幻觉，根本原因不是"训练数据不够"或者"模型不够大"——是因为语言本身的符号系统中不存在"对错"的客观锚点。"巴黎是法国的首都"这句话的真值不来自任何物理规律，仅仅来自足够多的人同意它。但"一个从1米高处掉落的球会在0.45秒后落地"这句话的真值，被重力加速度 g=9.8 m/s² 锁死。物理是对抗幻觉的天然结界。当一个 AI 在物理世界规则的约束下做预测，它就不是在猜"下一个词应该是什么"——它是在算"下一个状态必然是什么"。

三、中国在这条赛道上没有落后——可能还领先了

这是最容易被忽略的一点。

在大语言模型的竞赛里，美国领先中国大约 12-18 个月。OpenAI 和 Anthropic 的先发优势是结构性的——算力壁垒、数据壁垒、人才密度。但在世界模型这条赛道上，起跑线可能已经被重置。

第一，世界模型不需要万亿 token 的文本语料。

它需要的是物理模拟数据和真实世界的传感器数据——机器人操作数据、自动驾驶数据、工业仿真数据。中国在制造业中积累的物理数据量是全球最大的——每天有数百万台机器人在中国工厂里执行抓取、装配、焊接。这些数据是西方实验室无法通过爬取互联网获得的。语言数据你可以从网上爬——物理数据你只能从真实世界里采集。

第二，世界模型是架构创新，不是算力军备竞赛。

成都考拉悠然团队在世界模型竞技平台 WorldArena 上超越了 NVIDIA 和 Google，用的不是更多 GPU——是一个全新的架构思路：首帧引导、动态记忆、双通路控制。这意味着在"理解物理世界"这个 AI 的子领域里，创新的边界不是由买得起最多 GPU 的人决定的，而是由提出最优理论框架的人决定的。这是中国 AI 的优势面——不靠堆算力，靠架构创新。

第三，Nature 和 Science 的论文信号不是偶然的。

北京智源大会同一周内被两本顶刊同时刊登——这是中国 AI 基础研究在科学合法性的维度上完成了一次认证。在 LLM 时代，中国团队也在发顶会论文，但那个时代的叙事是"追赶"——OpenAI 先做了 GPT-4，中国团队再做对标。但世界模型本身是一个新赛道，没有人在追赶，所有人都在同一条起跑线上。

— LLM VS WORLD MODEL —

AI 的两个赛道正在悄悄分叉

LLM 赛道

预测下一个 token。壁垒是算力。美国领先12-18个月。所有人都在爬同一堆文本数据。

世界模型赛道

预测下一个物理状态。壁垒是真实世界的交互数据。起跑线刚刚重置。架构创新比堆算力更有效。

四、世界模型的真正对手——不是 Google，是熵

如果 LLM 是在信息世界里做负熵工程——把人类全部文字训练成一个低熵分布——那世界模型做的就是同样的事，只不过对象从"语言"换成了"物理"。

语言是一个低维空间。物理是一个高维空间。语言模型只需要处理几十万个 token 的词汇表和它们之间的概率关系。世界模型需要处理三维空间中物体的位置、速度、方向、受力、材质、光照——维度呈指数级爆炸。但回报也是指数级的：一个掌握了物理直觉的 AI 不需要你告诉它"不要把手放在火上"——它在模拟中就体验到了疼痛。

这引出一个更深的问题。为什么世界模型比 LLM 更需要去中心化的训练和部署？因为物理世界是分布式的——没有一个中央服务器能收集地球上所有工厂的传感器数据、所有机器人的操作日志、所有自动驾驶车的实时轨迹。这些数据天然分散在每一个物理位置上。世界模型的未来不是一家公司训练一个巨大的模型然后通过 API 卖给你，而是无数个分布式的物理 AI 节点各自学习各自环境的物理规律，然后在协议层共享学到的"肌肉记忆"。LLM 可以中心化地训练——OpenAI 可以爬取整个互联网。但世界模型不可能中心化——因为物理数据不可被爬取，只能被体验。

语言可以被抓取。重力只能被坠落。这就是为什么世界模型天然是去中心化的。

五、地面真相——世界模型与 AKASHA 的共鸣

回到 AKASHA 的母题。当智能变便宜，跟它互补的东西变珍贵。三样新稀缺——真实世界地面真相、提出对问题的判断、为后果负责的资格——其中最稀缺的，就是地面真相。

GPT 可以生成无限多的文本，但它永远不知道哪一句对应着真实。因为文本的真实性不来自文本本身——它来自文本之外的那个东西：物理事实。世界模型的价值就在这里：它不仅在学习"世界的快照"，它在建立"世界的因果图谱"。当你推一个杯子，它不是在画这个杯子的下一个像素——它在算这个杯子在重力、摩擦力和推力共同作用下的真实轨迹。如果算错了，杯子会摔碎——这就是地面真相。它不是由"专家标注"产生的，是由现实自身的物理定律提供的。这意味着——世界模型是第一个可以自我验证的 AI 范式。

— 2026 · GROUND TRUTH —

地面真相

"LLM 用人类语言训练，靠人类反馈对齐。世界模型用物理定律训练，靠重力本身验证。"

AKASHA · DEEP INTELLIGENCE

六、写在最后

"物"这个字，最早的甲骨文里是"牛"加"勿"——牛是具体的存在，勿是刀的光芒。把一头牛放在光下看清楚，就是"物"的本意——认知论意义上的物不是"客观实在"，是"被光照亮的实在"。

大语言模型照亮的是语言——它让人类几千年来写下的一切被重新索引、重新组合、重新生成。但语言只是物理世界的一层极薄的投影。在投影下面，在符号的海洋底下，有一整个物理世界——重力、摩擦力、惯性、碰撞、光、热、流体——从未被语言完全捕获过。而现在，第一束光正在照进那里。

AI 不需要先理解人类才能理解世界。它会先理解重力、摩擦力和惯性——然后，带着对物的认知，反过来重新理解语言。到了那一天，"这个模型有没有产生幻觉"就不再是一个需要人类标注员来判断的问题了——杯子有没有摔碎，物理世界会给出答案。

语言可以撒谎。重力不会。世界模型的真正对手不是 Google。是熵——而胜负，由物理来判。

数据来源：北京智源大会（BAAI Conference）2026/06/12 公开发布资料；Physis-v0.1 / ORCA / Emu3.5 官方技术文档；Nature & Science 2026年6月刊；World Economic Forum 2026 Technology Pioneers 报告；WorldArena 基准测试公开排名。部分产业趋势为作者主观判断。

我们 AKASHA 持续追踪 AI 范式切换——不只是谁发了新模型，而是底层范式的结构性转移。世界模型、物理 AI、分布式的"地面真相"基础设施——完整拆解和一手分析，都在知识星球。

如果你也在关注 AI 的下一步——从语言到物理——欢迎进来一起拆。

AKASHA · 2026.06.19