明天高考。
昨天晚上我用今年的高考物理真题,让目前最聪明的几个大模型各做了一遍。 GPT-5.5 。 Gemini 3.1 。 DeepSeek V4 。
结果出乎意料地统一:它们全挂在了第二题。
不是大题。不是压轴。是一道选择题。题目大意是:一个物体从斜面滑下,给出了初速度、斜面角度和摩擦系数,问物体在哪种情况下会停下来。 A 、 B 、 C 、 D 四个选项里,人类考生十秒钟能判断出来的那个正确答案, AI 没有一个选对。
不是算错了。它们把计算过程写得很漂亮——对斜面做了受力分析,列了运动方程,甚至用到了能量守恒。每一步看起来都对。但最后一步,它们需要判断"物块是否会超过斜面顶端",然后做了一个人类三岁小孩都不会犯的错误:它们假设斜面是无限长的。
一个无限长的斜面。在高考物理卷上。
不是算术问题,是物理直觉问题

这让我想起去年极客公园做的大模型高考评测。 2024 年全国新课标 I 卷, 9 个国内外大模型参加。文科方面, GPT-4o 拿了 562 分,在河南文科考生里排前 2.45%,国产豆包 542.5 分过了文科一本线。
理科呢?
数学满分 150 分,最高分没及格。物理满分 110 分,平均分 39 分。有一道"时间不会倒流"的送分选择题——人类考生看一眼就知道选哪个——大模型全军覆没。
北京大学的 PHYBench 评测更直接: 500 道全新物理题,最强的 Gemini 2.5 Pro 正确率只有 36.9%。人类专家的平均正确率是 61.9%。这个差距不是精度层面的,是物种层面的。就像一个特别会背菜谱的人被扔进厨房——他知道盐要放多少克,但他不知道"少许"是什么意思。
"文字接龙"为什么做不了物理

耶鲁大学和 Allen AI 研究所去年做了一项研究,帮我们看清了这个问题到底出在哪。他们设计了一个巧妙的实验——在正确的解题步骤里故意植入一个错误,然后看 AI 能不能发现。
结果很残酷:大部分 AI 会盲目地延续那个错误。
研究者把 AI 在物理题上的错误分成了两类。一类是"符号推理"错误——方程推着推着算错了,但这种错误其实不多。另一类是"语义推理"错误——从物理定律推导出应该用哪个方程这一步就错了。 90%以上的翻车都属于后一种。
这说明什么? AI 不是计算能力不够。它的微积分比大多数高三学生厉害。但它不知道"什么时候该用微积分"。就像一个学生会背所有公式,但一看到题目里有个斜面和一个木块,脑子里一片空白——他不知道这道题在考什么。
杨立昆说得更直白:大语言模型的本质是"文字接龙"。它读完"一个物体从斜面"这几个字,下一个字最可能是什么?"滑下"。"滑下"后面最可能是什么?"已知"。它不是在推理,它是在猜。猜得再准,也是猜。
物理考的不是公式,是"看到那个木块"
我小时候物理老师说过一句话,至今记得。他说:"你们做受力分析,不是把力画在纸上。是先把那个木块从纸上拿起来,在脑子里掂一掂。它有多重。它在往哪边滑。地面是粗糙的还是光滑的。先看,再画。"
AI 缺的就是这个"看"。
它读到的是一串字符。每个字符都有位置编码。它知道"木块"这个词和"斜面"这个词在训练数据里经常一起出现。但它看不见那个斜面。它不知道"光滑"和"粗糙"对木块来说是两种完全不同的体验。它不知道一个木块放在斜面上,你推它一下和不推它一下,是两种完全不同的人生。
一个人做物理题的时候,脑子里是有画面的。一个 AI 做题,脑子里只有词和词之间的转移概率。
这就是为什么那道送分题 AI 会全军覆没。题目里没有任何一个词直接写"时间不会倒流"——它需要你从日常经验里调出这个物理常识。而 AI 活了这么多年,从来没有站在一个斜坡上感受过重力。
400 年前,一个人用毛笔写了 2460 字

赵秉忠,万历二十六年殿试状元。万历皇帝出的题目叫《问帝王之政与帝王之心》,赵秉忠用一天时间,在殿试考场上,用毛笔,写了一份 2460 字的答卷。
不是打字。不能退格。没有撤回键。
馆阁体小楷。每个字均匀得像印刷出来的。专家数了,一个字都没有涂改。一张都没有废。万历皇帝亲笔在卷首写了"第一甲第一名"。这份卷子保存了 400 多年,现在是青州博物馆的镇馆之宝。
日出出卷,日落交卷。赵秉忠只有一支毛笔和一天时间。他在答题之前必须先想清楚整篇文章的结构——因为一旦下笔,就没有回头路。他不能先写个草稿再修改。不能把第三段的某句话删了挪到第一段。他必须在一笔之前,完成全部的"物理建模",然后一笔不停。
这不就是物理直觉吗?赵秉忠在那间考场上,面对一张空白的宣纸,脑子里已经跑完了全部论证。他不是在写文章,他是在把脑子里的东西誊下来。
AI 不需要跑那一步。 AI 永远有"删掉重来"的机会。
所以 AI 会超过人类吗
我不知道。
如果"超过"是指"物理竞赛拿金牌",那也许能用更多的训练数据、更大的参数量、更长的推理链条堆上去。但那不是理解。那是一个学生买到了所有真题的答案——他确实能做对,但他不知道这些答案是什么意思。
如果"超过"是指"它有一天能站在一个斜坡上,感受到脚底的摩擦力,然后回过头对我说:你试过从这里滑下去吗,还挺好玩的"——那我不知道。
也许最好的答案恰恰藏在这两张答题纸之间。一张是 400 年前赵秉忠用毛笔写就的,一个字都没有涂改。一张是 AI 刚刚做完的选择题,每一步的推导都漂亮得无可挑剔,但最后一步假设世界是无限大的。
一个人学会了在有限的时间和空间里做决定。一个模型学会了在所有可能的词语里选下一个最像的。
我不知道哪一个更接近"理解"。但我知道,如果让我跟其中一个一起站在一个光滑的斜面上,我选赵秉忠。
夜雨聆风