我让AI做了一套高考物理卷——它卡在了第二道选择题

明天高考。

昨天晚上我用今年的高考物理真题，让目前最聪明的几个大模型各做了一遍。 GPT-5.5 。 Gemini 3.1 。 DeepSeek V4 。

结果出乎意料地统一：它们全挂在了第二题。

不是大题。不是压轴。是一道选择题。题目大意是：一个物体从斜面滑下，给出了初速度、斜面角度和摩擦系数，问物体在哪种情况下会停下来。 A 、 B 、 C 、 D 四个选项里，人类考生十秒钟能判断出来的那个正确答案， AI 没有一个选对。

不是算错了。它们把计算过程写得很漂亮——对斜面做了受力分析，列了运动方程，甚至用到了能量守恒。每一步看起来都对。但最后一步，它们需要判断"物块是否会超过斜面顶端"，然后做了一个人类三岁小孩都不会犯的错误：它们假设斜面是无限长的。

一个无限长的斜面。在高考物理卷上。

不是算术问题，是物理直觉问题

这让我想起去年极客公园做的大模型高考评测。 2024 年全国新课标 I 卷， 9 个国内外大模型参加。文科方面， GPT-4o 拿了 562 分，在河南文科考生里排前 2.45%，国产豆包 542.5 分过了文科一本线。

理科呢？

数学满分 150 分，最高分没及格。物理满分 110 分，平均分 39 分。有一道"时间不会倒流"的送分选择题——人类考生看一眼就知道选哪个——大模型全军覆没。

北京大学的 PHYBench 评测更直接： 500 道全新物理题，最强的 Gemini 2.5 Pro 正确率只有 36.9%。人类专家的平均正确率是 61.9%。这个差距不是精度层面的，是物种层面的。就像一个特别会背菜谱的人被扔进厨房——他知道盐要放多少克，但他不知道"少许"是什么意思。

耶鲁大学和 Allen AI 研究所去年做了一项研究，帮我们看清了这个问题到底出在哪。他们设计了一个巧妙的实验——在正确的解题步骤里故意植入一个错误，然后看 AI 能不能发现。

结果很残酷：大部分 AI 会盲目地延续那个错误。

研究者把 AI 在物理题上的错误分成了两类。一类是"符号推理"错误——方程推着推着算错了，但这种错误其实不多。另一类是"语义推理"错误——从物理定律推导出应该用哪个方程这一步就错了。 90%以上的翻车都属于后一种。

这说明什么？ AI 不是计算能力不够。它的微积分比大多数高三学生厉害。但它不知道"什么时候该用微积分"。就像一个学生会背所有公式，但一看到题目里有个斜面和一个木块，脑子里一片空白——他不知道这道题在考什么。

杨立昆说得更直白：大语言模型的本质是"文字接龙"。它读完"一个物体从斜面"这几个字，下一个字最可能是什么？"滑下"。"滑下"后面最可能是什么？"已知"。它不是在推理，它是在猜。猜得再准，也是猜。

我小时候物理老师说过一句话，至今记得。他说："你们做受力分析，不是把力画在纸上。是先把那个木块从纸上拿起来，在脑子里掂一掂。它有多重。它在往哪边滑。地面是粗糙的还是光滑的。先看，再画。"

AI 缺的就是这个"看"。

它读到的是一串字符。每个字符都有位置编码。它知道"木块"这个词和"斜面"这个词在训练数据里经常一起出现。但它看不见那个斜面。它不知道"光滑"和"粗糙"对木块来说是两种完全不同的体验。它不知道一个木块放在斜面上，你推它一下和不推它一下，是两种完全不同的人生。

一个人做物理题的时候，脑子里是有画面的。一个 AI 做题，脑子里只有词和词之间的转移概率。

这就是为什么那道送分题 AI 会全军覆没。题目里没有任何一个词直接写"时间不会倒流"——它需要你从日常经验里调出这个物理常识。而 AI 活了这么多年，从来没有站在一个斜坡上感受过重力。

赵秉忠，万历二十六年殿试状元。万历皇帝出的题目叫《问帝王之政与帝王之心》，赵秉忠用一天时间，在殿试考场上，用毛笔，写了一份 2460 字的答卷。

不是打字。不能退格。没有撤回键。

馆阁体小楷。每个字均匀得像印刷出来的。专家数了，一个字都没有涂改。一张都没有废。万历皇帝亲笔在卷首写了"第一甲第一名"。这份卷子保存了 400 多年，现在是青州博物馆的镇馆之宝。

日出出卷，日落交卷。赵秉忠只有一支毛笔和一天时间。他在答题之前必须先想清楚整篇文章的结构——因为一旦下笔，就没有回头路。他不能先写个草稿再修改。不能把第三段的某句话删了挪到第一段。他必须在一笔之前，完成全部的"物理建模"，然后一笔不停。

这不就是物理直觉吗？赵秉忠在那间考场上，面对一张空白的宣纸，脑子里已经跑完了全部论证。他不是在写文章，他是在把脑子里的东西誊下来。

AI 不需要跑那一步。 AI 永远有"删掉重来"的机会。

我不知道。

如果"超过"是指"物理竞赛拿金牌"，那也许能用更多的训练数据、更大的参数量、更长的推理链条堆上去。但那不是理解。那是一个学生买到了所有真题的答案——他确实能做对，但他不知道这些答案是什么意思。

如果"超过"是指"它有一天能站在一个斜坡上，感受到脚底的摩擦力，然后回过头对我说：你试过从这里滑下去吗，还挺好玩的"——那我不知道。

也许最好的答案恰恰藏在这两张答题纸之间。一张是 400 年前赵秉忠用毛笔写就的，一个字都没有涂改。一张是 AI 刚刚做完的选择题，每一步的推导都漂亮得无可挑剔，但最后一步假设世界是无限大的。

一个人学会了在有限的时间和空间里做决定。一个模型学会了在所有可能的词语里选下一个最像的。

我不知道哪一个更接近"理解"。但我知道，如果让我跟其中一个一起站在一个光滑的斜面上，我选赵秉忠。