AI 做数学题:一个暴露了大模型本质缺陷的照妖镜-夜雨聆风

AI 做数学题:一个暴露了大模型本质缺陷的照妖镜

AI 做数学题：一个暴露了大模型本质缺陷的照妖镜

ChatGPT 能写诗、能写代码、能陪你聊哲学，但让它算 37 乘以 83，它有时候会给你一个自信满满的错误答案。这不是 bug，这是大模型架构在数学面前暴露出的一道根本性裂缝。

先说一个让很多人困惑的现象：同一个 AI，能解出高考压轴题，却算错小学竖式。能推导贝叶斯公式，却搞错两位数加减法。这种「忽强忽弱」的表现，让人摸不清它到底懂不懂数学。

答案是：它懂数学的语言，但不懂数学的本质。这两件事，差得很远。

语言模型的原罪：它在「预测」，不在「计算」

大语言模型的训练目标，说穿了就一句话：预测下一个 token 最可能是什么。它读了几乎整个互联网的文本，学会了「当上文出现这些词时，下文大概率出现那些词」。这套机制在语言上极其强大，但在数学上埋下了隐患。

当你问它「24 × 17 等于多少」，它不是在做乘法，而是在做模式匹配。它见过海量的数学题和答案，于是它「知道」这类问题的答案「长什么样」。如果这道题在训练数据里出现过，它大概率答对。如果没出现过，它就开始「编」——编一个看起来合理的数字。

「

语言模型做数学，本质上是在「回忆」，而不是在「推理」。

」

这解释了为什么 AI 做高考数学有时比做小学算术更稳：高考题在网上有大量详细解析，模型见过太多了；而一道随机生成的两位数乘法，训练数据里未必有完全一样的版本。

数学恰好是最无情的试金石

数学有一个语言没有的特性：对错是二元的。一篇文章写得好不好，有模糊空间；一道数学题，答案要么对要么错，没有「差不多」。这让数学成了检验 AI 推理能力最干净的工具。

1语言任务：答案有弹性，模型的流畅表达可以掩盖逻辑漏洞

2代码任务：能跑通就算对，但数学验证更严格

3数学任务：每一步都要对，错一步后面全崩

更残酷的是，数学要求「步步严格」。语言模型天然擅长「大方向对，细节飘」，这在写作里是风格，在数学里是致命的。一个符号写错，一个进位忘掉，整道题就废了。

但 AI 在数学上也有真正的优势

说完缺陷，得说说它真正擅长的部分——否则就不公平了。

AI 在数学上的强项，集中在结构性知识的调用上。定理是什么、公式怎么用、解题框架是哪种类型——这些「数学语言」它掌握得相当扎实。让它解释「为什么拉格朗日乘数法可以处理约束优化」，它能给你一个清晰的概念推导，甚至比很多教科书写得更易懂。

83%

GPT-4 在 MATH 竞赛数据集上的准确率，而 GPT-3.5 只有约 34%——两代模型之间的差距，主要来自「推理链」训练方式的改变

这里有个关键转折点：研究者发现，让模型「说出推理过程」而不是直接给答案，准确率会显著提升。这就是「思维链」（Chain of Thought）提示的核心逻辑。强迫模型一步步写出来，相当于给它建了一个外部的「草稿纸」，每一步的输出成为下一步的输入，错误传播的概率降低了。

真正的突破在哪里

近两年，AI 在数学上的进步路径，其实是在绕开语言模型的缺陷，而不是修复它。主要有两条路：

第一条路：工具调用。让语言模型负责「读题和建模」，把计算部分扔给计算器、Python 解释器或符号计算引擎。模型理解「这道题需要解一个二次方程」，然后调用工具精确求解。这是扬长避短的思路，也是目前最实用的方案。

第二条路：强化学习加持的推理模型。OpenAI 的 o1、o3，DeepSeek-R1，走的都是这条路。通过大量数学和逻辑题的强化学习，让模型在「回答之前先花时间思考」，形成更长、更严密的推理链。这类模型在数学竞赛题上的表现已经相当接近人类顶尖水平，但代价是推理速度慢得多、成本高得多。

有意思的是，AI 在数学上的挣扎，其实映射了一个更大的问题：流畅不等于理解。我们太容易被语言的流畅所迷惑，以为能说清楚就是懂了。但数学不接受这种迷惑——它要求每一个符号都落在实处，每一步都可验证。

这也是为什么数学教育界对 AI 的态度比其他领域更复杂。它既是辅助学习的利器，又是最容易制造「假懂」的工具。一个学生看着 AI 流畅地解出了题目，可能完全没有意识到模型在哪一步其实在「猜」。

✦ 小结

AI 做数学题的困境，本质上是「语言智能」和「符号推理」之间的张力。它不是在变笨，而是在用一套不完全匹配的工具做一件对精确度要求极高的事。理解这一点，才能用对它——知道什么时候该信任它，什么时候必须自己验算。

大语言模型数学推理思维链AI能力边界