AI 做数学题:一个暴露了大模型本质缺陷的照妖镜

AI 做数学题:一个暴露了大模型本质缺陷的照妖镜
ChatGPT 能写诗、能写代码、能陪你聊哲学,但让它算 37 乘以 83,它有时候会给你一个自信满满的错误答案。这不是 bug,这是大模型架构在数学面前暴露出的一道根本性裂缝。
先说一个让很多人困惑的现象:同一个 AI,能解出高考压轴题,却算错小学竖式。能推导贝叶斯公式,却搞错两位数加减法。这种「忽强忽弱」的表现,让人摸不清它到底懂不懂数学。
答案是:它懂数学的语言,但不懂数学的本质。这两件事,差得很远。
语言模型的原罪:它在「预测」,不在「计算」
大语言模型的训练目标,说穿了就一句话:预测下一个 token 最可能是什么。它读了几乎整个互联网的文本,学会了「当上文出现这些词时,下文大概率出现那些词」。这套机制在语言上极其强大,但在数学上埋下了隐患。
当你问它「24 × 17 等于多少」,它不是在做乘法,而是在做模式匹配。它见过海量的数学题和答案,于是它「知道」这类问题的答案「长什么样」。如果这道题在训练数据里出现过,它大概率答对。如果没出现过,它就开始「编」——编一个看起来合理的数字。
「
语言模型做数学,本质上是在「回忆」,而不是在「推理」。
」
这解释了为什么 AI 做高考数学有时比做小学算术更稳:高考题在网上有大量详细解析,模型见过太多了;而一道随机生成的两位数乘法,训练数据里未必有完全一样的版本。
数学恰好是最无情的试金石
数学有一个语言没有的特性:对错是二元的。一篇文章写得好不好,有模糊空间;一道数学题,答案要么对要么错,没有「差不多」。这让数学成了检验 AI 推理能力最干净的工具。
1语言任务:答案有弹性,模型的流畅表达可以掩盖逻辑漏洞
2代码任务:能跑通就算对,但数学验证更严格
3数学任务:每一步都要对,错一步后面全崩
更残酷的是,数学要求「步步严格」。语言模型天然擅长「大方向对,细节飘」,这在写作里是风格,在数学里是致命的。一个符号写错,一个进位忘掉,整道题就废了。
但 AI 在数学上也有真正的优势
说完缺陷,得说说它真正擅长的部分——否则就不公平了。
AI 在数学上的强项,集中在结构性知识的调用上。定理是什么、公式怎么用、解题框架是哪种类型——这些「数学语言」它掌握得相当扎实。让它解释「为什么拉格朗日乘数法可以处理约束优化」,它能给你一个清晰的概念推导,甚至比很多教科书写得更易懂。
83%
GPT-4 在 MATH 竞赛数据集上的准确率,而 GPT-3.5 只有约 34%——两代模型之间的差距,主要来自「推理链」训练方式的改变
这里有个关键转折点:研究者发现,让模型「说出推理过程」而不是直接给答案,准确率会显著提升。这就是「思维链」(Chain of Thought)提示的核心逻辑。强迫模型一步步写出来,相当于给它建了一个外部的「草稿纸」,每一步的输出成为下一步的输入,错误传播的概率降低了。
真正的突破在哪里
近两年,AI 在数学上的进步路径,其实是在绕开语言模型的缺陷,而不是修复它。主要有两条路:
第一条路:工具调用。让语言模型负责「读题和建模」,把计算部分扔给计算器、Python 解释器或符号计算引擎。模型理解「这道题需要解一个二次方程」,然后调用工具精确求解。这是扬长避短的思路,也是目前最实用的方案。
第二条路:强化学习加持的推理模型。OpenAI 的 o1、o3,DeepSeek-R1,走的都是这条路。通过大量数学和逻辑题的强化学习,让模型在「回答之前先花时间思考」,形成更长、更严密的推理链。这类模型在数学竞赛题上的表现已经相当接近人类顶尖水平,但代价是推理速度慢得多、成本高得多。
有意思的是,AI 在数学上的挣扎,其实映射了一个更大的问题:流畅不等于理解。我们太容易被语言的流畅所迷惑,以为能说清楚就是懂了。但数学不接受这种迷惑——它要求每一个符号都落在实处,每一步都可验证。
这也是为什么数学教育界对 AI 的态度比其他领域更复杂。它既是辅助学习的利器,又是最容易制造「假懂」的工具。一个学生看着 AI 流畅地解出了题目,可能完全没有意识到模型在哪一步其实在「猜」。
✦ 小结
AI 做数学题的困境,本质上是「语言智能」和「符号推理」之间的张力。它不是在变笨,而是在用一套不完全匹配的工具做一件对精确度要求极高的事。理解这一点,才能用对它——知道什么时候该信任它,什么时候必须自己验算。
夜雨聆风