当AI够解决问题时,数学教育应当走向何方

当 AI 在形式化数学推理上越来越强，真正的问题已经不再是「怎么解题」，而是「理解数学」到底意味着什么。

长期以来，数学一直被当作一门关于“解决问题”的学科来学习。

这是我们大多数人对数学学习的传统印象。所谓「数学好」，就是能解习题、能攻克高考压轴题、能在压力下得出正确答案，并把解题步骤写得规规矩矩。无论是在中学还是大学，衡量数学能力的标准，说到底是速度、正确率和解题熟练度。

在很长一段时间里，这套考试逻辑是成立的。解题是一件困难的、稀缺的事，而且很长时间以来，它被认为是人类独有的能力。

现在，这种局面正在发生改变。

最近，人工智能在数学方面的进展迅速，从奥林匹克级别的表现跨越到了接近研究水平的实验阶段。过去两年，AI 在数学领域的进步令人瞩目：2024 年，DeepMind 的 AlphaProof 与 AlphaGeometry 2 达到 IMO 银牌标准（28分）；2025 年，搭载“深度思考”的 Gemini 系统更在规定时间内用自然语言解出 5 题，跨越 IMO 金牌标准（35分）。

如今，这一突破正向研究领域延伸。2026 年 2 月，DeepMind 宣布其研究智能体已能处理博士级问题，甚至自主解答了四个猜想。尽管相关论文严谨地将此定性为依赖人工核查的半自主工作，并指出部分猜想并非真正的未解前沿，但这反而确证了 AI 的发展趋势。真正的数学研究不仅在于产出证明，更需要对新颖性、相关性、框架构建与结果验证做出综合判断。

于是，一个严肃的教育问题摆到了桌面上：

如果 AI 越来越擅长解决定义明确的数学问题，那人类学习者该把精力花在哪？*

我的回答不是让学生别解题了。这未免太肤浅，也经不起推敲。解题依然能培养直觉、熟练度和证明的严谨性。但数学学习的重心确实需要转移了。在 AI 时代，学数学应该少盯着「产出答案」，多关注「发展理解」——理解为什么要引入某个概念、为什么定理是对的、证明是怎么搭起来的、理论之间是怎么贯通的，以及，从一开始，什么样的数学问题才值得问。

这不是对数学的否定。恰恰相反，这才更接近数学本来的样子。

为什么我们现在就应该开始担心这个问题

多年来，人们很容易将数学领域的 AI 贬低为“美化版的计算”。人们认为它或许能操纵符号，但无法真正推理。这种观点现在已不再有说服力。

2024 年的 IMO 结果之所以重要，是因为它表明 AI 能以银牌水平解决 6 道奥数题中的 4 道。2025 年的结果更加重要，因为它展示了一个更通用的自然语言推理设置在官方条件下达到了金牌标准。研究人员已经将此视为一个信号，表明 AI 可能很快就会在攻克未解决的研究问题上发挥作用。

研究层面的进展虽然更加精细微妙，但它在教育上的意义已经足够重大。DeepMind 在 2026 年的文章明确将定位为面向数学研究的方向，其支撑论文强调的是一种包含生成、验证、修订和文献比对的工作流，而非一次性输出答案就完事。它们还提出了区分研究数学与竞赛解题的关键问题：新颖性、现有技术水平、问题表述的歧义，以及无意中重复已知结果的风险。

这正是学生现在就该觉醒的原因。问题不在于 AI 有没有取代数学家（显然还没有），而在于「机器计算」和「人类数学推理」之间那条我们熟悉的边界正在变得模糊。一旦边界动摇，教育的优先级就必须重新掂量。

如果「拿到答案」这件事越来越不值钱，那么数学学习中最有价值的部分，就变成了那些在答案之上的东西：概念深度、理论结构、证明判断力、抽象能力和问题品味。

大学数学究竟是什么

这种转变之所以可能，原因之一是大学数学从一开始就不仅仅是问题的集合。

在大学阶段，数学是由定义、概念、定理、证明以及结果之间的关系构建而成的。无论研究的是代数、分析、拓扑、概率、数论、最优化还是几何，真正的任务不仅仅是解决孤立的习题，而是理解一个结构化的理论。

大学数学不仅仅是一系列习题。它是一个由定义、定理、证明和概念关系构成的结构化网络。

这也是为什么从中学数学到大学数学的跳跃会让人措手不及。中学数学奖励的是速度和模式识别；大学数学奖励的东西则越来越偏向定义的精确性、对假设的敏感度、证明策略和结构性的理解。

数学教育研究者几十年前就描述过这种区别。工具性理解是知道规则怎么用；关系性理解则是既知道该做什么，也知道为什么这么做。这个区分很重要，因为学生常常能熟练执行解题步骤，却并不理解这些步骤背后的结构意义。

通过区分概念定义和概念意象进一步深化了这一洞察。学生可能觉得自己「理解」了连续性、紧致性或收敛性，因为脑子里有一幅直观的图像，但那个图像跟严格定义根本不是一回事。高等数学的大部分困难，恰恰出在这种错位上。

换句话说：大学数学真正的研究对象，不是纸面上解出来的题目，而是让题目变得可理解的那张思想网络。

从“解决问题”到“理论构建”

这是我认为 AI 时代正在迫使我们直面的深层转变。

在很长一段时间里，数学教育可以理所当然地把「解题」当作这门学科的核心。理解问题、拟定计划、执行计划、回顾反思——至今仍有巨大的价值，它刻画了数学思维中许多重要的东西。

但随着 AI 在形式化推理的执行层面越来越强，学生需要把更多注意力放在执行之前和执行之后的环节。

执行前：

为什么要引入这个概念？
是什么样的障碍逼出了这个定义？
这个定理到底凭什么重要？

执行后：

这个结果属于什么更大的结构？
哪些部分可以推广？
下一个值得追问的问题是什么？

这就是为什么我不会说「把解题交给 AI」。这种话说过头了。学生仍然需要解题，就像音乐家仍然需要练音阶、科学家仍然需要做实验一样。但解题应该越来越多地被看作塑造数学思维的手段，而不是目的本身。

在一个机器越来越擅长解决明确定义的任务的世界里，人类的优势将转向概念判断力：看清什么是重要的、什么是相关的、什么可以推广、什么值得追求。

数学理解的分层模型

学生感到吃力的一大原因是“理解数学”并不是一件单一的事情。它是有层次的，在一个层次上的困惑经常被误认为是另一个层次上的困惑。

我发现将数学理解分为五个层次非常有用。

数学理解是分层的：学生常常挣扎，不是因为他们什么都没学到，而是卡在了错误的层次上。

1. 动机

为什么这个主题会存在？是什么样的问题或张力促使数学家发明了它？它让我们说出了哪些旧语言说不出的东西？没有动机，形式化的材料就会显得武断。

2. 概念

定义到底说了什么？标准示例、反例和边缘案例有哪些？哪些直觉是有帮助的，哪些是有误导性的？这正是区分尤为关键的地方。学生的直觉图像必须和严格定义对上。

3. 定理

什么是对的？在什么条件下是对的？哪些结果构成了章节的骨架，哪些只是技术支撑？

4. 证明

为什么定理是对的？上层的证明策略是什么？哪些假设在起核心作用？学生往往掌握了相关事实，但仍然构造不出证明，因为他们缺乏策略性知识——也就是说，他们不知道如何把这些事实组织成一个论证。

5. 结构

这个主题的各部分是如何贯通起来的？哪些思想在反复出现？哪些结果依赖于哪些其他结果？本章如何与数学的其他部分相连？这是专家与新手差距最明显的地方。在经典的专家-新手研究中，专家倾向于按深层结构组织知识，而新手则按表面特征分组。那项著名的研究虽然是在物理学领域做的，但结论同样适用于数学：专业知识不只是知道更多事实，而是知道怎么组织它们。

最后一层在当下尤为重要。如果 AI 能日益帮助解决单个问题，那么人类最有价值的技能之一就是看清理论架构的能力。

传统学习方法的误区

很多标准的数学学习方法在悄悄培养错误的习惯。

典型的循环很常见：听讲座、抄笔记、做习题、看答案、考前复习。

这种常规本身并没有错。但它往往会退化为浅层学习：

机械抄写而非大脑加工；
被动辨认而非主动重构；
记住结论而非理解其作用；
套用模板而非看清结构。

如果使用不当，AI 会加剧这种情况。它能让总结来得更快、提示来得更快、解题大纲来得更快，也会更快地制造出一种「我懂了」的假象。危险不仅在于作弊，更深层的危险是加速肤浅化。

学习科学为这种担忧提供了充分的理由。检索练习比反复复习更能可靠地提高长期记忆。关于必要难度的研究认为，某些形式的困难和阻力反而能促进持久学习。在教学前尝试并在最初经历失败，如果后续反馈得当，反而能加深理解。

这就产生了一个真实的教育两难。AI 可以消除阻力。有时这很有帮助，但有时它消除的恰恰是产生理解所必需的那些挣扎。

因此，问题不在于 AI 是否有用，而在于它是在减少无用的阻力，还是在抹除必要的认知劳动。

AI 真正能提供帮助的地方

如果使用得当，AI 可以支持数学学习。但只有当它的角色受限且明确时，帮助才最大，AI 应当支持以人为本的学习，而非取代判断力、责任感或核心的脑力劳动。在数学中，这一原则的分量格外重，因为危险不仅在于错误，更在于它可能抹掉那些通向真正理解的挣扎、重构和证明训练。

我认为 AI 在五个角色中特别有用：

1. 动机助手

AI 擅长帮你追问为什么要引入某个概念、它解决了什么问题，以及它支撑了后来的什么理论。这很有用，因为讲义往往呈现的是数学最终打磨好的样子，隐藏了催生它的原始需求。

2. 示例生成器

AI 可以迅速产出示例、非示例、反例和边缘案例。这在弥合概念意象与概念定义之间的差距时格外有用。

3. 定理组织者

AI 可以帮助梳理结果之间的依赖关系、比较假设，并区分核心定理与辅助引理。这在教育上往往比要一个解题过程更有价值。

4. 证明评论者

这是许多学生用错的地方。AI 在证明中的最佳角色通常不是「帮我写出来」，而是「批评我的论证，找出漏洞，告诉我漏了哪个假设，并建议备选策略」。这才更贴近证明学习研究中学生真正需要的东西。

5. 结构映射器

AI 往往擅长将笔记重新组织成概念图、定理依赖链和章节总结。这使得它在结构层面真正有用——前提是学生之后要内化这些地图，而不是把理解也一并外包出去。在某些环境下，AI 生成的数学帮助所产生的学习收益可与人工编写的帮助相媲美。但这并不是说我们可以心安理得地依赖 AI，恰恰相反，它提醒我们应当更审慎地使用这个工具。有用的协助不等于可靠的真相，更不等于掌握。

AI 不该取代的部分

有些事，学生无论如何都不该交出去。

你的第一次尝试 不要一上来就索要完整方案。第一次失败的尝试，往往是做出重要诊断的时刻。只有在你真正暴露了当前理解的局限、而纠正尚未到来之前，生产性失败才能真正发挥作用。

对定义的精确阅读 数学定义不是泛泛而谈的描述。量词、定义域和边界条件都至关重要。AI 可以帮你转述，但你仍然需要培养自己对精确形式语言的敏感度。

证明的构建 学生光靠阅读打磨好的证明文本，是学不会做证明的。他们需要亲自尝试构造论证、发现论证在什么地方失败、然后再修补。策略性的证明知识只能在实践中习得。

证明的验证，一个被低估的数学技能是判断一个声称的证明到底有没有效。Selden 和 Selden 的研究显示，很多本科生连这一点都感到吃力。在 AI 时代，这项技能不是变得更不重要，而是更加重要了。

学术判断力，即使 AI 系统生成了一些看起来有前景的东西，仍然需要人类的判断来检查新颖性、识别现有文献，并阐释结果的确切数学意义。

所以，正确的方向不是把数学交给 AI。正确的方向是重新组织数学学习，让 AI 支持理解，而不是掏空理解。

AI 辅助数学学习的实践工作流

一个有用的 AI 辅助学习流应当保留挣扎、重构和检索，而非取代它们。

这是我觉得最有意义的工作流：

先行自学：先亲自接触材料。听讲座、读教材或在求助 AI 之前先试着做题。你的第一次接触不应外包。
诊断卡点：判断你卡在了哪个层次。是动机？定义？定理表述？证明策略？还是全局结构？
精准求助：仅针对该层次使用 AI。询问：概念引入的原因、示例与反例、定理依赖图、对你证明草稿的反馈，或者章节的结构总结。
自主重写：用你自己的语言重写材料。这一步不可妥协。做你自己的笔记，发明你自己的示例，亲自重建证明框架。
独立解题：在没有立即救援的情况下尝试题目。
背诵自测：检索非常重要。在不看资料的情况下重构定义、定理表述和证明大纲。
定期回顾：真正的理解是通过反复访问建立的，而非一遍过的识别。

这个工作流让 AI 保持在学习闭环之内，而不让它取代这个闭环。

那么，现在「数学好」是什么？

在 AI 时代，我认为这个问题的答案需要更加宽广。

数学好当然还包括解题能力。但它越来越也包括：

看清为什么某个定义是必要的；
理解一个定理到底在做什么；
重构证明策略，而不只是消费证明文本；
识别跨越看似不同问题的深层结构；
选择富有成效的抽象；
提出更好的问题。

事实上，这本来也更接近真实的数学实践。

数学家之所以重要，从来不只是因为他们能执行形式化的程序。他们的价值在于能勾勒出有价值的问题、把跨领域的思想连接起来、构建理论，并从浅层的表面模式中辨别出真实的结构。

如果 AI 在执行层变得更强，这不仅不会让数学失去「人味儿」，反而会把其中属于人的那部分衬得更加鲜明。

结论

AI 正在让数学解题变得廉价，这是一切结论的出发点。

过去两年的里程碑——2024 年 IMO 银牌表现、2025 年金牌标准，以及 2026 年关于半自主研究级数学的公开声明——并不意味着学生应该停止解题。但它们确实意味着，数学教育不该再把自己窄化为「产出答案」。

学习数学的目的，从来不只是为了产生正确的输出。它是为了培养一种思维方式：精确、结构化、严谨，且富有生发力。

在 AI 时代，这一点变得更加真切。

脱颖而出的学生，不再是那个解题最快的人。而是那个能解释概念为何存在、证明在做什么、理论如何贯通，以及哪些问题根本值得去问的人。

当机器越来越擅长处理其余一切的时候，这种数学能力，反而会变得更加金贵。