AI替代的浪潮面前,我还能做什么数学研究?

用不上最高级的模型，最先进的工具，最庞大的资源，我们还能做什么样的数学研究？

我读了 Google DeepMind 新出的《AI Co-Mathematician: Accelerating Mathematicians with Agentic AI》。这篇文章是我最近用 AI 搭出的论文搜索体系里找到的，正好可以接在我前一篇《我是怎么用 AI 做数学研究的》后面读。

我读完之后最强烈的感受，不在于它证明了 AI 可以做数学。这个结论我之前已经接受了。真正值得看的地方是，它把我之前那篇文章里偏个人经验的工作流，推进成了一个更完整的研究系统。

我之前关心的是，一个普通研究者怎样用 AI 做数学：怎么把问题写清楚，怎么让 AI 生成路线，怎么设计实验，怎么拆 proof obligations，怎么验证代码和证明，怎么把云端讨论沉淀到本地知识库里。

这篇文章关心的是另一个层次：如果要让 AI 真正进入数学研究，它需要怎样的工作空间、组织结构、失败记录、审查机制和最终产物。

这就有意思了。

因为这意味着 AI for Math 的核心问题，已经从「模型会不会证明」移动到了「数学研究本身怎样被重新组织」。

William Turner - Snow Storm - Steam-Boat off a Harbour's Mouth 1842

我之前已经想过的部分

我前一篇文章其实已经写到几个点。

第一，AI 做数学不能只靠聊天窗口。聊天窗口太轻，容易丢上下文，也很难保存失败路线。数学研究需要长期文件、问题库、路线池、失败日志、引用审计和知识回写。云端适合高强度思考，本地适合沉淀。

第二，AI 可以同时给出很多路线，但人要真的理解其中一条。AI 生成证明草稿很容易，人把它重写成自己能讲清楚的证明很难。这个过程不能跳过。只要人没有真正接住，证明就还没有进入人的数学理解。

第三，实验和证明要合在一起。实验不是给论文补图，也不是跑几个数值例子凑热闹。实验可以杀掉错误路线，可以发现结构，也可以把长证明拆成一系列可检查的局部问题。一个好的实验系统，本质上是数学判断的一部分。

第四，AI 输出越强，验证器越重要。验证器可以是测试脚本，可以是反例搜索，可以是符号计算，可以是引用审计，可以是 Lean 形式化，也可以是一次白板复述。它的作用是把「看起来对」变成「通过了哪些检查，还欠哪些检查」。

第五，平行推广会贬值。过去一个研究生可能花几个月做出的技术性扩展，AI 以后可以高通量生成。真正危险的研究方式，是只沿着别人的文章横向挪动一点点。

这些想法在我旧文里已经有了。Zheng 等人的文章并没有推翻它们，反而把它们系统化了。

这篇新文章补上的东西

这篇文章最重要的新东西，是把「个人工作流」变成了「数学研究工作台」。

它提出的 AI co-mathematician，是一个有状态的异步工作空间，不走单轮聊天机器人的路线。用户先和项目协调 agent 讨论问题，明确研究目标；协调 agent 再把目标拆给多个 workstream；每个 workstream 可以做文献检索、计算实验、证明尝试、代码实现、报告整理和审查。

这个结构和我旧文里的经验很接近，但它更完整。我的做法是把云端 AI 当成思想快闪研究室，把本地 Codex 当成工作台。它的做法是把这个工作台产品化：有共享文件系统，有项目状态，有工作流，有审查，有失败记录，有可以继续追踪的数学文档。

这里真正新增的第一点，是「渐进披露」。

数学研究会产生大量低层信息。一个 agent 在查某个引用，一个 agent 在修代码，一个 agent 在补引理，一个 agent 在发现路线失败。如果所有日志都堆到聊天窗口里，人会很快失去判断力。Zheng 这篇文章的设计是，让用户主要和项目协调 agent 交流，只在需要时向下钻到具体 workstream 的细节。

这非常重要。AI 时代的问题不在信息太少，而在信息太多。研究者的注意力本身会成为瓶颈。一个好的 AI 数学系统，必须替人管理信息密度。

第二点，是它把不确定性当成系统的一等变量。

数学研究最怕的情况，是路线失败以后系统假装没失败。路线失败本身并不可怕。文章里反复强调，AI co-mathematician 要追踪不确定性，管理不确定性，并把不确定性暴露给用户。某个引理有争议，某个引用没有核实，某个证明卡住了，某个 reviewer agent 不通过，这些都应该进入工作文档，而不是被整理成一篇光滑的成功叙事。

这补上了我旧文里没有充分展开的一点：失败记录不只是个人习惯，它应该成为数学 AI 系统的基础功能。

第三点，是「失败探索」被保留下来。

数学里知道什么不行，经常和知道什么可行一样重要。过去这些失败路线可能只留在草稿纸、聊天记录和研究者脑子里。AI 系统如果每次失败后直接重启，很多真正有价值的负面信息就消失了。Zheng 这篇文章把 dead end 当成项目历史的一部分，让后续 agent 和人都能基于这些失败继续思考。

这点对做研究的人来说很实在。一个失败路线如果被保存得好，下一次它可能节省一周，也可能逼出一个更好的问题。

第四点，是它把数学产物设计成「工作论文」，而不是聊天回答。

文章里反复说，最终输出应该是数学共同体熟悉的 native artifact。也就是说，它应该是一份持续更新的 LaTeX 工作文档，里面有边注，有内部链接，有引用来源，有争议标记，有审查过程，而不只是一段总结。用户可以从这份文档回到整个项目历史。

这比「AI 给我一个答案」高一个层级。数学研究的产物从来不只是答案。它还包括概念从哪里来，路线为什么失败，证明的哪一段最危险，引用的定理是否真的适用，实验结果怎样产生。AI 如果要参与研究，就必须把这些过程也变成可读、可审计、可回收的材料。

第五点，是它用具体案例说明了人仍然必须在环里。

比如 Lackenby 用这个系统处理 Kourovka Notebook 里的一个问题。系统先给出一个自己也标记为有问题的证明，但 Lackenby 读完后发现其中有一个很聪明的证明策略，并且知道怎么补上缺口。这个案例的重点不在 AI 自动解决了问题，而在 AI 生成了一个足够好的结构，人再用领域理解把它推过最后一道坎。

Berczi 的例子也类似。他事先准备了背景材料、已知方法和先前实验线索，再把问题交给系统。这说明和 AI 合作不能把一句话扔进去等奇迹，需要结构化地提出问题。Rezchikov 的例子则说明，AI 有时最大的价值是让人更快到达一条死路，然后及时转向。

这些案例共同指向一个结论：AI co-mathematician 最适合熟悉领域的人使用。它可以扩大搜索、整理材料、尝试证明、暴露失败，但它不能替人拥有真正的问题感。

第六点，是评价方式也要改变。

文章里提到，AI co-mathematician 在 FrontierMath Tier 4 上拿到了很高的成绩，也在内部研究数学 benchmark 上超过单次调用的基础模型。但我觉得这里真正值得看的，不在分数本身，而在分数背后的含义：系统架构本身会改变模型能力的表现。

一个模型单次回答问题，和一个有长期工作空间、并行 workstream、审查 agent、代码工具、文献工具、失败记录的系统去处理问题，已经是两种东西。以后评价 AI for Math，不能只看「最终答案对不对」。还要看它能不能帮助人修剪假设树，能不能暴露不确定性，能不能把失败写清楚，能不能生成可审计的数学工作文档。

这对原文读者最有价值。

如果你读过我前一篇文章，你已经知道 AI 能帮数学研究加速。Zheng 这篇文章真正补上的，是如何把这种加速从个人手艺变成研究基础设施。

于是问题变得更残酷了

读完这篇文章后，我反而更强烈地回到一个问题：如果大公司可以把最高级的模型、最多的算力、最复杂的 agent 系统、最好的文献工具和最强的数学家组织在一起，那么普通研究者还剩下什么？

以前做 AI 研究，几张显卡也许还能推进一些东西。现在越来越难。以前做实验物理，一个人也许还能搭设备。现在很多前沿问题离不开巨型装置。数学过去看起来比较特殊，因为它似乎只需要纸、笔和大脑。

但 AI 正在改变这一点。

如果高质量数学探索也需要长时间 deep reasoning、大规模 agent search、形式化验证、文献检索、代码实验和多轮审查，那么「做数学」也开始变贵。变贵的对象不是纸笔；真正变贵的是智能预算。

这会把很多普通研究者推到一个尴尬的位置。

你可以在小模型、小数据、小问题上提出理论。问题是，这些理论能不能迁移到大模型、大系统、大规模实验里？你可以在个人电脑上验证一个想法。问题是，大公司可以让十万个 agent 同时搜索类似想法，跑更大实验，用更好模型做更系统的筛选。你写下的 idea，也许只是未来某个 AI 海洋里的一滴水。

这听起来很悲观，但不能回避。

对于大量 incremental paper 来说，答案大概就是这样：会越来越像大系统剩下的边角料。尤其是那些只做局部推广、只调参数、只换条件、只把前人证明平移到相邻问题上的文章，AI 最容易复制。

这不是说普通研究者没有位置。只是位置会变。

当正确性不再稀缺

过去数学的合法性，很大程度上来自两个东西：正确性和稀缺性。

证明是对的。能证明的人很少。于是数学自然显得神圣。

AI 时代摧毁的是第二部分。

如果正确的数学可以被大量生成，那么正确性仍然必要，但已经不够。问题会变成：在海量正确的数学中，哪些数学值得存在？哪些值得读？哪些值得进入教材？哪些值得被应用？哪些值得消耗人类和 AI 的注意力？

这才是我在和 AI 讨论时真正绕不开的问题。

数学会不会变得像艺术？某种程度上会。AI 可以生成大量正确结果，就像它可以生成大量看起来完整的图像、诗歌和文章。人的工作会越来越像策展：选择、组织、命名、解释、压缩、赋义。

但数学又不能彻底变成艺术。数学的叙事必须被硬约束。

一个数学结构至少要能承受几种检查：证明不能错；它要减少复杂性，而不是制造更多术语；它要能迁移到多个问题；它要能自然生成新问题、新定理或新算法；它最好能锚定到物理、计算、智能、工程、社会或人类的所有知识创造中；它还要能被别人长期复用。

所以未来好数学的标准，可能会从「正确 + 美」转向：

正确，压缩，迁移，生成，锚定，复用。

这个标准比过去更硬。因为它不只问一篇文章能不能过审，还问它能不能进入人类知识的长期结构。

普通研究者的新位置

普通研究者最现实的策略，大概不是和大公司拼资源。

大公司擅长通用模型、大规模 benchmark、大规模优化和大规模搜索。普通大学研究者如果沿着同一个 leaderboard 往前冲，很容易被碾压。更好的路线，是占据大公司不容易看到的问题入口。

这个入口可能来自真实学科。你接触某个工程系统、物理现象、生物机制、控制问题、医学数据，知道那里什么问题真的痛。AI 很强，但它缺少这种现实嵌入。一个真正来自现实系统的问题，比一个随手生成的技术推广更难被替代。

这个入口也可能来自验证。未来会有大量形式正确但科学无意义的结果。有人必须判断假设是否自然，边界条件是否合理，数值上是否稳定，物理上是否有意义，引用是否真的适用。验证者会越来越重要。

还有一种位置是压缩者。把海量结果整理成少数核心概念、少数定理、少数范式。写综述、写教材、维护知识库、把散乱结果放进统一框架里，这些工作过去常常被低估。AI 时代它们会变得更关键。

还有一种位置是接口者。把数学、AI、物理、工程、控制、计算连接起来。单点技术被自动化得很快，跨系统接口反而更难。因为它要求人知道不同系统各自真正关心什么。

这样看，一个人在 AI 时代有没有数学研究天赋，就不能只看他能不能独立证明一个定理。

更重要的是，他能不能提出非平凡问题；能不能判断一个问题有没有真实价值；能不能使用 AI 工具形成研究闭环；能不能发现 AI 结果里的假设漏洞；能不能把一个局部结果放进更大的理论或现实系统；能不能产出别人愿意长期使用的结构、数据、工具或理论。

这是一种新的研究能力。它的核心不在生产正确数学，而在海量正确数学中识别、组织、验证和锚定意义。

谁来定义好数学

现在是谁在定义好数学？

今天最显性的标准，其实很粗糙：你发了多少篇顶刊？有没有被某位大佬引用？你的名字有没有进入某个学派、某个 seminar、某个引用网络？一个年轻研究者的价值，经常先被这些外部符号压缩成可管理的指标。

当然，真实的数学共同体比这些指标复杂得多。期刊、审稿人、编辑、顶级会议、seminar、学派网络、引用、教材化、博士培养、奖项、应用领域和时间，都在共同定义什么是好数学。期刊只是早期过滤器。它能判断一篇文章是否正确，是否属于当前共同体认可的问题谱系，是否达到某个技术门槛。但它越来越难判断一篇文章十年后是否重要。

这也是为什么很多顶刊文章看起来并没有多高的本质创新性。它们可能只是沿着一个已经被认可的技术路线，做了一个足够精巧、足够困难、足够符合共同体口味的推进。这样的文章当然有价值，但它的价值常常来自体系承认，而不一定来自真正打开了一个新的世界。

AI 之后，这个问题会更严重。

因为传统期刊系统本来就奖励很多局部可审查、局部正确、局部新颖的工作。给定一篇文章，AI 可以生成它的非平凡变体；给定一个 theorem，AI 可以改变条件、空间、边界、噪声、非线性项；给定一个证明框架，AI 可以做平行推广。很多传统审稿机制对这种生产方式没有免疫力。

更麻烦的是，AI 生成的论文未必是错的。

如果它们大量错误，事情反而简单。审稿系统可以把它们挡在正确性门槛之外。真正困难的情况是，它们大多正确，形式完整，引用齐全，证明可查，但读完之后很难说它们为什么重要。它们会占用审稿人的时间，占用期刊版面，占用读者注意力，最后把整个数学文献变成一个正确但低信号的海洋。

现有体系面对这种投稿量，很难不崩。审稿人本来就是志愿劳动。一个 AI agent 可以在很短时间里生成一批看起来像样的论文，但一个专家认真判断其中每一篇有没有意义，仍然需要真实的时间、经验和注意力。生产速度和判断速度之间，会出现巨大的不对称。

所以未来可能不是简单地把顶刊扩容，也不是让 AI reviewer 替人打分。真正需要重构的，是数学共同体如何分配注意力，如何建立信誉，如何确认哪些结果值得进入长期知识结构。

在这个剧烈重构里，我觉得有些东西不会变。

第一，有用的数学仍然重要。

这里的有用，不一定是立刻服务工程。它可以用于物理建模，可以用于计算，可以用于控制，可以统一几个分散领域，可以让一个复杂问题被压缩成更简单的结构，也可以给未来的理论留下接口。真正有用的数学，会改变别人思考问题的方式。

第二，美的数学仍然重要。

但这里的美不能理解为无人能做出的复杂证明或者概念理解。数学里的美，往往来自压缩、自然性、不可避免性和生成力。一个概念一旦提出，很多原本分散的东西突然排列整齐；一个证明一旦出现，大家会觉得它本来就该这样。这种美不是装饰，它是一种深层结构感。

第三，这些判断必须由专家做出。

机器可以检查正确性，可以查重，可以形式化，可以跑实验，可以指出引用问题。它可以帮助人过滤噪音。但「这个问题值不值得问」「这个概念有没有自然性」「这个结果会不会改变领域的语言」「这个证明是不是抓住了本质」，这些判断只能由同样在做数学研究的人做出。

因为只有真正做研究的人，才知道一个问题为什么卡在那里，知道某个小推进背后有多少隐含难度，也知道某个看起来很大的结果其实没有自然性。外部管理者很难看见这些东西。纯指标更看不见。

所以 AI 时代会反过来暴露以管理驱动、以指标驱动的科研的脆弱性。过去一个系统可以用顶刊数量、引用次数、项目经费、人才帽子来近似管理科研，是因为论文生产速度还没有彻底失控，指标和真实声誉之间还保留着某种相关性。AI 之后，这种相关性会被大量正确但低意义的产物稀释。

一个人如果只瞄准现有评价标准，他会很快学会生产可发表、可包装、可计数的东西。AI 也会学得更快。到那个时候，指标越精细，越容易被优化；管理越依赖指标，越容易奖励最会适应指标的人。

真正不容易被替代的，是专家共同体内部缓慢形成的信誉。

你提出的问题是否被真正懂行的人愿意继续想？你的概念是否被别人拿去使用？你的结果是否进入后续证明、综述、课程、工具和应用？你指出的漏洞是否真的改变了一个方向？你写出的解释是否让别人更清楚地理解一个领域？

这些东西不容易量化，也不适合被行政表格直接吸收。但它们更接近数学共同体真正关心的价值。

所以未来可能需要一个分层系统。

第一层是开放发布。任何人、任何 AI、任何 agent 都可以提交结果。这层只解决可见性，不解决价值。

第二层是机器验证。形式化证明、代码复现、数值实验、假设检查、文献相似性检索、定理依赖图、证明漏洞检测，都可以先做一遍。这层解决的是站不站得住。

第三层是开放评议。人类专家和 AI reviewer 给结构化评论，标记一个结果到底是技术推广、概念统一、反例、工具性结果、应用接口、理论压缩、教材价值，还是纯噪音。

第四层是应用反馈。物理、工程、计算机、生物、控制、统计等领域真正使用某个数学结构。这里说的使用，指向它有没有改变建模方式、算法设计、实验解释或控制策略，不只是礼貌性引用。

第五层是长期典范化。某些结果被写进综述、教材、形式化库、软件库、benchmark、课程和研究纲领。到这个阶段，它才真正进入数学共同体的长期记忆。

OpenReview 这样的开放评审平台，bioRxiv 和 medRxiv 这样的预印本机制，PubPeer 这样的发表后评议，都可以给数学提供参考。但它们都不是终点。开放会降低黑箱权力，也会带来海量噪音。真正有效的系统必须让论文有信誉，作者有信誉，评论者也有信誉；不仅奖励生产结果，也奖励发现漏洞、组织结构、建立连接、写出高质量综述和把数学带入真实问题。

这其实就是研究注意力的制度化分配。

信誉会变得越来越重要，瞄向现有的评价标准而不在乎信誉的人，可能也会越来越举步维艰。

智能会成为基础资源

更深一层看，未来科研稀缺的可能不再是知识本身，而是高质量认知资源。

过去最贵的是人类专家。未来最贵的可能是长时间 deep reasoning、超大规模 agent search、高层 abstraction generation、scientific world-model simulation。换句话说，智能本身会成为一种基础资源。

科研会越来越像配置文明的智能预算。

谁值得获得高级模型权限？谁值得获得大规模 agent search？谁值得让系统连续跑一个月？谁的问题值得调用形式化团队、实验团队和工程团队一起推进？这些问题会变得非常现实。

一种可能的制度，是国家、大学和基金会提供公共 AI 研究资源，类似超级计算中心。

低层资源给所有研究者，提供基本模型权限。中层资源通过项目申请获得，提供更高推理预算、形式化工具和 agent 实验平台。高层资源给少数已经显示出高质量问题感的人，允许他们使用大规模搜索、GPU、自动实验和工程支持。顶层资源则变成国家级或国际级 AI-for-science 设施。

这不是理想主义。否则科学会被彻底私有化。只有大公司拥有最高级 AI 时，大学很容易退化成解释工业实验室结果的地方。那会伤害科学的多样性。

但这里也有残酷问题：谁来判断谁值得资源？

传统指标会失效。paper count、citation、h-index 都可能被 AI 时代的论文爆炸冲垮。未来更重要的指标，可能是一个人是否发现新的 abstraction，是否建立新的连接，是否提高了文明压缩率，是否产生真实的 downstream structural impact。

这些东西很难量化。

所以「什么叫好研究」本身会成为争夺对象。

在这个过程中，多样性是需要格外注意和保护的存在。

人还剩下什么

回到最开始的问题：AI 面前，我们还能做什么数学？

如果一个人只会做平行推广，只会生产正确但不知道意义何在的定理，只会在已有路线里做局部变形，那么他的位置会非常危险。AI 会迅速吞掉这部分劳动。

但这不等于人没有位置。

人的位置会向更高处移动：提出问题，识别结构，选择方向，建立锚点，组织知识，分配注意力，把 AI 生成的候选结果变成人类共同体真的能理解、能使用、能继续发展的数学。

未来数学家可能越来越不像过去想象中的孤独天才，也不像只负责手写证明的技术工人。

他更像高维知识系统的架构师。

他要决定哪些问题值得被问，哪些证明值得被保留，哪些概念值得被命名，哪些结构值得进入教材，哪些方向值得消耗人类和 AI 的注意力。

这件事不会自动发生。AI 可以生成候选意义，也可以生成候选证明，也可以生成候选理论。但一个意义是否值得成为人类知识结构的一部分，仍然要经过专家、应用、工具、共同体和时间的共同筛选。

所以数学不会因为 AI 变简单。

它会变得更宽，更快，也更残酷。

过去稀缺的是能证明的人。

未来稀缺的是能判断什么值得证明的人。

Snow Storm: Steam-Boat off a Harbour's Mouth 是英国浪漫主义绘画中最著名的海洋题材之一。Turner 在这幅作品中几乎放弃了传统清晰的构图与轮廓，而是用旋涡般的笔触、混乱的光线和近乎崩塌的空间感，把观者直接拖入暴风雪中心。船只在巨浪与黑暗中几乎被吞没，人类技术与自然力量之间形成了极其悬殊的对比。这幅画真正震撼人的地方，并不在于“人战胜自然”，而在于人在明知脆弱的情况下仍继续航行。它体现的是浪漫主义所谓的“崇高（the Sublime）”：人面对无限、毁灭与混沌时所产生的恐惧与精神尊严。

关于这幅画，最著名的传闻是 Turner 据说曾要求水手把自己绑在船桅上数小时，只为了亲身体验暴风雪中的海洋状态。无论这一故事是否完全真实，它都非常符合 Turner 的创作方式。他并不满足于“描绘风景”，而是想把自然的力量本身转化为绘画语言。在他的作品中，大海、风暴、火焰、浓雾都不再只是背景，而像是某种压倒性的宇宙力量。与古典绘画中稳定、理性的自然不同，Turner 的自然是不可控制、近乎神性的存在，人类只能在其中挣扎、漂流、抵抗。

从艺术史角度看，这幅画也被认为是现代绘画的重要先驱之一。它对光线、运动和气氛的处理，已经远远超出了传统写实绘画的边界，甚至预示了后来印象派与抽象绘画的发展。许多后来的艺术家都认为 Turner 在这里已经不再只是“画一艘船”，而是在描绘一种情绪、一种力量、一种存在状态。因此，这幅画之所以历经近两个世纪仍然震撼，并不是因为它描绘了一场风暴，而是因为它揭示了一个更深刻的主题：人在无限强大的自然面前，依然拒绝屈服。