用不上最高级的模型,最先进的工具,最庞大的资源,我们还能做什么样的数学研究?
我读了 Google DeepMind 新出的《AI Co-Mathematician: Accelerating Mathematicians with Agentic AI》。这篇文章是我最近用 AI 搭出的论文搜索体系里找到的,正好可以接在我前一篇《我是怎么用 AI 做数学研究的》后面读。
我读完之后最强烈的感受,不在于它证明了 AI 可以做数学。这个结论我之前已经接受了。真正值得看的地方是,它把我之前那篇文章里偏个人经验的工作流,推进成了一个更完整的研究系统。
我之前关心的是,一个普通研究者怎样用 AI 做数学:怎么把问题写清楚,怎么让 AI 生成路线,怎么设计实验,怎么拆 proof obligations,怎么验证代码和证明,怎么把云端讨论沉淀到本地知识库里。
这篇文章关心的是另一个层次:如果要让 AI 真正进入数学研究,它需要怎样的工作空间、组织结构、失败记录、审查机制和最终产物。
这就有意思了。
因为这意味着 AI for Math 的核心问题,已经从「模型会不会证明」移动到了「数学研究本身怎样被重新组织」。

William Turner - Snow Storm - Steam-Boat off a Harbour's Mouth 1842
我之前已经想过的部分
我前一篇文章其实已经写到几个点。
第一,AI 做数学不能只靠聊天窗口。聊天窗口太轻,容易丢上下文,也很难保存失败路线。数学研究需要长期文件、问题库、路线池、失败日志、引用审计和知识回写。云端适合高强度思考,本地适合沉淀。
第二,AI 可以同时给出很多路线,但人要真的理解其中一条。AI 生成证明草稿很容易,人把它重写成自己能讲清楚的证明很难。这个过程不能跳过。只要人没有真正接住,证明就还没有进入人的数学理解。
第三,实验和证明要合在一起。实验不是给论文补图,也不是跑几个数值例子凑热闹。实验可以杀掉错误路线,可以发现结构,也可以把长证明拆成一系列可检查的局部问题。一个好的实验系统,本质上是数学判断的一部分。
第四,AI 输出越强,验证器越重要。验证器可以是测试脚本,可以是反例搜索,可以是符号计算,可以是引用审计,可以是 Lean 形式化,也可以是一次白板复述。它的作用是把「看起来对」变成「通过了哪些检查,还欠哪些检查」。
第五,平行推广会贬值。过去一个研究生可能花几个月做出的技术性扩展,AI 以后可以高通量生成。真正危险的研究方式,是只沿着别人的文章横向挪动一点点。
这些想法在我旧文里已经有了。Zheng 等人的文章并没有推翻它们,反而把它们系统化了。
这篇新文章补上的东西
这篇文章最重要的新东西,是把「个人工作流」变成了「数学研究工作台」。
它提出的 AI co-mathematician,是一个有状态的异步工作空间,不走单轮聊天机器人的路线。用户先和项目协调 agent 讨论问题,明确研究目标;协调 agent 再把目标拆给多个 workstream;每个 workstream 可以做文献检索、计算实验、证明尝试、代码实现、报告整理和审查。
这个结构和我旧文里的经验很接近,但它更完整。我的做法是把云端 AI 当成思想快闪研究室,把本地 Codex 当成工作台。它的做法是把这个工作台产品化:有共享文件系统,有项目状态,有工作流,有审查,有失败记录,有可以继续追踪的数学文档。
这里真正新增的第一点,是「渐进披露」。
数学研究会产生大量低层信息。一个 agent 在查某个引用,一个 agent 在修代码,一个 agent 在补引理,一个 agent 在发现路线失败。如果所有日志都堆到聊天窗口里,人会很快失去判断力。Zheng 这篇文章的设计是,让用户主要和项目协调 agent 交流,只在需要时向下钻到具体 workstream 的细节。
这非常重要。AI 时代的问题不在信息太少,而在信息太多。研究者的注意力本身会成为瓶颈。一个好的 AI 数学系统,必须替人管理信息密度。
第二点,是它把不确定性当成系统的一等变量。
数学研究最怕的情况,是路线失败以后系统假装没失败。路线失败本身并不可怕。文章里反复强调,AI co-mathematician 要追踪不确定性,管理不确定性,并把不确定性暴露给用户。某个引理有争议,某个引用没有核实,某个证明卡住了,某个 reviewer agent 不通过,这些都应该进入工作文档,而不是被整理成一篇光滑的成功叙事。
这补上了我旧文里没有充分展开的一点:失败记录不只是个人习惯,它应该成为数学 AI 系统的基础功能。
第三点,是「失败探索」被保留下来。
数学里知道什么不行,经常和知道什么可行一样重要。过去这些失败路线可能只留在草稿纸、聊天记录和研究者脑子里。AI 系统如果每次失败后直接重启,很多真正有价值的负面信息就消失了。Zheng 这篇文章把 dead end 当成项目历史的一部分,让后续 agent 和人都能基于这些失败继续思考。
这点对做研究的人来说很实在。一个失败路线如果被保存得好,下一次它可能节省一周,也可能逼出一个更好的问题。
第四点,是它把数学产物设计成「工作论文」,而不是聊天回答。
文章里反复说,最终输出应该是数学共同体熟悉的 native artifact。也就是说,它应该是一份持续更新的 LaTeX 工作文档,里面有边注,有内部链接,有引用来源,有争议标记,有审查过程,而不只是一段总结。用户可以从这份文档回到整个项目历史。
这比「AI 给我一个答案」高一个层级。数学研究的产物从来不只是答案。它还包括概念从哪里来,路线为什么失败,证明的哪一段最危险,引用的定理是否真的适用,实验结果怎样产生。AI 如果要参与研究,就必须把这些过程也变成可读、可审计、可回收的材料。
第五点,是它用具体案例说明了人仍然必须在环里。
比如 Lackenby 用这个系统处理 Kourovka Notebook 里的一个问题。系统先给出一个自己也标记为有问题的证明,但 Lackenby 读完后发现其中有一个很聪明的证明策略,并且知道怎么补上缺口。这个案例的重点不在 AI 自动解决了问题,而在 AI 生成了一个足够好的结构,人再用领域理解把它推过最后一道坎。
Berczi 的例子也类似。他事先准备了背景材料、已知方法和先前实验线索,再把问题交给系统。这说明和 AI 合作不能把一句话扔进去等奇迹,需要结构化地提出问题。Rezchikov 的例子则说明,AI 有时最大的价值是让人更快到达一条死路,然后及时转向。
这些案例共同指向一个结论:AI co-mathematician 最适合熟悉领域的人使用。它可以扩大搜索、整理材料、尝试证明、暴露失败,但它不能替人拥有真正的问题感。
第六点,是评价方式也要改变。
文章里提到,AI co-mathematician 在 FrontierMath Tier 4 上拿到了很高的成绩,也在内部研究数学 benchmark 上超过单次调用的基础模型。但我觉得这里真正值得看的,不在分数本身,而在分数背后的含义:系统架构本身会改变模型能力的表现。
一个模型单次回答问题,和一个有长期工作空间、并行 workstream、审查 agent、代码工具、文献工具、失败记录的系统去处理问题,已经是两种东西。以后评价 AI for Math,不能只看「最终答案对不对」。还要看它能不能帮助人修剪假设树,能不能暴露不确定性,能不能把失败写清楚,能不能生成可审计的数学工作文档。
这对原文读者最有价值。
如果你读过我前一篇文章,你已经知道 AI 能帮数学研究加速。Zheng 这篇文章真正补上的,是如何把这种加速从个人手艺变成研究基础设施。
于是问题变得更残酷了
读完这篇文章后,我反而更强烈地回到一个问题:如果大公司可以把最高级的模型、最多的算力、最复杂的 agent 系统、最好的文献工具和最强的数学家组织在一起,那么普通研究者还剩下什么?
以前做 AI 研究,几张显卡也许还能推进一些东西。现在越来越难。以前做实验物理,一个人也许还能搭设备。现在很多前沿问题离不开巨型装置。数学过去看起来比较特殊,因为它似乎只需要纸、笔和大脑。
但 AI 正在改变这一点。
如果高质量数学探索也需要长时间 deep reasoning、大规模 agent search、形式化验证、文献检索、代码实验和多轮审查,那么「做数学」也开始变贵。变贵的对象不是纸笔;真正变贵的是智能预算。
这会把很多普通研究者推到一个尴尬的位置。
你可以在小模型、小数据、小问题上提出理论。问题是,这些理论能不能迁移到大模型、大系统、大规模实验里?你可以在个人电脑上验证一个想法。问题是,大公司可以让十万个 agent 同时搜索类似想法,跑更大实验,用更好模型做更系统的筛选。你写下的 idea,也许只是未来某个 AI 海洋里的一滴水。
这听起来很悲观,但不能回避。
对于大量 incremental paper 来说,答案大概就是这样:会越来越像大系统剩下的边角料。尤其是那些只做局部推广、只调参数、只换条件、只把前人证明平移到相邻问题上的文章,AI 最容易复制。
这不是说普通研究者没有位置。只是位置会变。
当正确性不再稀缺
过去数学的合法性,很大程度上来自两个东西:正确性和稀缺性。
证明是对的。能证明的人很少。于是数学自然显得神圣。
AI 时代摧毁的是第二部分。
如果正确的数学可以被大量生成,那么正确性仍然必要,但已经不够。问题会变成:在海量正确的数学中,哪些数学值得存在?哪些值得读?哪些值得进入教材?哪些值得被应用?哪些值得消耗人类和 AI 的注意力?
这才是我在和 AI 讨论时真正绕不开的问题。
数学会不会变得像艺术?某种程度上会。AI 可以生成大量正确结果,就像它可以生成大量看起来完整的图像、诗歌和文章。人的工作会越来越像策展:选择、组织、命名、解释、压缩、赋义。
但数学又不能彻底变成艺术。数学的叙事必须被硬约束。
一个数学结构至少要能承受几种检查:证明不能错;它要减少复杂性,而不是制造更多术语;它要能迁移到多个问题;它要能自然生成新问题、新定理或新算法;它最好能锚定到物理、计算、智能、工程、社会或人类的所有知识创造中;它还要能被别人长期复用。
所以未来好数学的标准,可能会从「正确 + 美」转向:
正确,压缩,迁移,生成,锚定,复用。
这个标准比过去更硬。因为它不只问一篇文章能不能过审,还问它能不能进入人类知识的长期结构。
普通研究者的新位置
普通研究者最现实的策略,大概不是和大公司拼资源。
大公司擅长通用模型、大规模 benchmark、大规模优化和大规模搜索。普通大学研究者如果沿着同一个 leaderboard 往前冲,很容易被碾压。更好的路线,是占据大公司不容易看到的问题入口。
这个入口可能来自真实学科。你接触某个工程系统、物理现象、生物机制、控制问题、医学数据,知道那里什么问题真的痛。AI 很强,但它缺少这种现实嵌入。一个真正来自现实系统的问题,比一个随手生成的技术推广更难被替代。
这个入口也可能来自验证。未来会有大量形式正确但科学无意义的结果。有人必须判断假设是否自然,边界条件是否合理,数值上是否稳定,物理上是否有意义,引用是否真的适用。验证者会越来越重要。
还有一种位置是压缩者。把海量结果整理成少数核心概念、少数定理、少数范式。写综述、写教材、维护知识库、把散乱结果放进统一框架里,这些工作过去常常被低估。AI 时代它们会变得更关键。
还有一种位置是接口者。把数学、AI、物理、工程、控制、计算连接起来。单点技术被自动化得很快,跨系统接口反而更难。因为它要求人知道不同系统各自真正关心什么。
这样看,一个人在 AI 时代有没有数学研究天赋,就不能只看他能不能独立证明一个定理。
更重要的是,他能不能提出非平凡问题;能不能判断一个问题有没有真实价值;能不能使用 AI 工具形成研究闭环;能不能发现 AI 结果里的假设漏洞;能不能把一个局部结果放进更大的理论或现实系统;能不能产出别人愿意长期使用的结构、数据、工具或理论。
这是一种新的研究能力。它的核心不在生产正确数学,而在海量正确数学中识别、组织、验证和锚定意义。
谁来定义好数学
现在是谁在定义好数学?
今天最显性的标准,其实很粗糙:你发了多少篇顶刊?有没有被某位大佬引用?你的名字有没有进入某个学派、某个 seminar、某个引用网络?一个年轻研究者的价值,经常先被这些外部符号压缩成可管理的指标。
当然,真实的数学共同体比这些指标复杂得多。期刊、审稿人、编辑、顶级会议、seminar、学派网络、引用、教材化、博士培养、奖项、应用领域和时间,都在共同定义什么是好数学。期刊只是早期过滤器。它能判断一篇文章是否正确,是否属于当前共同体认可的问题谱系,是否达到某个技术门槛。但它越来越难判断一篇文章十年后是否重要。
这也是为什么很多顶刊文章看起来并没有多高的本质创新性。它们可能只是沿着一个已经被认可的技术路线,做了一个足够精巧、足够困难、足够符合共同体口味的推进。这样的文章当然有价值,但它的价值常常来自体系承认,而不一定来自真正打开了一个新的世界。
AI 之后,这个问题会更严重。
因为传统期刊系统本来就奖励很多局部可审查、局部正确、局部新颖的工作。给定一篇文章,AI 可以生成它的非平凡变体;给定一个 theorem,AI 可以改变条件、空间、边界、噪声、非线性项;给定一个证明框架,AI 可以做平行推广。很多传统审稿机制对这种生产方式没有免疫力。
更麻烦的是,AI 生成的论文未必是错的。
如果它们大量错误,事情反而简单。审稿系统可以把它们挡在正确性门槛之外。真正困难的情况是,它们大多正确,形式完整,引用齐全,证明可查,但读完之后很难说它们为什么重要。它们会占用审稿人的时间,占用期刊版面,占用读者注意力,最后把整个数学文献变成一个正确但低信号的海洋。
现有体系面对这种投稿量,很难不崩。审稿人本来就是志愿劳动。一个 AI agent 可以在很短时间里生成一批看起来像样的论文,但一个专家认真判断其中每一篇有没有意义,仍然需要真实的时间、经验和注意力。生产速度和判断速度之间,会出现巨大的不对称。
所以未来可能不是简单地把顶刊扩容,也不是让 AI reviewer 替人打分。真正需要重构的,是数学共同体如何分配注意力,如何建立信誉,如何确认哪些结果值得进入长期知识结构。
在这个剧烈重构里,我觉得有些东西不会变。
第一,有用的数学仍然重要。
这里的有用,不一定是立刻服务工程。它可以用于物理建模,可以用于计算,可以用于控制,可以统一几个分散领域,可以让一个复杂问题被压缩成更简单的结构,也可以给未来的理论留下接口。真正有用的数学,会改变别人思考问题的方式。
第二,美的数学仍然重要。
但这里的美不能理解为无人能做出的复杂证明或者概念理解。数学里的美,往往来自压缩、自然性、不可避免性和生成力。一个概念一旦提出,很多原本分散的东西突然排列整齐;一个证明一旦出现,大家会觉得它本来就该这样。这种美不是装饰,它是一种深层结构感。
第三,这些判断必须由专家做出。
机器可以检查正确性,可以查重,可以形式化,可以跑实验,可以指出引用问题。它可以帮助人过滤噪音。但「这个问题值不值得问」「这个概念有没有自然性」「这个结果会不会改变领域的语言」「这个证明是不是抓住了本质」,这些判断只能由同样在做数学研究的人做出。
因为只有真正做研究的人,才知道一个问题为什么卡在那里,知道某个小推进背后有多少隐含难度,也知道某个看起来很大的结果其实没有自然性。外部管理者很难看见这些东西。纯指标更看不见。
所以 AI 时代会反过来暴露以管理驱动、以指标驱动的科研的脆弱性。过去一个系统可以用顶刊数量、引用次数、项目经费、人才帽子来近似管理科研,是因为论文生产速度还没有彻底失控,指标和真实声誉之间还保留着某种相关性。AI 之后,这种相关性会被大量正确但低意义的产物稀释。
一个人如果只瞄准现有评价标准,他会很快学会生产可发表、可包装、可计数的东西。AI 也会学得更快。到那个时候,指标越精细,越容易被优化;管理越依赖指标,越容易奖励最会适应指标的人。
真正不容易被替代的,是专家共同体内部缓慢形成的信誉。
你提出的问题是否被真正懂行的人愿意继续想?你的概念是否被别人拿去使用?你的结果是否进入后续证明、综述、课程、工具和应用?你指出的漏洞是否真的改变了一个方向?你写出的解释是否让别人更清楚地理解一个领域?
这些东西不容易量化,也不适合被行政表格直接吸收。但它们更接近数学共同体真正关心的价值。
所以未来可能需要一个分层系统。
第一层是开放发布。任何人、任何 AI、任何 agent 都可以提交结果。这层只解决可见性,不解决价值。
第二层是机器验证。形式化证明、代码复现、数值实验、假设检查、文献相似性检索、定理依赖图、证明漏洞检测,都可以先做一遍。这层解决的是站不站得住。
第三层是开放评议。人类专家和 AI reviewer 给结构化评论,标记一个结果到底是技术推广、概念统一、反例、工具性结果、应用接口、理论压缩、教材价值,还是纯噪音。
第四层是应用反馈。物理、工程、计算机、生物、控制、统计等领域真正使用某个数学结构。这里说的使用,指向它有没有改变建模方式、算法设计、实验解释或控制策略,不只是礼貌性引用。
第五层是长期典范化。某些结果被写进综述、教材、形式化库、软件库、benchmark、课程和研究纲领。到这个阶段,它才真正进入数学共同体的长期记忆。
OpenReview 这样的开放评审平台,bioRxiv 和 medRxiv 这样的预印本机制,PubPeer 这样的发表后评议,都可以给数学提供参考。但它们都不是终点。开放会降低黑箱权力,也会带来海量噪音。真正有效的系统必须让论文有信誉,作者有信誉,评论者也有信誉;不仅奖励生产结果,也奖励发现漏洞、组织结构、建立连接、写出高质量综述和把数学带入真实问题。
这其实就是研究注意力的制度化分配。
信誉会变得越来越重要,瞄向现有的评价标准而不在乎信誉的人,可能也会越来越举步维艰。
智能会成为基础资源
更深一层看,未来科研稀缺的可能不再是知识本身,而是高质量认知资源。
过去最贵的是人类专家。未来最贵的可能是长时间 deep reasoning、超大规模 agent search、高层 abstraction generation、scientific world-model simulation。换句话说,智能本身会成为一种基础资源。
科研会越来越像配置文明的智能预算。
谁值得获得高级模型权限?谁值得获得大规模 agent search?谁值得让系统连续跑一个月?谁的问题值得调用形式化团队、实验团队和工程团队一起推进?这些问题会变得非常现实。
一种可能的制度,是国家、大学和基金会提供公共 AI 研究资源,类似超级计算中心。
低层资源给所有研究者,提供基本模型权限。中层资源通过项目申请获得,提供更高推理预算、形式化工具和 agent 实验平台。高层资源给少数已经显示出高质量问题感的人,允许他们使用大规模搜索、GPU、自动实验和工程支持。顶层资源则变成国家级或国际级 AI-for-science 设施。
这不是理想主义。否则科学会被彻底私有化。只有大公司拥有最高级 AI 时,大学很容易退化成解释工业实验室结果的地方。那会伤害科学的多样性。
但这里也有残酷问题:谁来判断谁值得资源?
传统指标会失效。paper count、citation、h-index 都可能被 AI 时代的论文爆炸冲垮。未来更重要的指标,可能是一个人是否发现新的 abstraction,是否建立新的连接,是否提高了文明压缩率,是否产生真实的 downstream structural impact。
这些东西很难量化。
所以「什么叫好研究」本身会成为争夺对象。
在这个过程中,多样性是需要格外注意和保护的存在。
人还剩下什么
回到最开始的问题:AI 面前,我们还能做什么数学?
如果一个人只会做平行推广,只会生产正确但不知道意义何在的定理,只会在已有路线里做局部变形,那么他的位置会非常危险。AI 会迅速吞掉这部分劳动。
但这不等于人没有位置。
人的位置会向更高处移动:提出问题,识别结构,选择方向,建立锚点,组织知识,分配注意力,把 AI 生成的候选结果变成人类共同体真的能理解、能使用、能继续发展的数学。
未来数学家可能越来越不像过去想象中的孤独天才,也不像只负责手写证明的技术工人。
他更像高维知识系统的架构师。
他要决定哪些问题值得被问,哪些证明值得被保留,哪些概念值得被命名,哪些结构值得进入教材,哪些方向值得消耗人类和 AI 的注意力。
这件事不会自动发生。AI 可以生成候选意义,也可以生成候选证明,也可以生成候选理论。但一个意义是否值得成为人类知识结构的一部分,仍然要经过专家、应用、工具、共同体和时间的共同筛选。
所以数学不会因为 AI 变简单。
它会变得更宽,更快,也更残酷。
过去稀缺的是能证明的人。
未来稀缺的是能判断什么值得证明的人。
Snow Storm: Steam-Boat off a Harbour's Mouth 是英国浪漫主义绘画中最著名的海洋题材之一。Turner 在这幅作品中几乎放弃了传统清晰的构图与轮廓,而是用旋涡般的笔触、混乱的光线和近乎崩塌的空间感,把观者直接拖入暴风雪中心。船只在巨浪与黑暗中几乎被吞没,人类技术与自然力量之间形成了极其悬殊的对比。这幅画真正震撼人的地方,并不在于“人战胜自然”,而在于人在明知脆弱的情况下仍继续航行。它体现的是浪漫主义所谓的“崇高(the Sublime)”:人面对无限、毁灭与混沌时所产生的恐惧与精神尊严。
关于这幅画,最著名的传闻是 Turner 据说曾要求水手把自己绑在船桅上数小时,只为了亲身体验暴风雪中的海洋状态。无论这一故事是否完全真实,它都非常符合 Turner 的创作方式。他并不满足于“描绘风景”,而是想把自然的力量本身转化为绘画语言。在他的作品中,大海、风暴、火焰、浓雾都不再只是背景,而像是某种压倒性的宇宙力量。与古典绘画中稳定、理性的自然不同,Turner 的自然是不可控制、近乎神性的存在,人类只能在其中挣扎、漂流、抵抗。
从艺术史角度看,这幅画也被认为是现代绘画的重要先驱之一。它对光线、运动和气氛的处理,已经远远超出了传统写实绘画的边界,甚至预示了后来印象派与抽象绘画的发展。许多后来的艺术家都认为 Turner 在这里已经不再只是“画一艘船”,而是在描绘一种情绪、一种力量、一种存在状态。因此,这幅画之所以历经近两个世纪仍然震撼,并不是因为它描绘了一场风暴,而是因为它揭示了一个更深刻的主题:人在无限强大的自然面前,依然拒绝屈服。
夜雨聆风