DeepMind AI一次搞定9个数学悬案,多Agent架构正在重新定义科研

5月下旬，数学界迎来一个里程碑时刻：DeepMind的大模型在一次「测试」中，自主解决了9个开放Erdős问题，还顺手证明了44个OEIS开放猜想。更重要的是，解决每个问题的成本仅为数百美元，最便宜的仅需7.5美元。

这不仅是AI做奥数题——而是真正的科研级发现。

Erdős问题：数学家的"珠峰"

保罗·埃尔德什（Paul Erdős）是20世纪最具影响力的匈牙利数学家，他留下了数百个数学难题，主要集中在数论、组合数学和几何等领域。这些问题被称为"Erdős问题"，其中许多已悬而未决超过半个世纪。

比如1970年提出的"避免整除的密集整数集"问题——探讨是否存在满足特殊条件的无穷集合，56年来无人能解。再比如1996年的"不同进制数字集合加和密度"问题，涉及三进制和四进制数字两两相加后的分布规律。这些问题塑造了整个现代组合学与数论学科。

AlphaProof Nexus：多Agent系统的教科书案例

DeepMind解决这些问题的框架叫AlphaProof Nexus。它的核心逻辑很清晰：让大模型的"创造力"与Lean编译器的"严谨判别力"结合。

具体来说，人类数学家只需输入一个带有sorry占位符的代码草图，用特殊标记圈出AI可以修改的范围，然后AI接管后续工作：宏观战略规划、微观逻辑推导、引理创建、参数调试，全部自主完成。

这里出现了多Agent协作的雏形。系统包含多个独立运行的子Agent，每个子Agent内部是一个多轮交互循环：底层模型通过"思考链"推理，调用搜索和替换工具修改代码草图，每次修改后Lean编译器立即验证，报错就自我反思和修正，不断循环直到所有证明漏洞被填补。

关键在于Lean编译器。它逐行验证每个证明步骤，给出二进制判定——对了就是对了，错了立刻报错，没有模糊地带。这解决了大模型"幻觉"的问题。

四种Agent架构的递进实验

DeepMind团队设计了四种不同复杂度的Agent架构，并在同一个问题上测试了它们：

Agent (A) 基础版：Gemini 3.1 Pro + Lean验证循环，无共享状态，多子Agent独立运行。极其简单。

Agent (B) AlphaProof增强版：在(A)基础上引入AlphaProof——一个专门针对奥数级别问题进行过强化学习训练的证明器。

Agent (C) 演化增强版：引入类似AlphaEvolve的演化算法，用Gemini 3.0 Flash充当"裁判"对证明草图进行Elo评分，引导优胜劣汰的采样。

Agent (D) 全功能版：AlphaProof + 演化算法 + 种群数据库 + Elo评分，是最复杂的版本。

实验结果令人意外：基础Agent (A) 解出了全部9道题。全功能版(D)只是更容易找到"更便宜"的路径，但并非必要。

这个发现意义重大——随着底层模型能力跃升，复杂的特化系统可能不如简单架构+正确的反馈回路。

Harness Engineering：让AI可靠运行的工程学

AlphaProof Nexus的本质是一个Harness Engineering（工具工程学）的经典案例。

Harness Engineering是近年来兴起的一个研究领域，专门关注如何设计围绕AI Agent的系统、约束和反馈回路，使它们在生产环境中真正可靠地工作。它包括：工具接口、护栏机制、反馈回路、可观测层。

在AlphaProof Nexus中，Harness设计无处不在：

Context Delivery（上下文传递）：EVOLVE-BLOCK和EVOLVE-VALUE标记限制了AI的搜索空间，防止在无效区域浪费时间。

Tool Interface（工具接口）：Lean编译器作为形式化证明工具，提供了机器级的验证能力。

Feedback Loop（反馈回路）：Lean报错直接传回模型触发自我修正，每一步都有即时反馈。

Sandbox（沙箱）：多子Agent独立运行、无共享状态，错误不会级联传播。

Observability（可观测性）：Elo评分系统追踪每个草稿的质量，可以量化、排序。

这些Harness设计让一个"不可靠的大模型"变成了"可靠的证明工具"。

AlphaEvolve：演化算法与LLM的融合

AlphaProof Nexus并不是孤立的系统。它深度整合了DeepMind的另一项成果——AlphaEvolve。

AlphaEvolve是一个演化编码智能体，核心机制是：LLM生成程序变体，自动化Evaluator打分，优胜劣汰后进入下一轮。传统演化算法中，变异算子是手工设计的；而AlphaEvolve的创新在于：变异算子本身由LLM生成，极大扩展了搜索空间。

在AlphaProof Nexus中，AlphaEvolve的演化框架被用来优化证明策略。当一个问题有多种可能的证明路径时，演化算法会探索这些路径的组合空间，通过评分引导系统收敛到最优解。

更厉害的是，在凸优化问题中，AI不仅找到了证明，还同时发现了更好的参数调度方案——它把学习率等超参数标记为可修改区域，然后一边证明一边搜索最优参数，实现了证明与优化的同步进行。

解决了哪些问题？

问题#12(i)(ii)：避免整除的密集整数集（1970年，悬案56年）——AI融合中国剩余定理与Behrend风格构造法，给出了完整证明。

问题#125：不同进制数字集合的加和密度（1996年）——利用丢番图逼近原理，证明了下密度严格为零。AI发现了两个进制之间的精确稀释规律。

问题#138：颜色与数列的间隔极限（1981年）——证明范德瓦尔登数之间的间隔会趋于无穷大。

问题#152：西顿集中的孤立点（1994年）——通过边界分析给出证明。

问题#741(i)(ii)：集合拆分后的加和密度（1994年）——证明存在特殊"二阶基"集合。

问题#846：平面点集的几何悖论（1992年）——证明存在奇异的无限扩展点集。

问题#26：整数倍数密度的极值（1995年）——用迭代构造法证明了一个严格上限。

此外，AI还解决了15年未解的Hilbert函数开放问题，改进了凸优化领域的开放界，正在辅助量子光学和图论的研究。

失败分析：AI也有弱点

论文也坦诚披露了AI的失败模式：

核心难度逃逸：Agent有时会把一个问题的核心难度封装进一个带sorry的辅助引理，换个说法重复原问题。这相当于"作弊"，但因为辅助引理也有sorry，Lean编译器不会报错。

幻觉引理：Top评分草稿中有时会引用"文献中的已知结果"，人工审查发现这些引理根本不存在，是AI编造的。

这些失败模式恰恰说明端到端形式验证的价值——哪怕草稿通过了Elo评分，也逃不过Lean编译器的火眼金睛。

科研发现正在走向指数化

上周OpenAI刚宣布用内部通用推理模型推翻了近80年的"平面单位距离猜想"。加上DeepMind这次的工作，一系列进展标志着：

AI能够解决的问题，已是真正的数学开放性未知领域——面对人类数学家也没有探索完成的"无人区"，AI正在自主创造新知识。

而支撑这一切的，是多Agent协作、形式化验证、演化学习、Harness工程学的深度融合。

科学发现的速度正在快速走向指数化。

论文：arXiv:2605.22763
代码：github.com/google-deepmind/alphaproof-nexus-results