Google DeepMind「AI 数学家」上线!最难数学题准确率从 19% 飙到 48%,牛津教授从一份错误证明里挖出了天才策略

导读
【导读】Google DeepMind 发布了面向数学研究的 agent 工作台 AI Co-Mathematician。它在 FrontierMath 最难档 Tier 4 拿到 48% 准确率，远超底模裸跑的 19%——差距全来自系统编排层。但 Epoch AI 同期提醒：数据集正在复核中，后续分数可能调整。

48%：当前已评测 AI 系统的新高分

5 月 7 日，Google DeepMind 在 arXiv 挂出了一篇 22 页的论文：*AI Co-Mathematician: Accelerating Mathematicians with Agentic AI*。

论文直接报了一个数字：FrontierMath Tier 4 准确率 48%，所有已评测 AI 系统中最高。

▲ DAIR.AI 在 X 上发布的论文摘要帖

Tier 4 有多难？这是 FrontierMath 里最高级别，定义为 research-level mathematics——对标的是数学家日常研究中遇到的真实问题。

更细的口径：排除 2 道公开样例后，AI Co-Mathematician 在 48 道题里正确解出 23 道。作为对照，Gemini 3.1 Pro 裸模型只拿到 19%。

这段差距从哪来？

提升全靠工作流

论文给出了一个非常明确的定位：

"...does not rely on any custom model behavior or training."

「这套系统没有专门训练新底模——核心全在工作流和编排层。」

AI Co-Mathematician 的设计思路，更像是把 coding agent 的架构搬进了数学研究。几个关键组件：

项目协调器（Project Coordinator）——接收用户的研究问题后，先做目标确认和边界厘定，再把任务拆成多个方向。

并行工作流（Parallel Workstreams）——多条研究路线同时推进，有的尝试证明，有的尝试反证，有的做计算实验。

内置审稿 Agent（Reviewer Agents）——每条工作流的产出都要经过审查，形成"生成 → 审 → 卡住 → 回改 → 再审"的多轮循环。

失败假设追踪——走不通的路线不会被扔掉，留在系统里作为后续参考。

▲ arXiv 上的论文页面，作者为 Google DeepMind / Google 研究者

换一种理解方式：数学研究里大量时间花在"猜错方向、做小实验、查文献、走进死胡同再退回来"上。AI Co-Mathematician 的目标，就是把这些关键的中间过程留下来，让它们变成可追溯、可复用的资产。

牛津数学家的真实体验：错误证明里藏着对的策略

论文里最有画面感的案例来自牛津大学的 Marc Lackenby。他用 AI Co-Mathematician 处理了 Kourovka Notebook 中的一个开放问题（Problem 21.10）。

过程并不顺利——

系统先开了两条工作流，一条尝试证明，一条尝试反证。最先返回的结果是一份被 reviewer agent 判定为错误的证明草稿。

但 Lackenby 读完后，发现了一个意外收获：

"really, really clever proof strategy."

「这里面有一个真的非常聪明的证明策略。」

再看 reviewer 指出的缺口，他立刻反应过来：

"Hang on a second, I know how to fill that gap."

「等一下，我知道怎么把这个缺口补上。」

后续的流程是：Lackenby 指出补缺方向，系统写出完整正确的证明，他再做修订、泛化结果、补充例子，最后上传回系统做终审。

这个案例真正打动人的地方在于——系统给出了一个被审稿 agent 判错的草稿，但这份草稿对专家仍有启发价值。证明可以错，策略可以对。

它展示了一种和"AI 直接给完美答案"完全不同的协作模式：系统产出的半成品、思路、甚至错误路线，对领域专家来说都可能是有用的研究中间物。

架构收益，肉眼可见

社区对这组数据的反应很集中。Jeremy Blankenship 的回复代表了"架构派"的解读：

"The gap between a raw model (19%) and an orchestrated system (48%) is what matters here. That is not model scale. It is architecture..."

「最值得看的是 19% 到 48% 的差距。这来自架构——并行工作流、审稿循环、保留失败假设——让真实研究中有用的东西可见。」

▲ Jeremy Blankenship 在 DAIR.AI 帖下的回复

他还补了一句值得留意的话：

"The Kourovka case study is more interesting than the benchmark score. Most agent demos optimize for a clean final answer. This one optimizes for the process that gets there, dead ends included."

「Kourovka 案例比分数更有意思。多数 agent demo 都在优化最终答案，这个系统优化的是抵达答案的过程——包括所有走过的死胡同。」

过去两年 coding agent 的发展已经证明了一件事：在复杂专业场景里，单靠底模升级能带来的提升有限，真正拉开差距的往往是系统层面的设计——任务拆解、并行执行、版本管理、review 循环。

数学研究可能正在走上同一条路。

别急着定论：Epoch AI 正在复核数据集

在看这个分数的同时，另一个信号同样重要。

Epoch AI 在 2026 年 5 月 11 日更新了 FrontierMath 页面，明确说：

他们正在对 Tiers 1-4 做 AI-assisted review，目前约三分之一的题目被标出存在 fatal errors，且他们认为其中大多数 flag 可能有效。

完成人工复核后，会在 corrected dataset 上重新发布 updated scores。

▲ Epoch AI 的 FrontierMath Tier 4 页面，顶部可见数据集复核提醒

这意味着 48% 这个数字的分母本身还在调整中。后续在 corrected dataset 上的分数，可能更高，也可能更低。

论文也坦率地承认了另一个限制：AI Co-Mathematician 没有沿用 Epoch 常规评测的 token 限制，系统没有模型调用或 token 总量上限，因此推断其推理成本高于此前被评测的系统。

把条件摆全来看：48% 对应的是一个更重、流程更长、调用预算更宽松的 agent 系统，在一个仍在复核中的 benchmark 上拿到的当期最高分。强，但上下文同样重要。

这种 stateful workbench 能走出数学吗？

社区里另一个值得留意的声音来自 Marcus：

"The interesting question isn't whether it beats human mathematicians on competition problems. It's whether the stateful environment pattern generalizes to research domains where 'correct' is harder to define than a proof."

「能不能在竞赛题上赢数学家，已经不是焦点了——更值得追问的是，这种状态化研究环境能不能迁移到那些"正确答案"比数学证明更模糊的领域。」

这可能是 AI Co-Mathematician 最大的行业含义。

如果一个 stateful、可持续推进、带内置 review 和失败路线追踪的 agent workbench，在数学这种对 correctness 要求最严苛的领域也能工作——那它的底层模式（任务拆解 + 并行执行 + 审查循环 + 中间态保留），完全有可能外溢到法律、金融、科学探索等同样需要"长流程、高专业度、多轮迭代"的场景。

AI 在高专业度领域的价值，正在从一次性问答，转向把问题定义、检索、实验、草稿、审查、回退、再推进串成的一条可追溯研究链。

数学，只是因为对 correctness 要求最高、最能暴露系统真实水平，才最先成为试验场。

— END —