AI造轮子时代:12小时征服OpenAI榜单

AI学会了「自己造轮子」：上海AI Lab开源MLEvolve，12小时登顶OpenAI王牌榜单

一、一个问题：AI能不能设计AI算法？

2024年10月，OpenAI的研究员们做了一件有意思的事。他们从Kaggle上挑了75道真实机器学习竞赛题——从图像分类到表格数据预测，从时间序列到自然语言处理——构建了一个叫MLE-bench的评测基准，想看看当时最强的AI智能体能不能像人类数据科学家一样独立完成一个完整的ML工程项目[1]。

结果令人泄气。搭载当时最强推理模型 o1-preview 的智能体，在75道题中只有16.9%的竞赛拿到了Kaggle铜牌水平。换句话说，面对真实世界的数据科学挑战，最先进的AI系统连人类中等水平的五分之一都不到。

这并非因为模型不够聪明——o1-preview在数学竞赛和编程挑战中已经展现了惊人的能力。问题出在更根本的地方：机器学习工程不是一道题。它不是输入一个prompt、输出一个答案就能解决的问题。它要求智能体理解数据、设计特征、选择模型、调参优化、迭代实验——这是一个需要长周期推理、经验积累和策略规划的复杂流程。

时间快进到2026年6月。同一个MLE-bench排行榜上，一个来自上海人工智能实验室「书生」科学发现平台的系统——MLEvolve——以65.3%的奖牌率登顶榜首，而且它只用了12小时的运算预算，是所有方法中预算减半却成绩最高的那个[2]。

从16.9%到65.3%，从满预算到砍半预算——这是一个质的飞跃。

它做对了什么？

二、从零开始：MLE-bench到底在考什么

要理解MLEvolve的突破，首先得搞清楚它面对的考场有多难。

MLE-bench由OpenAI的Jun Shern Chan、Neil Chowdhury等12位研究者创建，2025年被ICLR接收[1]。它不是那种"给你一个clean的数据集、一个明确的评价指标、一个标准的train/test split"的学术基准。它是Kaggle竞赛的真实镜像——数据有噪声、特征含义模糊、评价指标五花八门、没有标准答案。

具体来说，75道竞赛题按难度分为三档：

Low（低难度）：相对简单的结构化数据和图像分类任务，比如泰坦尼克号生存预测级别的入门题。但"简单"是相对于Kaggle而言——这些仍然需要完整的数据处理和模型训练流程。

Medium（中难度）：涉及复杂特征工程、多模态数据或需要特定领域知识才能做好的任务。

High（高难度）：需要深度领域洞察、创新性方法或大量实验迭代才能拿到奖牌的任务。比如某些Kaggle Featured竞赛，每年只有顶级团队才能拿金牌。

关键是，MLE-bench要求智能体完全自主地完成从数据探索到模型提交的全流程。智能体拿到的是原始竞赛描述和训练数据，它需要自己决定做什么、怎么做、何时停止。没有人类中间干预，没有预设的pipeline模板。

在MLEvolve出现之前，这个榜单上的领头羊们长这样：

智能体	底座模型	预算	Low	Medium	High	总体
AIDE	o1-preview	24h	35.9%	8.5%	11.7%	17.1%
ML-Master	DeepSeek-R1	12h	48.5%	20.2%	24.4%	29.3%
AIRA-Dojo	o3	24h	55.0%	22.0%	21.7%	31.6%
R&D-Agent	gpt-5	12h	68.2%	21.1%	22.2%	35.1%
Leeroo	Gemini-3-Pro	24h	68.2%	44.7%	40.0%	50.7%
ML-Master 2.0	DeepSeek-V3.2	24h	75.8%	50.9%	42.2%	56.4%
MARS+	Gemini-3-Pro	24h	78.8%	60.5%	44.4%	62.7%
AIBuildAI	Claude-Opus-4.6	24h	77.3%	61.4%	46.7%	63.1%
MLEvolve	Gemini-3.1-Pro	12h	80.3%	64.0%	46.7%	65.3%

注意一个关键细节：MLEvolve是12小时预算，而其他顶级选手都是24小时。如果给MLEvolve同样的24小时，差距只会更大。

在High难度这一档，MLEvolve的42.22%（这里需要澄清：表格中是46.7%，这是完整MLE-bench数据集的结果；在MLE-bench完整集上该数值有微小差异）领跑所有方法。这意味着在最刁钻、最需要深度思考的任务上，它的优势更加明显。

那么，MLEvolve究竟是怎么做到的？

三、三把钥匙：MLEvolve的核心创新

现有MLE智能体之所以表现不佳，MLEvolve团队在论文中指出了三大痛点：

（1）跨分支信息隔离——传统的树搜索方法中，不同探索分支各自为战，互不相通，无法共享中间发现；
（2）无记忆搜索——每个竞赛任务都从头开始，不会从之前的经验中学习；
（3）缺乏分层控制——策略规划和代码生成混为一谈，导致长周期迭代中方向容易跑偏。

针对这三个问题，MLEvolve分别提出了三项核心创新。

3.1 从树到图：渐进式蒙特卡洛图搜索（Progressive MCGS）

传统的蒙特卡洛树搜索（MCTS）是AlphaGo背后的核心算法。它的工作方式就像一棵倒着长的树：从根节点出发，每次选择一个分支向下探索，到达叶节点后评估结果，然后把评估值反向传播到路径上的所有节点。这种方法在围棋这样有明确胜负的博弈中非常有效。

但机器学习工程不是下棋。在ML工程中，一个探索方向（比如"试试XGBoost加特征交叉"）和另一个方向（"试试LightGBM加特征选择"）之间可能存在共通的洞察——比如两者都发现某个特征的缺失值处理方式特别关键。在传统的树搜索中，这种洞察会被锁在各自的树枝里，无法互通。

MLEvolve的解决方案是把树扩展为图。在它的Progressive MCGS中，不同探索分支之间可以通过基于图的引用边（graph-based reference edges）实现信息流动。发现了一个好用的特征工程技巧？通过引用边传播到其他分支。某个分支陷入死胡同？通过图结构让其他分支避开。

更巧妙的是搜索策略的设计。MLEvolve使用熵启发的渐进调度（entropy-inspired progressive schedule），让搜索前期偏向广泛探索（高熵）、后期收敛到聚焦利用（低熵），配合自动停滞检测——当发现某条路径不再带来提升时，触发跨分支融合，把不同分支的最优基因组合成新候选。

想象一下：这就像一个研究团队中，不同方向的研究员不再各自闷头做实验，而是在一个共享白板上随时交流发现。某个人的失败提示另一个人调整方向，某个人的突破被全员复用。

3.2 记忆即智能：回顾性记忆系统（Retrospective Memory）

人类数据科学家之所以比新手强，很大程度上不是因为更聪明，而是因为犯过更多的错、记住了这些教训。看到某个特征分布异常，老手立刻想到"这是长尾分布，用log变换比标准化好"——因为他/她以前被这个问题坑过。

现有的AI智能体缺乏这种能力。每做一个新竞赛，它们都像第一次接触ML一样从头尝试。

MLEvolve的回顾性记忆系统改变了这一点。它由两个组件构成：

冷启动领域知识库（Cold-start Domain Knowledge Base）：一个预构建的ML方法论库，让智能体在开始时就不至于完全"裸奔"。它知道特征工程有哪些常规套路、模型选择有哪些经验法则。这不是什么魔法——它不会告诉智能体"这个竞赛该用LightGBM"——而是提供了足够的基础知识让搜索不至于从零开始。

动态全局记忆（Dynamic Global Memory）：这是更有趣的部分。智能体在进行每一次搜索时，会把每个节点的计划、代码、评估指标、成功/失败标签全部记录下来，形成一个不断增长的记忆库。下次遇到类似任务时，系统通过BM25 + FAISS双路检索机制，从记忆库中召回相关经验。

关键的设计细节：不同智能体以不同方式查询记忆。有些智能体被鼓励从成功经验中学习，有些则被鼓励关注失败案例以避开陷阱，还有些智能体被刻意引导去"质疑"记忆中的方案——这种多样性确保了探索不会陷入局部最优。

这套记忆系统让MLEvolve具备了真正的"经验积累"能力。每做完一道竞赛题，它就变得更聪明一点。

3.3 谋定而后动：自适应编码模式（Adaptive Coding Modes）

第三个创新点看似平淡，实则解决了长周期智能体最致命的痛点："做偏了"。

想象一个场景：智能体决定解决一个信用卡欺诈检测问题。它分析数据、设计特征、选择XGBoost，一切顺利。但在某个中间步骤，代码实现出了一个bug——特征工程中不小心引入了数据泄漏（data leakage）。模型在验证集上表现特别好，于是智能体高高兴兴地继续调参。最终提交时，排行榜分数惨不忍睹。为什么？因为从一开始方向就偏了，后续的大量努力都是在错误的路径上精雕细琢。

MLEvolve的做法是把策略规划（strategic planning）和代码生成（code generation）彻底解耦。首先，一个专门的规划智能体产出详细的实验计划，包括特征工程步骤、模型候选、验证策略和风险评估。然后，多个编码智能体各自实现这个计划的不同部分。

这种解耦带来两个好处：一是规划可以在更抽象的层次上被审查和调整，不会因为代码细节而迷失方向；二是不同编码智能体可以在同一规划框架下并行工作，类比于"同一个作战计划，多支部队同时执行"。

更精妙的是自适应编码模式：系统根据当前搜索状态在三种编码策略之间动态切换——单次生成（简单修改）、逐步式多智能体流水线（复杂功能）、增量式SEARCH/REPLACE diff补丁（精细调整）。这种灵活性使得MLEvolve在不同复杂度的子任务上都能高效运作。

四、数字不说谎：MLEvolve的实战战绩

在MLE-bench的完整75题测试中，MLEvolve展示了全方位的优势[2]：

全能领先：在三个难度级别上全部超越所有开源和闭源对手。特别是Medium难度（64.0%），比第二名的AIBuildAI（61.4%）高出2.6个百分点——考虑到Medium难度的35道题占据了整个基准的大头，这个优势非常实在。

效率碾压：在所有24小时预算的方法中，没有任何一个能达到65.3%的奖牌率。即便只给MLEvolve一半的时间，它依然全面领先。

难度越大，优势越大：在High难度上，MLEvolve的42.2%（在部分实验结果中为46.7%）领跑所有方法。这些高难度题目通常需要创新性的方法设计，而不仅仅是调参能力。

但这还不是全部。

五、超越Kaggle：当AI做起了数学题

ML竞赛只是机器学习工程的实操考验。MLEvolve团队还做了另一件事：把同一个框架扔去解决纯数学优化问题——那些需要精巧算法设计而非调参技巧才能攻克的难题。

基准是对标AlphaEvolve的15道数学优化任务。AlphaEvolve是Google DeepMind在2025年发表的一个专门针对科学和算法发现设计的进化编码智能体[3]，在组合优化和数学问题上表现出色。它不是通用MLE智能体，而是为这类问题深度定制的——换句话说，这是它的主场。

结果呢？

MLEvolve在11/15道题上取得了所有方法的最佳结果，在14/15道题上匹配或超越AlphaEvolve。来看几个具体案例：

问题	MLEvolve	AlphaEvolve	胜负
六边形填充（↓）	3.9285	3.9301	✅ MLEvolve胜
正方形中的圆填充（↑）	2.6360	2.6359	✅ MLEvolve胜
矩形中的圆填充（↑）	2.3658	2.3658	✅ MLEvolve胜
一阶自相关不等式（↓）	1.5029	1.5053	✅ MLEvolve胜
11维亲吻数（↑）	592	593	❌ AlphaEvolve胜
最大最小比（↓）	12.8892	12.8893	✅ MLEvolve胜
和差问题1（↑）	1.1902	1.1480	✅ MLEvolve胜

这些数字大多数精确到小数点后好多位，每个小数点后的微小提升在数学优化中都意味着实实在在的突破。

但最有意思的不是数字本身，而是一个为Kaggle竞赛设计的系统，未经任何针对性的架构修改，就在纯数学优化问题上超越了专用的算法发现工具。这种跨领域泛化能力暗示着，MLEvolve学到的核心能力——如何在未知领域中高效搜索、积累经验和做出决策——本身就是一种可迁移的"元技能"。

六、开源的野望：从书生到InternAgent

MLEvolve并非凭空出现的孤立项目。它是上海人工智能实验室「书生」科学发现平台（Intern Discovery）体系中的关键一环。

在这个体系中，MLEvolve的角色是优化引擎。在更大的InternAgent 1.5系统中，MLEvolve作为一个子系统，为更长时间跨度的科学发现任务（如材料设计、药物筛选、气象预测）提供底层算法优化能力[4]。

这个架构思路很有意思：不是让一个大模型解决所有问题，而是让专门的智能体子系统各自精耕自己的领域，再有机组合成一个协同工作的整体。MLEvolve专注于"如何设计最好的ML算法"，其他智能体则负责"理解科学问题"、"设计实验方案"、"解释实验结果"。

代码已经在GitHub上开源（github.com/InternScience/MLEvolve），基于Python构建，支持接入OpenAI兼容的所有API（GPT、Qwen、DeepSeek系列均可）。截至发稿，项目收获了301颗星。

从时间线来看，这个系统的迭代速度惊人：

2026年2月：MLEvolve首次在MLE-bench榜单上登顶，以12小时预算夺得#1

2026年3月：支持OpenAI兼容API，扩展模型兼容性

2026年6月1日：在MLE-bench完整75题集上达到65.3%奖牌率，在数学优化任务上取得竞争性结果

2026年6月4日：论文正式发布于arXiv

14位作者中，核心成员杜尚恒、闫香超等同时也是InternAgent 1.5的主要贡献者，显示了这支团队在AI智能体领域的持续深耕。

七、AI设计AI意味着什么

MLEvolve的突破提出了一个更深层的问题：当AI能够自主设计和改进机器学习算法时，这意味着什么？

首先，这是一种能力范式的转变。传统上，AI的能力提升依赖于人类研究者设计更好的架构、更大的数据集、更巧妙的训练方法。MLEvolve代表的是一种"AI改善AI"的闭环——AI通过搜索、实验和记忆，自主地找到更好的算法设计。这本质上是一种元学习（meta-learning）的工程化实现。

其次，它改变了我们对"AI能力边界"的认知。MLEvolve不是靠更大的模型才取得突破的——它使用的底座模型Gemini-3.1-Pro并非最顶级的推理模型。真正的性能提升来自系统设计：更好的搜索策略、更聪明的记忆机制、更合理的分工协作。这暗示着当前AI的能力天花板，在很大程度上是被"怎么用"而非"用什么"所限制的。

第三，它挑战了"AI取代数据科学家"的叙事。65.3%的奖牌率当然令人印象深刻，但也要看到：这个数字意味着在34.7%的竞赛中，MLEvolve仍然无法达到人类铜牌水平。在High难度任务上，超过一半的题目它还是拿不到奖牌。MLEvolve不是来取代数据科学家的——它是来让数据科学家事半功倍的工具。就像IDE和自动补全曾经改变了编程，但并没有让程序员失业。

最后，我们需要关注局限性和潜力。MLEvolve目前仍然需要在每个任务上投入大量计算资源——12小时的GPU预算对于单次竞赛来说不是小数目。它的记忆系统虽然有效，但仍然相对简单——与人类那种能跨领域、跨模态进行类比推理和知识迁移的能力相比还有很大差距。

但这些局限正是未来研究的方向。如果MLEvolve的记忆系统能持续运行在数千个竞赛任务上，积累起堪比人类职业生涯的经验密度，它的表现可能会发生质变。

八、结语

两年前，当OpenAI推出MLE-bench时，最强的AI智能体在它面前几乎是一筹莫展——16.9%的成绩说明了一切。那时候，"AI做机器学习"听起来更像是科幻笑话，而不是工程问题。

两年后，MLEvolve用12小时就达到了65.3%的奖牌率。这不是一个模型升级的故事——从o1-preview到Gemini-3.1-Pro当然有进步，但更重要的是系统设计上的突破。MLEvolve告诉我们，给AI加上更好的搜索策略、记忆机制和协同框架，比单纯换一个更强的模型有效得多。

在某种程度上，这很像人类做研究的方式：聪明固然重要，但持续积累经验、善于从失败中学习、懂得在探索和利用之间平衡——这些"方法论"层面的能力，可能比智力本身更能决定最终的成就。

MLEvolve开源了。有兴趣的读者可以在GitHub上找到完整的代码和配置，用自己的模型跑一遍。也许下一个突破，就来自你手里的那个实验。

参考文献

Chan, J. S., Chowdhury, N., Jaffe, O., et al. (2024).MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering. arXiv:2410.07095. ICLR 2025.

Du, S., Yan, X., Shi, J., et al. (2026).MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery. arXiv:2606.06473.

Novikov, A., Vu, N., et al. (2025).AlphaEvolve: A Coding Agent for Scientific and Algorithmic Discovery. arXiv:2506.13131.

Feng, S., Ma, R., Yan, X., et al. (2026).InternAgent 1.5: A Multimodal Agent System for Scientific Discovery. arXiv:2602.08990.