AI科学家:迈向科研全流程自动化

论文推介

Towards end-to-end automation of AI research

Chris Lu(hidex:1),Sakana AI,牛津大学 FLAIR; Cong Lu(hidex:1),Sakana AI,不列颠哥伦比亚大学,加拿大安大略省多伦多向量研究院; Robert Tjarko Lange(hidex:1), Sakana AI; Yutaro Yamada*(hidex:1),Sakana AI; Shengran Hu(hidex:1),Sakana AI,不列颠哥伦比亚大学,加拿大安大略省多伦多向量研究院; Jakob Foerster(hidex:28),牛津大学 FLAIR; David Ha*(hidex:4),Sakana AI; Jeff Clune*(hidex:32),不列颠哥伦比亚大学,加拿大安大略省多伦多向量研究院.

期刊：NATURE(JCR 1区，影响因子:11.14)

标题：迈向人工智能研究的端到端自动化

DOI：10.1038/s41586-026-10265-5.

引用：Lu C, Lu C, Lange R T, et al. Towards end-to-end automation of AI research[J]. Nature, 2026, 651(8107): 914-919..

人工智能能否独立完成一篇科学论文？从提出研究想法、设计实验、运行代码、分析数据，到撰写全文并通过同行评审，这一长期以来被视为人类专属领域的完整科研闭环，如今正被一个名为”AI科学家”（The AI Scientist）的系统所挑战。本文由Sakana AI、牛津大学、不列颠哥伦比亚大学等机构的研究人员联合完成，发表于Nature，报告了首个实现端到端科研自动化的AI系统，并提供了一项引人注目的证明：该系统生成的论文成功通过了顶级机器学习会议研讨会的同行评审。

01 Smmary

1. 研究问题和动机

科学自动化是人工智能领域的长期愿景。在大型语言模型（LLM，Large Language Model）兴起之前，AI在科研中的角色主要局限于特定的窄域任务，例如预测蛋白质结构、发现新材料或分析已有数据集。近年来，LLM开始协助科研人员完成假设生成、文献综述和实验编程等工作，但这些能力始终是分散的、局部的。

真正的挑战在于能否构建一个系统，使其自主地导航整个科研生命周期，从构思到发表，而无需人类逐步干预？本文指出，如果能够实现这一目标，将意味着科学发现模式的根本性范式转变，极大加速人类知识的积累速度。

2. 主要假设

假设一：现代基础模型（Foundation Models）已具备足够的推理、编码和写作能力，可以通过精心设计的智能体框架（Agentic Framework）串联起科研的各个环节。

假设二：AI科学家（The AI Scientist），负责生成研究并产出论文。自动化评审员（The Automated Reviewer），负责对生成论文进行质量评估。两者相互配合，形成一个可自我评估的完整研究闭环。

3. 研究设计

AI科学家的工作流程划分为四个顺序执行的主要阶段：

（1）构思（Ideation）

系统被提示在指定的机器学习研究子领域内，迭代式地扩充一个研究方向档案库。对于每个方向，系统生成标题、研究理由和实验计划，并通过语义学者API（Semantic Scholar API）进行文献检索，自动排除与已有工作高度相似的想法，以确保研究新颖性。

（2）实验执行（Experimentation）

系统执行实验计划并生成可视化结果。本文测试了两种模式：一是模板式（Template-based），即提供人工编写的初始代码模板；二是无模板式（Template-free），即系统从零开始自主生成代码，并通过树搜索（Tree Search，一种通过分支探索多种可能路径并择优推进的算法策略）来优化实验执行过程。每次实验结束后，系统以实验日志的形式记录结果，供后续分析和撰写使用。

（3）论文撰写（Write-up）

系统以标准机器学习会议论文格式撰写完整手稿。它利用LaTeX模板逐节填写内容，并通过多轮文献检索（最多20轮）构建相关工作章节，为每一条潜在引用生成文字理由，以确保引用的恰当性。

（4）自动评审（Automated Review）

生成的论文由自动化评审员进行评估，基于NeurIPS（神经信息处理系统大会，顶级机器学习学术会议）的评审指南，输出包括数值评分、优缺点列表和录用/拒绝决定在内的完整评审意见。

图1a AI科学家的整体工作流程图，展示从构思、实验到撰写与评审的完整闭环

4. 实证分析

（1）量化评估维度

利用自动化评审员对不同底层基础模型驱动的AI科学家输出进行系统评估，结果显示论文质量与基础模型的发布时间存在显著正相关（R²=0.517，p<0.00001），即底层模型越新、越强，生成论文的质量越高。此外，分配给每篇论文的计算资源越多，论文质量也越高，表明推理时计算投入（Inference-time Compute）是提升系统输出质量的有效手段。

（2）同行评审维度

向ICLR 2025的ICBINB（I Can’t Believe It’s Not Better）研讨会提交了3篇AI生成的论文。研讨会评审员被告知部分投稿为AI生成，但不知道具体是哪些，确保了盲审过程。在43篇参评论文中，1篇AI生成论文以6.33的平均分（三位评审打分分别为6、7、6）超过了研讨会的平均录取分数线，组织方表示该论文若非按预定协议撤回，极有可能被录用。

5. 贡献与意义

在技术层面本文首次展示了一个端到端自动化科研系统的完整可行性，将此前零散的AI辅助科研能力整合为一个统一的智能体框架，并创新性地引入了带有自我评估机制的自动化评审员。在方法论层面本文介绍的无模板式系统采用的四阶段实验进程管理（基础验证、超参数调优、研究议程执行、消融研究）和并行化智能体树搜索，为AI自主科研系统的架构设计提供了重要参考。本文研究产出的一篇完全由AI生成、未经任何人工修改的论文成功通过了标准同行评审流程，可能标志着AI科研能力的一个历史性节点。

6. 可能的拓展研究点

（1）领域拓展：当前系统仅限于计算机实验。未来可将其移植到自动化化学实验室等可自动采集数据的实验性领域；

（2）一致性提升：三篇投稿中仅一篇被接受，且研讨会录取率高达70%，表明系统在生成高质量研究方面尚不稳定。提升创意质量和方法论严谨性是关键改进方向；

（3）AI创新性上限：系统能否产生真正的概念性飞跃，还是仅能在已有范式内进行变体组合，仍是开放性问题；

（4）幻觉与可信度：不准确的引用等幻觉问题（Hallucination，即AI生成看似合理但实际错误的内容）是当前主要失败模式之一，如何提升系统输出的事实可靠性需要专项研究；

（5）规范与伦理框架：论文呼吁科学界就AI生成研究的披露标准、评审机制冲击等问题尽快建立规范，这本身也是一个重要的学术研究议题。

02 数据与方法

数据来源

（1）实验数据集：模板式系统使用了nanoGPT实验中的Shakespeare字符数据集、enwiki8和text8数据集。无模板式系统使用了作物病虫害检测数据集（用于ICLR研讨会投稿实验）、Waterbirds数据集和CelebA数据集（用于图1b和图3的实验）。其余实验中，无模板式系统通过HuggingFace Hub动态接入所需数据集。

（2）评审基准数据集：自动化评审员的性能验证基于公开可用的OpenReview数据集，包含两个子集：一是2017至2024年间（模型训练数据截止日期之前）的1000篇ICLR论文；二是2025年（截止日期之后）的论文，用于评估系统在未见数据上的泛化能力。人类评审员的基准数据来自NeurIPS 2021一致性实验，该实验将约10%的投稿随机发送给两个独立评审委员会，为人类评审一致性提供了真实世界基准。

数据污染控制设计

针对数据污染问题的对照实验。由于自动化评审员所使用的LLM在训练时可能已见过部分历史论文及其评审决定，如果只在这些已见数据上评估系统性能，得出的结论会存在数据泄露的疑虑。为此，将评估数据集明确拆分为两部分：一是模型训练截止日期之前（2017-2024年）的1000篇论文，二是训练截止日期之后（2025年）的论文，后者在模型训练时必然未曾出现。通过对比两个子集上的性能，研究团队发现平衡准确率从69%略降至66%，降幅有限，且后者仍与人类评审员水平相当。这一对照设计有效论证了数据污染对系统性能的影响可忽略不计，使结论的外部效度得到了有力保障。

模板式AI科学家

该模式以人工提供的代码模板为起点，系统按线性顺序执行三个阶段。

（1）在构思阶段，系统被赋予”渴望发表重要贡献的雄心勃勃的AI博士生”这一角色设定，通过最多10轮文献检索对每个想法进行新颖性核查，剔除与已有工作高度相似的方向。每个想法都是包含标题、核心假设摘要、详细实验计划以及对”有趣性””新颖性””可行性”自评分数（均为1-10分制）的结构化对象；

（2）在实验执行阶段，系统使用Aider（一款专为修改已有代码库而设计的开源编程助手）按序实施最多五步的实验计划。系统具备自动鲁棒性处理能力：当实验运行失败时，它自动捕获错误日志并调用Aider进行调试，最多重试四次，每次实验的超时上限为7200秒。所有结果记录于实验日志中；

（3）在论文撰写阶段，系统同样使用Aider填充标准LaTeX会议模板，并对参考文献管理进行了精细化设计：系统为每条潜在引用生成文字理由，以确保引用在正文中的使用恰当。

无模板式AI科学家

为突破固定代码库的限制，无模板式系统引入了多项关键创新，并采用多个模型的组合配置：OpenAI o3负责构思生成和代码评估（因其推理能力突出）；Anthropic Claude Sonnet 4负责代码生成；GPT-4o承担视觉语言任务（VLM，即能同时理解图像与文字的多模态模型）；o4-mini负责评审阶段的推理。

（1）广义构思生成：构思过程不依赖初始代码实现，而是生成类似论文摘要的高层次研究提案，并与文献检索模块紧密集成，以识别知识空白并避免重复已有工作；

（2）系统将实验过程结构化为四个阶段：基础可行性验证；超参数调优；主研究议程执行；消融研究（Ablation Study）。每个阶段都有明确的终止标准，并各自运行独立的树搜索过程。

（3）并行化智能体树搜索：树搜索中的每个节点代表一次具体的实验尝试，包含实验脚本、高层计划描述、错误追踪、性能指标、代码评价和可视化反馈等信息。节点分为”无错误”（Non-buggy）和”有错误”（Buggy）两种状态，系统以预设概率优先选择有错误节点进行调试，或选择无错误节点进行优化改进。此外，系统还设计了四种专用节点类型：超参数节点（系统探索不同超参数配置）、消融节点（评估关键组件的贡献）、复制节点（使用不同随机种子重复实验以获取统计指标）和聚合节点（汇总复制节点的结果并生成可视化）。所有新生成的子节点并行执行，显著加速了探索过程；

图3a 四阶段实验进程的树搜索结构示意图

图3b 一次真实运行的树搜索过程示例，展示各阶段节点的具体实验内容

（4）VLM集成：在实验阶段，生成的图表被送入GPT-4o进行批评式审查，若发现坐标轴不清晰、图例缺失等问题，该节点将被标记为有错误；在论文撰写阶段，VLM还负责评估图表与图注的对齐质量，确保图注准确描述图表内容。

整个无模板式系统的生成过程通常耗时数小时至超过15小时，具体取决于研究问题的复杂程度。

自动化评审员

自动化评审员基于o4-mini构建，遵循NeurIPS官方评审指南，对输入的论文PDF输出包含数值评分（方法可靠性、表达质量、贡献度、总体质量和评审置信度）、优缺点列表及录用/拒绝决定的结构化评审意见。

为提升鲁棒性，最终评估结果是对五份独立评审的集成，并由一个扮演”领域主席”（Area Chair）角色的LLM进行元评审（Meta-review），在五份评审意见的基础上做出最终决定。这一设计模仿了真实学术会议的多级评审机制。

评估指标

本文的评估体系围绕自动化评审员与人类评审员的决策一致性展开，采用了一套在信息检索和分类任务中广泛使用的指标组合。由于论文录用决策本质上是一个二分类问题（录用或拒绝），且数据集中拒稿样本远多于录用样本，存在明显的类别不平衡问题，因此单一的准确率指标并不足够，需要多指标联合评估。

1. 平衡准确率（Balanced Accuracy）

平衡准确率是本文最核心的评估指标，其计算方式是对每个类别的准确率分别计算后取均值：

其中TP为真阳性（正确预测录用）、TN为真阴性（正确预测拒稿）、FP为假阳性（误将拒稿预测为录用）、FN为假阴性（误将录用预测为拒稿）。机器学习会议的拒稿率通常远高于录用率，若数据集中拒稿样本占多数，一个始终预测”拒稿”的平凡模型也能获得较高的普通准确率，却毫无实际意义。平衡准确率通过对两个类别等权处理，有效规避了这一问题。表1中”Always Reject”基线的平衡准确率恰好为0.50，印证了这一指标的合理性。

2. 普通准确率（Accuracy）

普通准确率即所有预测中正确预测所占的比例，作为辅助参考指标列于表1。

3. F1分数（F1 Score）

F1分数是精确率（Precision）和召回率（Recall）的调和均值：

其中精确率衡量预测为录用的样本中实际被录用的比例，召回率衡量实际被录用的样本中被正确预测的比例。F1分数在精确率和召回率之间寻求平衡，对于类别不平衡场景尤为适用。

4. AUC（Area Under the ROC Curve，ROC曲线下面积）

AUC衡量分类器在所有可能决策阈值下的整体区分能力，取值范围为0到1，随机分类器的AUC为0.5，完美分类器为1.0。与其他指标不同，AUC不依赖于特定的决策阈值，因而能更全面地反映分类器的内在性能。自动化评审员在截止日期前数据上的AUC为0.69，截止日期后为0.65，均显著优于随机基线（约0.50）。

5. 假阳性率（FPR，False Positive Rate）

假阳性率衡量实际应被拒稿的论文中被错误预测为录用的比例：

在学术评审场景中，假阳性意味着将不合格论文误判为合格，是一种需要重点控制的错误类型。表1中标注该指标”越低越好”（↓）。

6. 假阴性率（FNR，False Negative Rate）

假阴性率衡量实际应被录用的论文中被错误预测为拒稿的比例：

假阴性意味着将合格论文误判为不合格，同样是需要关注的错误类型，标注为”越低越好”（↓）。值得注意的是，表1中”Always Reject”基线的FNR为1.00，意味着它将所有录用论文全部误判，尽管其普通准确率看起来尚可（约0.65），这进一步说明了多指标联合评估的必要性。

统计方法

1. Bootstrap置信区间估计

Bootstrap方法是本文最主要的不确定性量化工具：从原始样本中有放回地重复抽样，每次抽取与原始样本等量的数据，重复5000次，每次计算目标统计量，最终用这5000个统计量的分布来估计置信区间。

本文采用95%置信区间，即将5000次模拟结果排序后取第2.5百分位和第97.5百分位作为区间边界。表1中各指标的误差范围均以此方式计算。Bootstrap方法的优势在于它对数据分布没有强假设，适用于样本量有限且分布形态未知的场景。

2. 非参数Bootstrap检验（Non-parametric Bootstrap Test）

在比较自动化评审员与人类评审员的F1分数时，本文使用了非参数Bootstrap检验来判断差异是否具有统计显著性。非参数方法不依赖正态分布等参数假设，通过重复重采样来直接估计检验统计量的零假设分布，适合本文中样本量相对有限、分布特征不明的评审数据。检验结果显示自动化评审员的F1分数显著优于人类组间一致性（p<0.001）。

3. 双样本Z检验（Two-sample Z-test）

在比较自动化评审员与人类评审员的准确率时，本文同时使用了双样本Z检验。Z检验适用于样本量较大、可近似正态分布的比例比较场景。具体而言，研究对截止日期前（自动化n=698，人类n=412）和截止日期后数据分别进行了检验。

结果显示，在截止日期前数据上，两者差异不显著（p=0.319）；在截止日期后数据上，差异同样不显著（p=0.921）。这意味着自动化评审员与人类评审员的决策准确率在统计上无法区分，为系统的有效性提供了支撑。

同时使用Bootstrap检验和Z检验的意义在于两者的互补性：Z检验基于参数假设，计算效率高；Bootstrap检验无分布假设，结论更为稳健。两种方法得出一致结论，可以显著增强统计推断的可信度。

4. 线性相关分析（Linear Correlation，R²）

在图1b中，研究团队对基础模型发布时间与论文质量评分之间的关系进行了线性回归拟合，报告了决定系数R²=0.517和p<0.00001。R²表示自变量（模型发布时间）能够解释因变量（论文质量）方差的比例，0.517意味着模型发布时间能解释约52%的论文质量变异。极低的p值则表明这一线性关系在统计上高度显著，不太可能是随机波动的产物。这一分析为”基础模型越新、论文质量越高”的结论提供了定量支撑。

03 结果

1.自动化评审员的有效性验证

在量化评估自动化评审员性能方面，研究结果显示其表现与人类评审员高度可比。如表1所示，在训练截止日期之前的数据（2017-2024年）上，自动化评审员的平衡准确率（Balanced Accuracy，对各类别准确率取均值，避免类别不平衡的干扰）达到69%，F1分数（综合考量精确率和召回率的综合性能指标）为0.62；而人类评审员（NeurIPS 2021实验）的对应指标分别为66%和0.49。在训练截止日期之后的新数据（2025年）上，自动化评审员的平衡准确率为66%，与人类评审员基本持平，表明其泛化能力良好，潜在的数据污染（Data Contamination，即测试数据可能被包含在模型训练集中）影响极为有限。

表1 人类评审员与自动化评审员的性能对比，涵盖平衡准确率、准确率、F1分数、AUC（曲线下面积，衡量分类器整体性能的综合指标）、假阳性率和假阴性率等多项指标，分别统计训练截止日期之前和之后的结果

2.论文质量随模型进步的提升趋势

图1b呈现了一个清晰的规律：随着底层基础模型的发布时间推移（即模型能力增强），AI科学家生成论文的质量持续提升，且这一相关性具有极高统计显著性（p<0.00001）。这一发现强烈暗示，随着基础模型能力的持续提升，系统的科研产出质量将获得实质性改善，具有乐观的技术演进前景。

图1b 不同基础模型版本下生成论文质量随时间的变化趋势

图1c 自动化评审员与人类评审员的决策一致性比较

3.计算资源与论文质量的正比关系

图3c表明，分配给每篇论文的实验节点数量越多（即投入的计算资源越多），自动化评审员给出的论文质量评分越高。这说明推理时计算投入和模型规模对AI科学家的输出质量均发挥重要作用，也预示着随着AI系统成本的指数级下降，系统性能将获得持续改善空间。

图3c 分配给每篇论文的实验节点数量与论文质量评分的关系，呈现正相关趋势

4.人类同行评审测试

在真实同行评审测试中，三篇AI生成论文被提交至ICLR 2025 ICBINB研讨会（该研讨会聚焦于深度学习的局限性与失败案例，整体录取率约70%）。其中一篇论文获得平均6.33分，位于所有43篇参评论文中的前45%，超过研讨会平均录取阈值。该论文报告的是一项负面结果（即实验未能支持最初假设的情形），与研讨会对”有价值的负面结论”的关注主题高度契合。组织方明确表示，该论文若非依据预定协议撤回，极有可能被正式录用。

图2 被同行评审接受的AI生成论文关键页面截图，展示标题与摘要（第1页）、技术方法（第2页）、数据可视化（第4页）和参考文献（第5页）等部分，直观呈现AI生成科学论文的完整面貌

另外两篇论文未达到录取标准。研究团队的内部评估（由团队中的人类AI研究员进行）也印证了这一判断：虽然一篇论文达到了研讨会标准，但三篇均未达到ICLR主会议的更高标准。

4.主要失败模式

尽管取得了上述成果，系统仍存在若干系统性缺陷：生成想法过于朴素或不够成熟；核心方法的代码实现存在错误；缺乏深层方法论严谨性；实验实施出现错误；在正文和附录中重复图表；以及多种形式的幻觉，尤其是不准确的文献引用。这些失败模式揭示了当前系统距离真正可靠的自主科研仍有相当距离。

综合来看，本研究的结果呈现出鲜明的双重性：系统已能产出通过同行评审的论文，这本身是一个历史性突破；但在一致性、创新深度和方法论严谨性方面，与顶尖人类科研仍有明显差距。正如研究所指出的，在机器学习领域，一旦某项技术开始初步奏效，规模化扩展往往能在数年内带来超预期的能力飞跃。以AI能够可靠完成的任务长度为例，有研究表明这一指标每7个月翻倍，意味着当前系统面临的许多工程瓶颈可能在不远的将来得到解决。然而，AI容易被”愚弄”以及过度自信的幻觉问题，仍是需要专项攻克的顽固挑战，这些问题若不解决，将持续制约我们对AI科学家输出结果的信任程度。

张丽娜|编辑排版

李仁德|审核

[ 分享者介绍 ]

LinaZhang graduated from Dalian University in 2024, majoring in engineering management. She is currently studying Management Science and Engineering at University of Shanghai for Science and Technology.

微信号｜共读共享共思