Nature:AI 不再只是科研助手,而开始尝试完成“从想法到论文”的完整科研闭环-夜雨聆风

Nature:AI 不再只是科研助手,而开始尝试完成“从想法到论文”的完整科研闭环

摘要

本期 CFD@HPC 精选论文为 Nature 2026 年发表的 Towards end-to-end automation of AI research，中文可译为 《迈向人工智能研究的端到端自动化》。论文由 Sakana AI、牛津大学 FLAIR、英属哥伦比亚大学和 Vector Institute 等团队合作完成，发表于 Nature 第 651 卷，页码 914–919，DOI 为 10.1038/s41586-026-10265-5。

这篇论文值得关注，不是因为它宣称 AI 已经能够取代科学家，而是因为它第一次较系统地展示了一个名为 The AI Scientist 的智能体系统如何串联科研流程：提出研究想法、检索文献、编写代码、运行实验、绘图分析、撰写论文，并通过自动评审器完成质量评价。论文明确指出，该系统生成的一篇机器学习论文通过了顶级机器学习会议 ICLR 相关 workshop 的第一轮同行评审，但作者也强调，这一能力仍远未达到顶级主会论文水准。

一、问题：AI for Science 正在从“工具调用”走向“科研流程自动化”

过去几年，AI for Science 的典型应用主要集中在若干局部环节，例如蛋白质结构预测、材料发现、代码生成、数据分析、文献综述或实验设计。换句话说，AI 更像是科研人员手中的“高效率工具”，而不是一个能够独立推进研究闭环的系统。该论文指出，尽管科研流程中许多单点任务已经被部分自动化，但一个能够从“概念形成”一直走到“论文产出和同行评审”的系统，此前仍然没有真正实现。

这正是 The AI Scientist 想要挑战的问题：如果将大语言模型、代码智能体、文献检索工具、自动实验执行和自动评审机制组合起来，AI 是否能够完成一个最小闭环的科学研究过程？这里的研究对象被限定在机器学习科学领域，因为这类实验多数可以在计算机中完成，不需要真实湿实验平台或大型物理实验装置，因此更适合验证端到端自动化科研的可行性。

从工程科研角度看，这篇论文的核心意义在于：AI 正在从“辅助型工具”变成“流程型系统”。对于 CFD、化工过程模拟、优化设计、数字孪生和复杂装备研发而言，真正有价值的 AI 并不是单次回答问题，而是能否长期执行一组可追踪、可验证、可复盘的研究任务链。

二、方法：The AI Scientist 如何完成科研闭环？

论文中的系统由两个核心模块构成：一是负责生成科研工作的 AI Scientist，二是负责评估论文质量的 Automated Reviewer。The AI Scientist 有两种运行模式：一种是基于人工提供代码模板的聚焦模式，另一种是更开放的 template-free 模式，即在较少人工脚手架条件下，由智能体通过搜索和迭代完成研究探索。

在具体流程上，The AI Scientist 首先生成研究方向和假设，并利用 Semantic Scholar API 和网页访问能力进行文献检索，以过滤与已有工作过于相似的想法。随后，系统会执行实验计划，生成或修改代码，运行实验，记录实验日志，并输出图表和数据分析结果。最后，它会按照机器学习会议论文格式撰写完整 LaTeX 稿件，并在相关工作部分通过多轮文献检索补充引用。

实验执行部分尤其值得注意。template-free 版本并不是简单地顺序执行提示词，而是引入了 agentic tree search，即智能体树搜索。该过程包含初始实现、超参数调优、研究议程执行和消融实验四个阶段；每一阶段会选择表现较好的 checkpoint 继续展开后续搜索。论文结果显示，增加实验节点和推理时计算预算能够提升生成论文质量，说明科研智能体的能力不仅取决于基础模型本身，也取决于测试时计算资源和搜索策略。

三、结果：一篇 AI 生成论文通过了 workshop 同行评审，但边界仍然清晰

论文最受关注的结果是，研究团队将 3 篇由 The AI Scientist 生成的完整论文提交到 ICLR 2025 相关 workshop 的正式同行评审流程中。该实验获得了 ICLR 领导层、workshop 组织者和英属哥伦比亚大学伦理审查批准；评审者被告知有少量投稿为 AI 生成，但不知道具体是哪几篇。

在 3 篇 AI 生成稿件中，有 1 篇获得了评审平均分 6.33，三个评审分数分别为 6、7、6，高于该 workshop 的平均接收阈值。组织者认为，如果不是根据预设协议因 AI 生成身份而撤稿，该论文很可能被接收。该 workshop 的接收率为 70%，而 ICLR 2025 主会接收率为 32%，因此作者明确提醒：这并不等同于 AI 已达到顶级主会论文水平。

另一个关键数据来自自动评审器。作者使用 2017–2024 年论文和 2025 年“clean”数据集测试 Automated Reviewer，发现其对接收决策的 balanced accuracy 从 69% 降至 66%，但在 2025 年数据上仍达到约 66%，与人类评审表现相当。这说明自动评审器存在数据污染风险，但其评估能力并非完全依赖训练集记忆。

不过，这项工作也暴露了明显局限。作者总结的失败模式包括：研究想法过于朴素、方法深度不足、代码实现错误、实验执行问题、图表重复、引用幻觉和不准确引用等。研究团队内部评估也认为，虽然有 1 篇稿件达到 workshop 水准，但没有任何一篇达到 ICLR 主会论文标准。

四、意义：科研自动化正在逼近“研发操作系统”形态

这篇 Nature 论文对 AI 新技术的启示在于：未来高价值 AI 系统不会只停留在聊天、写作或代码补全，而会向“研发流程操作系统”演进。对于工程领域，尤其是 CFD 仿真、化工过程强化、数字孪生、材料设计和装备优化，类似系统有潜力承担参数扫描、模型对比、文献检索、代码实验、结果汇总和报告生成等任务。

但更重要的是，论文提醒我们：自动化科研必须建立在可验证、可追溯、可披露的机制之上。AI 可以加速发现，也可能制造低质量论文、评审压力和虚假引用。真正可落地的 AI for Engineering，不是让 AI 自说自话，而是让 AI 在人类专家设定的边界、数据、物理约束和质量标准中高效工作。

局限性与编辑点评

从 CFD@HPC 的角度看，The AI Scientist 更像是一个“科研流程自动化原型”，而不是成熟科学家替代方案。它的优势在于流程闭环清晰，能够把想法、代码、实验、图表和论文串联起来；短板在于缺乏深层物理判断、工程边界识别和原创性理论突破能力。

对于工程科研人员，这篇论文最值得借鉴的不是“让 AI 自动写论文”，而是其流程设计思想：把复杂科研任务拆分为可执行、可检查、可回滚的节点，并在每个节点引入自动评估与人类复核。未来在 CFD、化工过程模拟、管网数字孪生和多目标优化中，类似智能体框架可能成为高通量科研和工程设计的重要基础设施。

参考链接

Lu, C., Lu, C., Lange, R. T. et al. Towards end-to-end automation of AI research. Nature651, 914–919 (2026). DOI: 10.1038/s41586-026-10265-5. 官方论文页面见 Nature。(Nature)
论文作者与单位：Sakana AI, Tokyo, Japan；FLAIR, University of Oxford, UK；University of British Columbia, Canada；Vector Institute, Canada。(Nature)

推荐阅读人群： AI for Science 研究人员、工程仿真与数字孪生开发者、科研管理人员、研究生、以及关注人工智能如何改变科研组织方式的工程技术读者。