Nature:AI 不再只是科研助手,而开始尝试完成“从想法到论文”的完整科研闭环
摘要
本期 CFD@HPC 精选论文为 Nature 2026 年发表的 Towards end-to-end automation of AI research,中文可译为 《迈向人工智能研究的端到端自动化》。论文由 Sakana AI、牛津大学 FLAIR、英属哥伦比亚大学和 Vector Institute 等团队合作完成,发表于 Nature 第 651 卷,页码 914–919,DOI 为 10.1038/s41586-026-10265-5。
这篇论文值得关注,不是因为它宣称 AI 已经能够取代科学家,而是因为它第一次较系统地展示了一个名为 The AI Scientist 的智能体系统如何串联科研流程:提出研究想法、检索文献、编写代码、运行实验、绘图分析、撰写论文,并通过自动评审器完成质量评价。论文明确指出,该系统生成的一篇机器学习论文通过了顶级机器学习会议 ICLR 相关 workshop 的第一轮同行评审,但作者也强调,这一能力仍远未达到顶级主会论文水准。
一、问题:AI for Science 正在从“工具调用”走向“科研流程自动化”
过去几年,AI for Science 的典型应用主要集中在若干局部环节,例如蛋白质结构预测、材料发现、代码生成、数据分析、文献综述或实验设计。换句话说,AI 更像是科研人员手中的“高效率工具”,而不是一个能够独立推进研究闭环的系统。该论文指出,尽管科研流程中许多单点任务已经被部分自动化,但一个能够从“概念形成”一直走到“论文产出和同行评审”的系统,此前仍然没有真正实现。
这正是 The AI Scientist 想要挑战的问题:如果将大语言模型、代码智能体、文献检索工具、自动实验执行和自动评审机制组合起来,AI 是否能够完成一个最小闭环的科学研究过程?这里的研究对象被限定在机器学习科学领域,因为这类实验多数可以在计算机中完成,不需要真实湿实验平台或大型物理实验装置,因此更适合验证端到端自动化科研的可行性。
从工程科研角度看,这篇论文的核心意义在于:AI 正在从“辅助型工具”变成“流程型系统”。对于 CFD、化工过程模拟、优化设计、数字孪生和复杂装备研发而言,真正有价值的 AI 并不是单次回答问题,而是能否长期执行一组可追踪、可验证、可复盘的研究任务链。
二、方法:The AI Scientist 如何完成科研闭环?
论文中的系统由两个核心模块构成:一是负责生成科研工作的 AI Scientist,二是负责评估论文质量的 Automated Reviewer。The AI Scientist 有两种运行模式:一种是基于人工提供代码模板的聚焦模式,另一种是更开放的 template-free 模式,即在较少人工脚手架条件下,由智能体通过搜索和迭代完成研究探索。
在具体流程上,The AI Scientist 首先生成研究方向和假设,并利用 Semantic Scholar API 和网页访问能力进行文献检索,以过滤与已有工作过于相似的想法。随后,系统会执行实验计划,生成或修改代码,运行实验,记录实验日志,并输出图表和数据分析结果。最后,它会按照机器学习会议论文格式撰写完整 LaTeX 稿件,并在相关工作部分通过多轮文献检索补充引用。
实验执行部分尤其值得注意。template-free 版本并不是简单地顺序执行提示词,而是引入了 agentic tree search,即智能体树搜索。该过程包含初始实现、超参数调优、研究议程执行和消融实验四个阶段;每一阶段会选择表现较好的 checkpoint 继续展开后续搜索。论文结果显示,增加实验节点和推理时计算预算能够提升生成论文质量,说明科研智能体的能力不仅取决于基础模型本身,也取决于测试时计算资源和搜索策略。
三、结果:一篇 AI 生成论文通过了 workshop 同行评审,但边界仍然清晰
论文最受关注的结果是,研究团队将 3 篇由 The AI Scientist 生成的完整论文提交到 ICLR 2025 相关 workshop 的正式同行评审流程中。该实验获得了 ICLR 领导层、workshop 组织者和英属哥伦比亚大学伦理审查批准;评审者被告知有少量投稿为 AI 生成,但不知道具体是哪几篇。
在 3 篇 AI 生成稿件中,有 1 篇获得了评审平均分 6.33,三个评审分数分别为 6、7、6,高于该 workshop 的平均接收阈值。组织者认为,如果不是根据预设协议因 AI 生成身份而撤稿,该论文很可能被接收。该 workshop 的接收率为 70%,而 ICLR 2025 主会接收率为 32%,因此作者明确提醒:这并不等同于 AI 已达到顶级主会论文水平。
另一个关键数据来自自动评审器。作者使用 2017–2024 年论文和 2025 年“clean”数据集测试 Automated Reviewer,发现其对接收决策的 balanced accuracy 从 69% 降至 66%,但在 2025 年数据上仍达到约 66%,与人类评审表现相当。这说明自动评审器存在数据污染风险,但其评估能力并非完全依赖训练集记忆。
不过,这项工作也暴露了明显局限。作者总结的失败模式包括:研究想法过于朴素、方法深度不足、代码实现错误、实验执行问题、图表重复、引用幻觉和不准确引用等。研究团队内部评估也认为,虽然有 1 篇稿件达到 workshop 水准,但没有任何一篇达到 ICLR 主会论文标准。
四、意义:科研自动化正在逼近“研发操作系统”形态
这篇 Nature 论文对 AI 新技术的启示在于:未来高价值 AI 系统不会只停留在聊天、写作或代码补全,而会向“研发流程操作系统”演进。对于工程领域,尤其是 CFD 仿真、化工过程强化、数字孪生、材料设计和装备优化,类似系统有潜力承担参数扫描、模型对比、文献检索、代码实验、结果汇总和报告生成等任务。
但更重要的是,论文提醒我们:自动化科研必须建立在可验证、可追溯、可披露的机制之上。AI 可以加速发现,也可能制造低质量论文、评审压力和虚假引用。真正可落地的 AI for Engineering,不是让 AI 自说自话,而是让 AI 在人类专家设定的边界、数据、物理约束和质量标准中高效工作。
局限性与编辑点评
从 CFD@HPC 的角度看,The AI Scientist 更像是一个“科研流程自动化原型”,而不是成熟科学家替代方案。它的优势在于流程闭环清晰,能够把想法、代码、实验、图表和论文串联起来;短板在于缺乏深层物理判断、工程边界识别和原创性理论突破能力。
对于工程科研人员,这篇论文最值得借鉴的不是“让 AI 自动写论文”,而是其流程设计思想:把复杂科研任务拆分为可执行、可检查、可回滚的节点,并在每个节点引入自动评估与人类复核。未来在 CFD、化工过程模拟、管网数字孪生和多目标优化中,类似智能体框架可能成为高通量科研和工程设计的重要基础设施。
参考链接
-
Lu, C., Lu, C., Lange, R. T. et al. Towards end-to-end automation of AI research. Nature651, 914–919 (2026). DOI: 10.1038/s41586-026-10265-5. 官方论文页面见 Nature。(Nature)
-
论文作者与单位:Sakana AI, Tokyo, Japan;FLAIR, University of Oxford, UK;University of British Columbia, Canada;Vector Institute, Canada。(Nature)
推荐阅读人群: AI for Science 研究人员、工程仿真与数字孪生开发者、科研管理人员、研究生、以及关注人工智能如何改变科研组织方式的工程技术读者。
夜雨聆风