AI 已经开始自己做科研了?Nature 这篇论文有点震撼

Towards end-to-end automation of AI research

如果有一天，一篇论文不是人类研究者写的，而是 AI 自己想题目、查文献、写代码、跑实验、画图、写论文，最后还送去同行评审，你会觉得这是科幻吗？

论文提出了一个系统，叫 The AI Scientist。它不是普通的论文润色工具，也不是帮你写几行代码的助手，而是试图自动完成一整套科研流程。

自己想课题，自己做实验，自己写论文，自己接受评审。

一、它不是帮人写论文，而是自己走完整个科研流程

以前我们说 AI 辅助科研，通常是帮一个小环节。比如帮你查文献、写代码、润色论文、总结实验结果。

但 The AI Scientist 不一样。它做的是把这些环节全部串起来：

提出研究想法 → 查文献判断新不新 → 写实验代码 → 跑实验 → 画图 → 分析结果 → 写成论文 → 自动审稿。

这就不是“AI 帮我写一段内容”，而是 AI 尝试自己完成一篇研究论文的生产过程。

这篇论文里最震撼的案例，是作者真的把 AI 生成的论文拿去投稿了。

他们让 The AI Scientist 自动生成了 3 篇机器学习论文，然后提交到 ICLR 2025 的一个工作坊进行盲审。

ICLR 是机器学习领域的重要顶会。虽然工作坊门槛比主会低，但它依然是真实的同行评审流程。

评审人知道里面可能有 AI 生成论文，但不知道具体哪一篇是 AI 写的。

结果怎么样？

3 篇 AI 论文里，有 1 篇拿到了 6、7、6 的评审分数，超过了该工作坊的平均接收线。也就是说，如果不是研究者事先规定“AI 论文无论结果如何都要撤回”，这篇论文很可能会被接收。

这个案例真正值得关注的地方，不是 AI 写了一篇文章。而是它写出了一篇包含研究问题、实验代码、结果图表和论文结构的完整研究论文，并且经受住了真实同行评审的第一轮检验。

那篇差点被接收的 AI 论文，研究的是一个机器学习问题：

有些看起来能提升神经网络泛化能力的方法，实际效果可能并不好。

这类论文叫“负结果论文”。什么叫负结果？通俗说，就是告诉大家：这个方法我们试了，没那么有效。

很多人以为科研论文都要提出一个特别厉害的新方法，但其实负结果也很重要。因为它能告诉后来的人：这条路可能走不通，不要重复踩坑。

有意思的是，这篇 AI 生成论文刚好符合那个工作坊的主题：研究那些“本以为能让深度学习变好，但结果并没有明显变好”的方法。

也就是说，AI 不是随便编了一篇论文，而是对准了投稿场景，写出了一篇主题匹配的论文。

The AI Scientist 研究了一个问题：模型为什么会依赖捷径特征？什么叫捷径特征？举个简单例子。

假设你训练一个模型识别水鸟。正常来说，模型应该看鸟的形状、羽毛、嘴巴和翅膀。但如果训练数据里，大多数水鸟都出现在水面背景中，模型可能会偷懒。

它不是真的学会了识别水鸟，而是学会了：看到水面，就猜是水鸟。这就是捷径学习。

The AI Scientist 就围绕这个问题自动设计实验。它先构造带颜色偏差的数据集，让模型容易依赖颜色这种“捷径”；然后继续调参数、修代码、换数据集、加入新实验，最后做消融分析，判断哪些因素真的有用。

这个过程很像一个研究生在实验室里反复试错：

第一版不行，就改代码。结果不稳定，就调参数。结论不清楚，就补实验。最后再把实验整理成论文。区别是，这些步骤是 AI 自动完成的。

这篇论文还有一个关键设计：Automated Reviewer，也就是自动审稿人。它会像机器学习会议审稿人一样，对论文进行评价：

这篇论文可靠吗？实验充分吗？方法有贡献吗？表达清楚吗？最后应该接收还是拒稿？作者还用真实 ICLR 论文数据测试这个自动审稿人，发现它和人类审稿人的判断一致性接近。

当然，这篇论文并不是说 AI 已经可以取代科学家。论文也承认，The AI Scientist 还有很多问题：有些想法比较幼稚，代码可能出错，实验设计不够严谨，论文里可能出现幻觉引用，生成论文的质量也还达不到顶级会议主会标准。

而且，它目前主要适合机器学习这类可以在电脑上完成实验的领域。像医学实验、社会调查、田野研究、复杂理论创新，还远远不是它能独立完成的。但这篇论文真正重要的地方在于，它展示了一个趋势：

AI 正在从“科研辅助工具”，变成能够串联完整科研流程的智能体系统。