乐于分享
好东西不私藏

AI 已经开始自己做科研了?Nature 这篇论文有点震撼

AI 已经开始自己做科研了?Nature 这篇论文有点震撼

Towards end-to-end automation of AI research

    如果有一天,一篇论文不是人类研究者写的,而是 AI 自己想题目、查文献、写代码、跑实验、画图、写论文,最后还送去同行评审,你会觉得这是科幻吗?

    论文提出了一个系统,叫 The AI Scientist。它不是普通的论文润色工具,也不是帮你写几行代码的助手,而是试图自动完成一整套科研流程

    自己想课题,自己做实验,自己写论文,自己接受评审。

    一、它不是帮人写论文,而是自己走完整个科研流程

    以前我们说 AI 辅助科研,通常是帮一个小环节。比如帮你查文献、写代码、润色论文、总结实验结果。

    但 The AI Scientist 不一样。它做的是把这些环节全部串起来:

    提出研究想法 → 查文献判断新不新 → 写实验代码 → 跑实验 → 画图 → 分析结果 → 写成论文 → 自动审稿。

    这就不是“AI 帮我写一段内容”,而是 AI 尝试自己完成一篇研究论文的生产过程

    二、最有冲击力的案例:AI 论文真的去参加了同行评审

    这篇论文里最震撼的案例,是作者真的把 AI 生成的论文拿去投稿了。

    他们让 The AI Scientist 自动生成了 3 篇机器学习论文,然后提交到 ICLR 2025 的一个工作坊进行盲审。

    ICLR 是机器学习领域的重要顶会。虽然工作坊门槛比主会低,但它依然是真实的同行评审流程。

    评审人知道里面可能有 AI 生成论文,但不知道具体哪一篇是 AI 写的。

    结果怎么样?

    3 篇 AI 论文里,有 1 篇拿到了 6、7、6 的评审分数,超过了该工作坊的平均接收线。也就是说,如果不是研究者事先规定“AI 论文无论结果如何都要撤回”,这篇论文很可能会被接收

    这个案例真正值得关注的地方,不是 AI 写了一篇文章。而是它写出了一篇包含研究问题、实验代码、结果图表和论文结构的完整研究论文,并且经受住了真实同行评审的第一轮检验

    三、这篇 AI 论文研究了什么?

    那篇差点被接收的 AI 论文,研究的是一个机器学习问题:

    有些看起来能提升神经网络泛化能力的方法,实际效果可能并不好。

    这类论文叫“负结果论文”。什么叫负结果?通俗说,就是告诉大家:这个方法我们试了,没那么有效

    很多人以为科研论文都要提出一个特别厉害的新方法,但其实负结果也很重要。因为它能告诉后来的人:这条路可能走不通,不要重复踩坑。

    有意思的是,这篇 AI 生成论文刚好符合那个工作坊的主题:研究那些“本以为能让深度学习变好,但结果并没有明显变好”的方法。

    也就是说,AI 不是随便编了一篇论文,而是对准了投稿场景,写出了一篇主题匹配的论文

    四、案例2:AI 自己设计实验,还会不断修改路线

    The AI Scientist 研究了一个问题:模型为什么会依赖捷径特征?什么叫捷径特征?举个简单例子。

    假设你训练一个模型识别水鸟。正常来说,模型应该看鸟的形状、羽毛、嘴巴和翅膀。但如果训练数据里,大多数水鸟都出现在水面背景中,模型可能会偷懒。

    它不是真的学会了识别水鸟,而是学会了:看到水面,就猜是水鸟。这就是捷径学习

    The AI Scientist 就围绕这个问题自动设计实验。它先构造带颜色偏差的数据集,让模型容易依赖颜色这种“捷径”;然后继续调参数、修代码、换数据集、加入新实验,最后做消融分析,判断哪些因素真的有用。

    这个过程很像一个研究生在实验室里反复试错

    第一版不行,就改代码。结果不稳定,就调参数。结论不清楚,就补实验。最后再把实验整理成论文。区别是,这些步骤是 AI 自动完成的。

    五、它还做了一个“AI 审稿人”

    这篇论文还有一个关键设计:Automated Reviewer,也就是自动审稿人。它会像机器学习会议审稿人一样,对论文进行评价:

    这篇论文可靠吗?实验充分吗?方法有贡献吗?表达清楚吗?最后应该接收还是拒稿?作者还用真实 ICLR 论文数据测试这个自动审稿人,发现它和人类审稿人的判断一致性接近。

    AI 还不是伟大科学家,但它已经像一个初级研究者了

    当然,这篇论文并不是说 AI 已经可以取代科学家。论文也承认,The AI Scientist 还有很多问题:有些想法比较幼稚,代码可能出错,实验设计不够严谨,论文里可能出现幻觉引用,生成论文的质量也还达不到顶级会议主会标准。

    而且,它目前主要适合机器学习这类可以在电脑上完成实验的领域。像医学实验、社会调查、田野研究、复杂理论创新,还远远不是它能独立完成的。但这篇论文真正重要的地方在于,它展示了一个趋势:

    AI 正在从“科研辅助工具”,变成能够串联完整科研流程的智能体系统。