AI审稿,还没准备好-夜雨聆风

AI审稿,还没准备好

你有没有想过，未来评判你呕心沥血写出的科学论文的，可能不再是人类专家，而是一个AI？

随着投稿量激增，科学家们忙不过来，不少顶级学术会议已经开始悄悄让 AI 参与审稿。这听起来高效又酷炫，但一篇研究 [1] 却给这股热潮泼了一大盆冷水。研究者们通过大量实验发现，让今天的 AI 当审稿人，不仅可能让所有论文都变得“千篇一律”，而且你甚至只用花两块多钱，就能轻易骗它给你的论文打出高分。

第一个问题：AI审稿人是个“复读机”

这篇研究的第一个发现，叫做“蜂群思维”效应。简单说，就是AI审稿人没有自己的“个性”和独到见解。

研究者分析了顶级会议 ICLR 2026 超过七万五千条审稿意见后发现，人类专家给同一篇论文写的评语，常常各有侧重，有人看到亮点，有人发现致命伤。但 AI 呢？它们给出的评语相似度高得惊人。不只是评同一篇论文时意见容易“撞车”，哪怕看的是完全不同的论文，AI 也爱反反复复用那几个固定的问话模板，比如“你的方法对参数敏感吗？”或者“能不能再提供点细节？”。

这很糟糕。因为科学进步的关键，就在于汇集不同的视角，碰撞出新的火花。如果一群AI审稿人本质上在说着差不多的话，那就意味着我们正在失去多元化带来的宝贵智慧。研究还发现，AI 打的分数对未来该论文影响力的预测能力，远不如人类专家打的分数。

第二个问题：花两块五，就能让 AI 给你的论文“放水”

如果说“同质化”还只是让人担心，那第二个发现就更像一个现实存在的漏洞，研究者称之为“论文洗稿”。

操作流程简单得令人吃惊。你只需要把论文发给一个大语言模型，告诉它“请根据顶尖会议的审稿标准，帮我把这篇论文润色一下”，然后把生成的新版本再提交给AI审稿人。结果怎么样？论文的得分平均显著提升了0.28分（满分10分）。

这可不是因为科学内容真的变好了。研究者对比发现，所谓“润色”，并不是补充了实验、修正了逻辑，而主要是做了些表面的“语言化妆”——比如加了很多“也许”、“可能”这类让语气显得更谨慎的词，或者把“好”改成“出奇的强大”这类更夸张的强调词。更有甚者，AI会凭空杜撰出一些没有做过的实验分析，让文章看起来更“扎实”。

这个操作的全过程无需人工监督，成本每篇仅仅 0.25 美元。更关键的是，这种利用AI美化语言来刷高分的行为，目前并不违反任何会议规定。如果大家都开始“洗稿”，最后整个科学界的论文风格都会变得越来越像，形成一种可怕的“知识单一文化”。

我们的结论：别急着让AI“判卷”

看到这里你可能会问，既然人类审稿也有偏见，为什么不给更“高效”的AI一个机会呢？

论文作者解释说，这里有个关键区别。人类专家的偏见是“分布式”的，你有你的偏好，我有我的专长，大家一综合，很多偏见能互相抵消。但AI的偏见是“集中式”的，一旦某个模型有偏好，所有依赖它的审稿结果都会朝同一个方向偏，造成系统性的不公。

所以，这篇研究并不是要全盘否定AI。相反，它是在郑重呼吁，在把决定研究者职业生涯的“生杀大权”交给 AI 之前，我们必须先建立一套严格的“同行评审自动化科学”来评估它。在没通过足够的安全和多样性测试之前，AI 可以当助理，但绝不能让它当裁判。

[1] https://joe-baumann.com/aipeerreview.pdf